Notes de laboNotesNotes de lecture

Notes de lecture : Cavoukian, Ann. A Primer on Metadata: Separating Fact from Fiction

À propos de : Cavoukian, Ann. A Primer on Metadata: Separating Fact from Fiction (Information and Privacy Commissioner of Ontario, Canada, 1973).

Couverture de: Cavoukian, Ann. A Primer on Metadata: Separating Fact from Fiction (Information and Privacy Commissioner of Ontario, Canada, 1973)

Ces Notes de lectures citent et commentent le texte dans sa langue originelle, ici l’anglais.

Tweets from Privacy by Design (@embedprivacy) signaled the publication of A Primer on Metadata: Separating Fact from Fiction (18 pages PDF document). As I am currently working on a related subject, I read it at once… and was disappointed. The actual primer on what is metadata is only two pages long, rather minimal, inaccurate and not quite convincing.

Metadata (formal definition):

« Metadata is (…) essentially information about other information, in this case, relating to our communications. »

In this case : « Metadata is information generated by our communications devices and our communications service providers, as we use technologies like landline telephones, mobile phones, desktop computers, laptops, tablets or other computing devices. »

Cavoukian, 2013, p. 3

Metadata (descriptive definition) : « Metadata includes information that reveals the time and duration of a communication, the particular devices, addresses, or numbers contacted, which kinds of communications services we use, and at what geolocations. And since virtually every device we use has a unique identifying number, our communications and Internet activities may be linked and traced with relative ease – ultimately back to the individuals involved. »

Cavoukian, 2013, p. 3

 

As presented in the document, these two definitions are at odds with one another: the formal one referring to information items about other information items; but not the descriptive definition which is rather referring to information about processes. But computer specialists do recognize many kinds of metadata, even though they might use different typologies.

The few lines entitled « A Day in the Life… » (pp. 3-4) provide a good illustration of how (processes) « metadata created by the devices that two individuals use to communicate with each other can reveal a great deal » about them.

Finally, the section « Metadata May Be More Revealing Than Content » (pp. 4-5) reads more like a series of arguments from authority than as an actual demonstration.

Need for evidenced arguments

Coincidently, answering engineering students in a lecture made at Polytechnique Montréal last week, I had to remind that an information set would be metadata, not by some intrinsic nature, but merely by the context of its initial production and use. Classically, the term data referred to information items that are available (or to be produced) for the solution of a problem or the completion of a reasoning, an inquiry or a research. As soon as one so uses « metadata » (what ever the type), they become « data ». Thus, no longer are « metadata ».

From the very first universal purpose computing machine, computers – and digital devices since – require metadata to work. And they also produce other metadata as by-products of their processes. And from the dawn of informatics, those metadata were at once reused as data.

There is nothing new with using metadata to produce knowledge about people. A classic example is the introduction of the computerized cash registers. As the machine processes the customers’ purchases, it produces clock metadata than can be used to asses the clerks’ speeds to punch (now scan) items, to take payments and give change, to pack the goods and pass to the next customers.

Anytime an operation is linkable to a human user, the operations’ metadata can be exploited as data about this human user (and anyone related to that person). Videogames provides good examples of how the same outputs can simultaneously be processes’ metadata and players’ data.

These relative artificiality and mutability of the distinction between data and metadata become obvious when one considers (as these tweet structure maps show) that making a tweet of a maximum of 140 characters can easily require the production of between 500 and 1000 characters of metadata which include… the tweet message itself !

And indeed, the « metadata »/ »data » relative weights in todays’ particular instances can often be startling… if one can still distinguish between the two.

Also, need to make evidences evident

How come that there is no readily available button on which I could click to see the whole tweet actually produced, not only the message I wrote and sent?

Or how come that there is no readily available command to display what information my mobile phone service actually produces minute by minute?

And as I pointed out to Polytechnique’s engineering students: if NSA’s work is essentially done with computerized devices, how come Congress does not have a dashboard that harness the metadata about what kinds of operations NSA actually does? If such metadata would have been available, could Director James Clapper, been able to lie so easily about NSA’s operations before Congress? And Congress only discovering it through documents leaked by a whistleblower? After all, would it not be only metadata about systems’ uses, not data from the individual intelligence operations themselves? ;-)

Such are questions of critical and practical political significance. Because they breed other questions about who decides the production of such information. About its uses. About who control them. About their consequences. And so on. Of critical and practical significance also because they could turn a defensive stance into one of political affirmation. Such questions stem from an understanding of the nature of what information and information processing are. This is why it is so important to deepen and strengthen such understanding as well as to popularize it and make it useable by all citizens.

So if you know any instructive work on the subject…

Projet « Par delà la vie privée »CommunicationsNotes de laboVivre entre les lignesNotesNotes de lecture

Structure du message Twitter pour les nuls (2012)

Couverture provisoire du livre : Titre : « Vivre entre les lignes : la société de l'information à travers nos information personnelles » - Mentions : « Par delà la vie privée - Livre en chantier ouvert »

Ce billet porte sur le Projet « Par delà la vie privée » : VIVRE ENTRE LES LIGNES la société de l’information à travers nos informations personnelles.

Comme il s’agit d’un chantier de rédaction ouvert d’un livre de vulgarisation,

n’hésitez-pas à commenter !

Toute remarque aide à l’améliorer.

Plusieurs ont probablement aperçu la Map of a Twitter status object (structure objet d’un message Twitter) ci-dessous. Produit par Raffi Krikorian, du département d’ingénierie de Twitter, ce tableau d’une page est devenu vite populaire. Car, il illustrait en une seule image qu’un message Twitter ne résumait pas du tout à une simple ligne de texte de 140 caractères.

Même si ce document et ses annotations s’adressaient d’abord aux développeurs d’applications numériques, ils avaient une forte valeur éducative. Je l’ai utilisé souvent. Il fallait voir s’écarquiller de surprise et de curiosité les yeux des étudiants en droit de l’information! Il devenait aisé de passer le message qu’il faut faire ses devoirs lorsqu’on évalue une pratique informationnelle. Ne pas se contenter des seules informations et processus apparents. Il faut comprendre ce qui se passe réellement dans la boite noire. Quitte à demander un coup de main à des informaticiens.

Je rédige un nouveau chapitre de livre intitulé « Unités de production ». Il explique que le maniement d’objets informations nous permet d’en produire de nouveaux. Or cette tâche exige, souvent à notre insu, la production d’autres informations encore, soit pour la réaliser, soit pour la décrire. L’exemple du tweet de 140 caractères qui, en fait, comporte des milliers de caractères de lignes de code me semble excellent pour illustrer ce propos.

J’ai donc entrepris de produire un nouveau tableau qui serait à jour ainsi que plus clair, lisible et compréhensible par des non-spécialistes.

Liste partielle des informations liées à un tweet (petit)

Le résultat est ce tableau s’étalant sur deux pages. Cependant, il en aurait fallu trois pour être exhaustif. Cliquez ci-après pour accéder à :

L’exercice m’a, entre autres, révélé la présence de champs concernant le blocage de messages ou de comptes entiers d’utilisateurs à la demande d’autorités publiques, de détenteurs de droits d’auteur ou d’autres. Il m’a aussi révélé que la mappe n’est pas que celle d’un message (tweet), mais aussi de toutes les informations coproduites avec celui-ci. Dans la mesure, où toutes ces informations sont accessibles en pratique, la distinction ne relève peut-être que de la nuance. D’un point de vue pédagogique cependant, elle mérite d’être signalée.

Autre révélation, j’ai détecté dans le tableau originel de Krikorian quelques coquilles de syntaxe, de description et de statut des champs décrits. Étant loin d’être ingénieur chez Twitter, je vous serais fort reconnaissant si vous me signaliez toute coquille ou erreur dans le nouveau tableau ici proposé.

1 comment |
line
footer
Powered by WordPress | Designed by Elegant Themes