Open-data et format

Il n’y a pas de doute, l’open-data est un sujet qui a une place importante aujourd’hui dans l’éco-système numérique. Il fait un peu suite, à mon avis, à la montée en puissance de l’open-source. L’édition numérique, aujourd’hui, est menée par ces logiciels libres, qu’ils soient moteurs de blogs, CMS, logiciels …

J’essaye de faire le parallèle entre ces 2 choses car l’open-data a de quoi apprendre du logiciel libre. Apprendre des erreurs commises par ce dernier, qu’il ne faut pas (si c’est encore possible), reproduire.

Tout d’abord, l’essence même d’un logiciel libre, tout comme pour l’open-data, c’est la communauté qu’il fédère autour de lui. Après tout, les données mises à disposition dans le cadre d’une politique open-data sont destinées à être utilisées. Si on suit ce raisonnement, c’est le public (bien que centrés sur les consommateurs de données, comme les développeurs, les journalistes…) qui est concerné.

Pour que l’utilisation soit aisée, il est impératif que le format utilisé possède une base solide de structuration.
Il est de bon ton de rappeler ce qu’est une base de données :

Une base de données est un conteneur servant à stocker des données : des renseignements bruts tels que des chiffres, des dates ou des mots, qui peuvent être retraités par des moyens informatiques en vue de produire une information; par exemple, des chiffres et des noms assemblés et triés pour former un annuaire téléphonique. […] Une base de données est la pièce centrale d’un dispositif informatique dit système de base de données ou base de données tout court, qui régit la collecte, le stockage, le retraitement et l’utilisation de données.

Pour que cette pièce centrale soit un pilier solide, elle doit répondre à plusieurs demandes :

  • la précision,
  • l’exactitude,
  • et la validité.

Toutes ces règles attestent de l’intégrité des données.

En ce qui concerne la validité, sont laissées aux utilisateurs les taches de croiser et vérifier les données. Pour l’exactitude et la précision, c’est là qu’intervient le web sémantique.

Il serait simple de pointer du doigt les structures qui font les choses de la mauvaise manière. Cependant, même si l’article était au départ prévu pour être plus un coup de gueule qu’un article « de fond », je vais essayer, plutôt que jouer les donneurs de leçons, de montrer une manière de faire qui me semble plus adaptée.

Le format

Des lors que l’on se rend sur Open Paca, le portail régional des données publiques (une très bonne initiative pour l’accès aux données), nous avons accès à un panorama de bases de données avec des formats tous très différents.

Lors de mon travail à Marseille-Provence 2013, j’ai eu l’occasion de me confronter à cette problématique. En effet, dans le cadre du projet d’ouverture des données publiques de MP2013, il m’a été demandé de travailler sur l’accès à nos données, i.e. celles de nos évènements. À l’origine, pour répondre à cette demande, un fichier XML était mis à notre disposition par un partenaire de l’association. Cette démarche avait plusieurs avantages (avant de s’intéresser à la question de fond), nous entrions les données sur le site de ce partenaire, et nous pouvions les synchroniser via ce fichier sur notre site, et les proposer au plus grand nombre sous licence ouverte.

Seulement voilà.

La réalisation du fichier était telle qu’il était très compliqué d’en extraire toutes les informations. Les dates des évènements par exemple, pouvaient être représentées de plusieurs manières, selon le type de lieu qui l’accueillait (un musée avec des horaires bien précis, une salle de concert ouverte pour la soirée …).
Même problème pour les lieux, qui pouvaient être définis de plusieurs manières, selon si c’était un lieu précis ou un quartier dans Marseille.

Il m’a donc fallu effectuer un travail énorme d’investigation afin d’essayer d’en retirer le maximum de chose (sans pouvoir le faire au maximum).

Et c’est bien là un des intérêts majeurs de bien formater l’information. Il faut bien comprendre que lorsque l’on crée un outil pour l’accessibilité aux données dans l’entreprise ou la structure, réinventer la roue ne fait pas avancer les choses plus vites. Le travail de fond est déjà entrepris, l’affichage des données n’en est que le bout du tunnel.

Pour vous donner un exemple bien précis, j’ai souhaité vous montrer que réaliser un jeu de données standardisé n’implique pas forcément beaucoup de travail. Pour cela, j’ai pris, sur le site d’Open PACA, la programmation du théâtre de l’Odeon. Le fichier, disponible sous plusieurs formats (que je ne discuterai pas aujourd’hui), est un tableau d’évènements.

[table caption= »Just test table »]
Titre,Auteur,Résumé,Date,Heure
Réda Caire, Serge Hureau et Olivier Hussenet, « Il y a 50 ans disparaissait un chanteur singulier qui marqua de sa voix et de son charme l’histoire de la chanson et de l’opérette […] », 9/12/2013, 20h30
MONSIEUR BEAUCAIRE, Livret d’André Rivoire inspiré de la nouvelle de Booth Tarkington Musique: André Messager, , 10/13/2013, 14h30
Les Menteurs, Anthony Neilson, « âgées au coeur âgées au coeur fragile deux braves “bobbies” appuient sur la sonnette d’un petit pavillon le soir de Noël[…] », 10/30/2013, 20h30
[/table]

Je n’en ai copié que 3, les autres étant tous au même format.

Pour commencer, un rapide passage sur la quantité d’informations. Une photo ou une image aurait été utile pour éviter d’utiliser une mauvaise représentation. Pour pouvoir en trouver assez rapidement et libre de droit (car proposer une photo qu’un journaliste ou développeur ne peut pas utiliser ne sert évidement à rien), il suffit de se rendre sur Google Image et de modifier les paramètres de recherche pour qu’il vous propose des résultats pertinents.
Un lien vers la fiche billetterie aurait aussi permis de faire d’une pierre deux coups, en y associant le côté économique. Enfin, quelques mots-clés ou catégories permettrait de trier plus simplement les évènements et ainsi mieux les associer ou les éditorialiser.

Sur le format maintenant. Les données étant destinées à être utilisées par le plus grand nombre, il est important de garder un format commun. Les dates, par exemple, devraient toutes être définies de la même manière, en utilisant la norme ISO-8601. Cette notation est particulièrement destinée à éviter tout risque de confusion dans les communications internationales dû au grand nombre de notations nationales différentes. De plus, cette notation a de nombreux avantages pour une utilisation informatique par rapport aux autres notations, comme par exemple :

  • Facile à lire et à écrire par un logiciel (pas de nom à traduire) ;
  • Facile à comparer et à classer (en gardant un format fixe dans un contexte donné) ;
  • Indépendant de la langue ;
  • La notation est petite et de taille constante ;
  • Compréhension intuitive des éléments de date et d’heure de la notation.

Afin de se simplifier la tache (surtout lorsque l’on crée son fichier à la main), il existe de nombreux site pour formater une date. Par exemple, la première date de représentation de Réda Caire aura pour équivalent : 2013-09-12T20:30:00+02:00 .

Intérêts mutuels

Avant de conclure, j’aimerais revenir une nouvelle fois sur les intérêts qu’apporte l’open-data. Selon Vincent Videlaine, directeur EMEA Strategic Alliances et Services Providers chez Symantec :

Les entreprises voient leur volume de données exploser chaque année. 80 % de ce volume concerne aujourd’hui des données non structurées.

Même si cette citation est extraite d’un article montrant la trop forte habitude des grandes entreprises, de conserver des données alors même qu’elles n’ont plus d’utilité, le rapprochement est assez intéressant avec l’open-data.

La conservation des données a un coût, que ce soit dans une entreprise ou une collectivité. Dans le premier cas, une partie est utilisées pour mieux cibler le client, améliorer les produits. Bref, faire du chiffre d’affaire. Quand il s’agit d’une collectivité ou d’une structure culturelle par exemple, l’exploitation des données est plus difficile. Elle prend du temps, coute de l’argent. C’est là qu’intervient l’open-data. Il faut voir cette ouverture numérique comme une manière de rendre profitable le travail de récolte et de re-distribution des données.
Reprenons l’exemple du Théâtre de l’Odéon. Une première étape a été franchie en mettant à disposition un fichier avec la programmation du lieu. Avec des informations un peu plus fournies ET complétées d’un lien vers la fiche billetterie de l’évènement, il est fort probable que l’application ou le site utilisant ce fichier présentera à ses visiteurs un lien vers la fiche afin d’acheter un billet.

Mais nous pouvons aller plus loin dans le raisonnement. Une donnée structurée est aussi utile à court terme pour son propre site. Les moteurs de recherche principaux, comme Google, prennent en compte les microformats. Ce type de balisage est reconnu et permet un affichage amélioré via les informations que vous donnez, dans les résultats de recherche. Même si cela est très difficile à démontrer dans les chiffres, de nombreux site estiment une augmentation de plus de 30% de leur CTR (taux de clics). Plus de clics, plus de visites, plus de visites, probablement plus de ventes.

Je vous invite à vous rendre sur l’article « Des microformats pour améliorer votre référencement » si vous souhaitez en savoir plus.

Enfin, n’oublions pas le parallèle avec les logiciels open-source. WordPress, désormais célèbre CMS/moteur de blog, propulsait déjà en 2011 14,7% du top 1000000 des sites internet dans le monde. 48% en 2012 des blogs les plus influents (top 100) utilisaient WP comme leur moteur de blog.
Ce logiciel open-source, gratuit, disponible pour tous, est un produit de l’entreprise Auttomatic. Leurs revenus de 2012 ont été estimé à 45 million de dollars. Pourtant, la majorité du code est mise à jour et améliorée par la communauté.

Et maintenant ?

Cet article touche à sa fin. Pour cette partie du moins. Dans les prochains, j’essaierai de vous présenter d’autres mauvais exemples, et à chaque fois, je tenterai de vous montrer comment les améliorer.
Si vous avez des questions sur le format, les données ou encore des questions plus générales, n’hésitez pas à laisser un commentaire à la fin de cet article.

Mat_

Au départ on sort avec un diplôme d’ingénieur de l’ESIL (devenu Polytech’Marseille) en Informatique, réseau et multimédia, spécialisé dans les Systèmes d’Informations et Services E-Business.
En même temps on bosse, on développe, on apprend. Et maintenant on entreprend.

Passionné de nouvelles technologies, et évangéliste de WordPress, j’aime découvrir, tester, rechercher.

Vous aimerez aussi...

5 réponses

  1. 2 octobre 2013

    […] L’essence même d’un logiciel libre, tout comme pour l’open-data, c’est la communauté qu’il fédère autour de lui. Après tout, les données mises à disposition dans le cadre d’une politique open-data sont destinées à être utilisées. Si on suit ce raisonnement, c’est le public (bien que centrés sur les consommateurs de données, comme les développeurs, les journalistes…) qui est concerné.  […]

  2. 2 octobre 2013

    […] Il n'y a pas de doute, l'open-data est un sujet qui a une place importante aujourd'hui dans l'éco-système numérique. Il fait un peu suite, à mon avis, à …  […]

  3. 3 octobre 2013

    […] Il n’y a pas de doute, l’open-data est un sujet qui a une place importante aujourd’hui dans l’éco-système numérique. Il fait un peu suite, à mon avis, à la montée en puissance de l’open-source.  […]

  4. 23 octobre 2013

    […] Il n'y a pas de doute, l'open-data est un sujet qui a une place importante aujourd'hui dans l'éco-système numérique. Il fait un peu suite, à mon avis, à …  […]

  5. 23 octobre 2013

    […] Open-data et format – Kune.fr […]

Suivez Kune.fr sur les réseaux sociaux !

Kune.fr est votre site de ressources web. Vous y trouverez de nombreux outils utiles pour le web.
Alors n'hésitez plus, aimez notre page !

  • Ressources Wordpress, tutoriels, plugins et thèmes
  • Ressources design, packs d'icônes, kits UI ...
Fermer cette popup
%d blogueurs aiment cette page :