Entreprise 2.0 : entre chaos et structure, le web des données et le web sémantique

Certains, plus éclairés que d’autres, prédisent une nouvelle révolution web au cours des prochaines années; en fait, cette petite révolution s’articulera au tour de trois axes :

  • -          Le Web des Données
  • -          Le Web des Identités
  • -          Le Web des Services

Comment cela est-il arrivé ?   Comment cette petite révolution nous a-t-telle passé sous le nez sans que l’on en ait le moindre soupçon ?  Aux dernières nouvelles, nous en étions tous à nous demander comment les entreprises pouvaient-elles faire pour bien intégrer le 2.0 tout en minimisant les risques sur les plans de la sécurité et de la productivité; enfin, bref…

Alors que beaucoup pensait, comme moi qui l’ai dit plusieurs reprises d’ailleurs sur ce blogue et d’autres, que bien qu’il y avait un clivage générationnel qui faisait obstacle à la pénétration du 2.0 en entreprise, le web 2.0 finirait bien par y arriver.  J’envoyais d’ailleurs à l’occasion, une de mes boutades préférées, afin d’appuyer mon propos : « Si tu ne vas pas au 2.0, le 2.0 ira à toi ».

Et pourtant, bien que l’on ne saurait dire qui ou quelle motivation est à l’origine de ce mouvement, toujours est-il que devant le phénomène de collision entre le monde des données structurées des applications TI en entreprise et le chaos des données non-structurées du web 2.0; certains ont décidé de trouver une solution ingénieuse au problème, ou si vous préférez, de prendre le taureau par les cornes.

De cette révolution, donc, émerge trois champs d’activités distincts, tous reliés au grand projet de Web sémantique : le Web des Données, le Web des Identités et le Web des Services. Ces différents champs d’activités web visent respectivement à rendre accessible l’information sémantique des données, l’information sémantique des individus et les services sémantiques web.  Dans le Web des Données, nous nous concentrons sur l’information sémantique des données !

C’est la faute au 2.0

Nul ne peut nier la confrontation qui a cours depuis ces dix dernières années entre les tenants du web 2.0 de tout acabit et les puristes TI.  Et il n’y aucun doute que ces deux mondes ont leur place, leur utilité et leurs mérites; ceci dit, le web 2.0 a produit plus d’information en 2009 que tout ce que l’humanité a produit depuis l’invention de l’écriture !  Et cette information non-structurée, qui pénètre de plus en plus en entreprise, pose un problème de traitement et d’intégration avec les données structurées des environnements TI en entreprise; alors que faire ?

Déjà, posez la question, c’est y répondre.  Pourquoi une machine (une application, un programme informatique) ne peut-elle pas comprendre le contenu d’un site web, d’un blogue, d’un forum, d’un tweet, d’une photo Flickr, d’un message Facebook ou d’une requête de recherche pour un restaurant sur Google Maps ?

La machine ne peut pas car elle ne comprend pas; elle n’a pas accès aux sources.  La machine n’a pas la compréhension sémantique, certains diront la faculté sémantique, ni le sens commun pour créer les ponts, faire les liens entre les éléments d’information.

Ainsi, il fallait enseigner aux machines le sens ou la structure sémantique de ce Web 2.0 afin qu’elle puisse le comprendre; il fallait donc dépasser le modèle probabiliste de corrélation d’un terme avec un document et s’assurer que les machines comprennent le sens des termes.  Aussi, quoi de mieux que de lui fournir des bases de connaissance afin qu’elles puissent apprendre de visu; des bases de connaissance telles des encyclopédies, des pages jaunes, etc., afin qu’elles puissent apprendre les différents sens et contextes des termes tels qu’explicités dans ces bases de connaissances (Berlin est une ville, x millions de personnes vivent à Berlin, Berlin est la capitale de l’Allemagne, etc.)

Le Web des Données

Initialement, le but du Web sémantique consistait à annoter de manière invisible les pages web (contenus web) avec un ensemble de méta-attributs et de catégories afin de permettre aux machines d’interpréter les textes et de les mettre en contexte. Cette approche a échoué principalement parce que les annotations étaient beaucoup trop complexes pour les humains sans bagage technique.  Des approches similaires telles les microformats simplifièrent quelque peu le processus de marquage et aidèrent à circonscrire le problème de l’œuf et la poule : langage humain trop complexe pour les machines et langage machine trop complexe pour les humains.

Les microformats sont un ensemble de formats de données, simples et ouverts construits sur des standards existants et largement adoptés.  Les microformats sont des petits morceaux de HTML qui représentent des choses comme les personnes, les événements, les mots-clés, etc., dans les pages web (contenus web).

Tout ce travail et ces approches visaient en fait  à améliorer / augmenter l’accessibilité des machines aux connaissances contenues sur le web qui, en fait, ont été conçues pour la consommation / interprétation par des humains.  De plus, le web contient des océans d’information sans absolument aucune importance pour les machines (interférence) et qu’il fallait pouvoir filtrer.  En fait, il fallait construire une base de connaissances pour que les machines  puissent reconnaître / trouver l’information sans interférence.  Et, c’est là qu’est apparue l’idée géniale du Web des Données : qui a dit que les humains et les machines devaient partager le même Web ?

L’idée du Web des Données tient autant au fait de la limitation des machines à reconnaître / décoder les données non-structurées du web qu’à l’existence d’innombrables ensembles de données structurées réparties à la grandeur du globe et contenant toutes sortes d’information. Ces ensembles de données sont la propriété d’entreprises qui ont tendance à les rendre relativement accessibles.  Typiquement, un ensemble de données contient des connaissances (Savoir) à propos d’un domaine spécifique tel livres, musique, savoir encyclopédique, entreprises; tout ce que vous voulez, quoi.  Maintenant, si tous ces ensembles de données étaient  interconnectés (i.e. comme le sont les sites web); une machine pourrait, théoriquement, parcourir ce web d’information structurée, indépendant et sans interférence, et cueillir au passage des connaissances sémantiques sur des millions d’entités et de domaines arbitraires.  Et le résultat en serait une immense base de connaissances gratuite et accessible qui constitueraient la fondation d’une toute nouvelle génération d’applications et de services… vous voyez le topo ?

Linking Open Data (visualisation des liens d’un des projets du Web Data)

Pour en savoir plus, écoutez cette présentation du maître lui-même : Tim Berners-Lee à TED sur le Web de Données.  Cette autre présentation quelque peu plus académique de M. Hervé Le Crosnier, professeur de l’Université de Caen Basse-Normandie sur le Web des Données est aussi intéressante.   Et il y a la série de 5 à 7 de l’ADBS (Association des Professionnels de l’Information et de la Documentation), où Mme Emmanuelle Bermès (Bibliothèque Nationale de France) nous explique en 7 parties ce qu’est le Web des Données.

Conclusion

C’est une histoire à suivre de très près et sur laquelle nous reviendrons au cours des prochaines semaines car il ne fait aucun doute que ces trois volets du Web sémantique sont appelés à jouer un rôle de plus en plus important au fur et à mesure que nous voudrons confier de plus en plus, voire reléguer, à des machines / applications les tâches de veille, de recherche, de traitement  et d’analyse de l’information en provenance du Web !!!  Et ce faisant, ces machines / applications auront certainement aussi un impact percutant, c’est le moins que l’on puisse dire, sur le milieu de travail et, en particulier, dans l’Industrie des Services.

En fait, non seulement, l’ingénierie humaine a su amadouer le chaos du web 2.0 mais plus encore, quand elle aura rendu le Web des Données accessible aux machines; cela créera d’innombrables opportunités d’affaires et peut-être de nouveaux emplois ou de nouveaux besoins, qui sait !

Entre chaos et structure, le Web des Données ouvre une nouvelle boîte de Pandore aux entreprises et laisse entrevoir un nouveau monde de connaissances : le Web sémantique.

Bonne semaine,

Denis Paul van Chestein

N.B. Ce billet est inspiré de différents billets parus sur ReadWriteWeb au cours des deux dernières années.

Tags :, , , , , , , ,
Publié dans Entreprise 2.0, Web 2.0

8 Tweets

9 réponses à “Entreprise 2.0 : entre chaos et structure, le web des données et le web sémantique”

  1. [...] This post was mentioned on Twitter by Anthony Poncier and Veronique Rabuteau, Denis P van Chestein. Denis P van Chestein said: Mon billet – Entreprise 2.0 : entre chaos et structure, le web des données et le web sémantique http://bit.ly/ckxGW0 #in [...]

  2. Entreprise 2.0 : entre chaos et structure, le web des données et le web sémantique | Analystik – blog http://ow.ly/1rZYpQ

Laisser un commentaire

Additional comments powered by BackType