À l’automne et au printemps 2016 se tenait respectivement aux États-Unis la conférence internationale sur le web sémantique, et ici à Montréal la conférence sur le World Wide Web auxquelles j’ai eu l’occasion d’assister. L’une des importantes conclusions de que je retiens de ces conférences c’est que le web et le web sémantique vont s’imposer de plus en plus dans nos vies et qu’elles feront partie intégrante de la nouvelle économie mondiale. Je m’intéresse au web sémantique depuis 2005 et je constate, à mon grand étonnamment, qu’en dehors du milieu universitaire, on parle très peu de cette technologie. Signe de ce silence, aucune offre d’emploi n’est affichée ici au Québec dans ce domaine alors qu’en Europe et aux États-Unis les offres abondent. C’est notamment pour ouvrir le débat sur le web sémantique que j’ai préparé ce billet.
Cet article présente donc les sept raisons pour lesquelles le web sémantique devrait être au centre d’une politique du numérique:
- Le web sémantique est une technologie mure, éprouvée ouverte, non-propriétaire, gratuite, libre de droits et sécuritaire
- Les informations, les données et les métadonnées sont interopérables
- Elle génère des bénéfices puisqu’elle se fonde sur le principe de réutilisabilité des vocabulaires
- Le web sémantique une technologie au centre de l’économie du savoir
- Le web sémantique offre les principes de gouvernance aux données ouvertes
- Le web sémantique est un médium de valorisation d’une culture
- Web sémantique est une plateforme d’Intelligence artificielle et moteur de l’innovation
1- Le web sémantique est une technologie mûre, éprouvée ouverte, non-propriétaire, gratuite, libre de droits et sécuritaire
Le web sémantique, comme l’ensemble des technologies du web (voir la pile technologique ci-dessous) est une technologie normalisée par le W3C, l’organisme à but non lucratif dont la mission est de normaliser et standardiser les technologies sur le web.
Comme pour le (X)HTML, le XML, le CSS, le SVG, le SOAP, etc., les vocabulaires RDF, RDFS, OWL, SKOS (qui sont au cœur du web sémantique), font partie des standards qui permettent d’exploiter la puissance du web.
ref: https://www.w3.org/2004/10/RecsFigure-Smaller.png
Pile
technologique du web. À sa base l’Internet est la technologie réseau
qui supporte le Web. Les quatre premières couches (URI, Web
Architectural Principles, XML/RDF(S) Graph et XML-NameSpaces, etc.)
servent de support aux technologies s’adressant à des usages spécifiques
(application web, mobilités, voix, service web, web sémantique,
sécurité et vie privée). On y constate que les principaux vocabulaires
du web sémantique (RDS(S) et e SPARQL) sont à la base de la pile
technologique du web.
Note au sujet de l’Internet: dans cette figure, on distingue bien l’Internet du Web et on y constate qu’en fait, le web est une application de l’Internet.
C’est donc dire qu’une politique numérique qui envisage d’utiliser le web en tant que véhicule de l’information doit nécessairement envisager d’utiliser la technologie du web sémantique
2- Les informations, les données et les métadonnées sont interopérables
2.1- Lire une information de façon interopérable
Un principe fondateur du web est l’interopérabilité. Ce principe stipule que la réalisation d’une action sur le web doit se dérouler de façon indépendante de l’architecture technologique nécessaire pour son exécution. Par exemple, pour l’action de « lire une information », cette lecture sera web si elle se réalise indépendamment du navigateur utilisé (ex. : Internet Exploreur, FireFox, Safari, etc.) et indépendamment de la technologie du serveur qui diffuse l’information (Apache, IIS, etc.). Dans ce contexte on dira que la notation qui permet de coder l’information est interopérable. La notation interopérable de base dans le web est le HTML.
2.2- Traiter des données interopérables
Voici l’exemple d’une information que nous pourrions lire sur le web « La ville de Montréal est une ville-intelligente ». Est-ce que cet énoncé constitue des données sur le web. Sous cette forme, la réponse en ‘non’. Pour un logiciel, un tel énoncé est considéré comme une chaine de caractères sans signification. C’est donc dire qu’à priori, aucun traitement automatique ne peut découler de cet énoncé. Pour déclencher un traitement automatique, il est nécessaire de coder un signifiant aux termes de l’énoncé. Par exemple, indiquer que : « Ville de Montréal » est une « Ville », qu’une « ville-intelligente » est une sorte de « Ville » qui a la particularité d’être « Intelligente ». C’est de cette « codification du signifiant » que surgit l’aspect « sémantique » du web et c’est à cette condition que l’on peut parler de données sur le web. Ainsi, pour être une donnée sur le web, l’information doit répondre à au moins trois conditions :
- L’information doit être codée avec une notation utilisable par une machine
- Le signifiant doit aussi être codé avec une notation utilisable par une machine
- Les notations utilisées pour coder l’information et son signifiant doivent être interopérables.
Les notations interopérables à la base du web sémantique sont : le Resource Description Framework (RDF), le Resource Description Framework Schema (RDFS) et le Web Ontology Language (OWL)
Dans une politique du numérique, l’interopérabilité des données est une particularité importante puisqu’elle permet de définir des enjeux et des principes indépendants des technologies.
3- Le web sémantique génère des bénéfices puisqu’elle se fonde sur le principe de ré-utilisabilité des vocabulaires
Il a été vu précédemment que la technologie du web sémantique permet de coder le signifiant d’une donnée. Dans le vocabulaire du web sémantique, le fichier qui entrepose « un signifiant » est nommé « Ontologie ». L’ontologie est pour ainsi dire la base de données du web, puisqu’elle déclare les données et la structure des données qu’il utilise.
Étant donné que le web est un espace de partage de point de vue, il est aussi permis dans le web de diffuser des ontologies qui permettent de coder la signification du point de vue. C’est ce qui est appelé un ‘vocabulaire’. Par exemple, le vocabulaire de Dublin Core permet de coder des données décrivant des ressources bibliographiques; quant à l’ontologie Financial Industry Business Ontology (FIBO), elle s’adresse spécifiquement à la codification de données financières; ou encore Friend Of A Friend (FOAF), l’ontologie au cœur des réseaux sociaux qui permet de déclarer que l’ami de mon ami est aussi mon ami.
Le web foisonne de vocabulaires dans divers domaines de connaissances qui sont réutilisables pour nos applications informatiques locales. Il s’agit dès lors d’une économie considérable de temps dévolue à la conception d’ontologies. Encore mieux! être le concepteur d’une ontologie qui est exploitée par d’autres ressources du web est une occasion unique de rayonner dans le web et un moyen efficace d’influencer la perception globale par notre point de vue sur un domaine.
Plusieurs Pays dans le monde, notamment la France, les États-Unis, l’Angleterre, l’Italie, etc., ont saisi cet enjeu et ont fait du web sémantique une priorité technologique.
4- Le web sémantique une technologie au centre de l’économie du savoir
On trouve au centre d’une économie du savoir le cycle de gestion de la connaissance qui se décompose en 5 actions : Repérer, Préserver, Valoriser, Partager, Actualiser. Pour chacune d’elle, le web sémantique y joue un rôle particulier :
- Repérer
Le web sémantique abonde en outils qui permettent de localiser l’information. Google, Bing, Yahoo, etc. sont des outils de recherches qui utilisent entre autres le web sémantique pour indexer le web - Préserver
La préservation de la connaissance est assurée par l’ontologie. Comme il a été indiqué plus haut, l’ontologie emmagasine les données décrivant quelque chose ainsi que la structure qui permet de décrire la donnée. - Valoriser
L’intéropérabilité de l’ontologie permet à des clients web de venir capturer les données diffusées et de réaliser des traitements spécifiques qui sont guidés par la sémantique de la donnée qui est codée dans l’ontologie - Partager
L’ontologie (ou le graphe de connaissances) qui contient la connaissance (donnée + structure de données) est partagée sur le web avec l’aide d’un serveur web (par ex. : Apache ou IIS) auquel on ajoute des services web particuliers pour faciliter l’accès aux données par des requêtes web (voir le langage SPARQL) ou faciliter la présentation de contenu de l’ontologie - Actualiser
Tous changements de contenu est visible du web. Les agents du web qui perçoivent un changement dans un contenu local s’ajustent à ce contenu. De même, un contenu local s’adaptera à un changement de contenu dans le web. Une politique du numérique qui incorpore le web sémantique stimule l’économie du savoir en stimulant les interconnexions entre les données du web.
5- Le web sémantique offre les principes de gouvernance aux données ouvertes
Un enjeu économique et d’éthique important des gouvernements est la mise en ligne de données citoyennes sur le web. Cependant, sans une diffusion synchronisée de la signification de la donnée, les efforts de mise en ligne de la donnée est inutile puisque difficilement traitables par les robots du web. Une adhésion au cinq étoiles du web de données ouvertes et liées (Linked Open Data [LOD]), dont le web sémantique en est la technologie porteuse, est très utile pour sauver la mise.
Selon le principe des cinq étoiles, une donnée web est ouverte et liée si elle répond aux cinq conditions :
- License ouverte (OL-Open license). La donnée est libre de droits.
- Lisible par un ordinateur (RE -Machine readable). La donnée est lisible et traitable par un logiciel (par exemple un chiffrier Excel)
- Format de données ouvert (OF Open format). La structure de la donnée est dans une notation interopérable.
- URI pour désigner les ressources. La donnée est accessible à partir d’un Uniform Resource Identifier nécessaire pour localiser les ressources du web
- Lier les données (Linked data). La donnée est diffusée à partir d’un serveur web qui offre les services nécessaires à son utilisation par les agents du web.
Pour le gouvernement ouvert et la ville intelligente, le web de données ouvertes et liées offre une plateforme mondialement normalisée et standardisée pour la diffusion de données interopérables et la captation de données sur le web.
6- Le web sémantique est un médium de valorisation de la culture d’une société
Le web est une grande bibliothèque de contenu d’œuvres culturelles qui sont entreposées dans des ressources web de différents formats vidéo, images, audio, textuels, etc. Comme pour une bibliothèque qui maintient des fiches bibliographiques décrivant les œuvres de la bibliothèque et qui facile la recherche d’une œuvre, le web dispose de la technologie du web sémantique pour identifier par les métadonnées les œuvres contenus dans le web. L’œuvre du web décrite par des métadonnées est facilement indexée et localisée par les outils de recherche du web. En revanche, une œuvre sans métadonnées est comme le livre sans fiche. Elle est perdue dans la masse des œuvres et elle est pratiquement jamais consultée.
Au Québec, la culture est une industrie importante. Elle est créative, productive et distinctive. En ce moment, les œuvres, surtout musicales, peuvent être repérées par des outils tels qu’iTunes ou Google Play. Mais ces outils de repérage sont des outils propriétaires à des entreprises qui décident les œuvres à indexer ou non. On ne peut donc parler ici d’une réelle interopérabilité des ressources puisque l’accès à ces ressources est totalement régi par des politiques privées de gouvernances et d’accès. Le web sémantique offre une solution économique pour décrire la métadonnée interopérable d’une ressource culturelle et elle contient les caractéristiques nécessaires pour répondre aux exigences d’une politique publique et démocratique de gouvernance dans la diffusion des œuvres sur le web. Une connaissance approfondie des technologies du web sémantique permettra à la culture québécoise d’avoir sa place dans le web. Sans le web sémantique, les ressources culturelles occuperont dans le web une place que sera déterminée par les autres acteurs du web.
7- Le web sémantique une plateforme d’intelligence artificielle et un moteur d’innovation
Il a été précédemment abordé que l’ontologie est le fichier informatique au centre du web sémantique. L’ontologie entrepose la donnée et le schéma de la donnée pour une diffusion dans le web. Dans le paradigme de l’approche symbolique en intelligence artificielle les données et leur structure sont emmagasinées dans ce qui est appelé dans le jargon, une base de connaissances. Cette base de connaissance qui est traitée par un moteur d’inférence permet de conclure à de nouvelles connaissances. Par exemple, la base de fait décrivant que « Snoppy est un Beagle; et qu’un Beagle est une sorte de Chien », permettra au moteur d’inférence de conclure que « Shoppy est un Chien ». Or, une spécificité importante de l’ontologie est : qu’elle a les mêmes caractéristiques qu’une base de connaissances. Pour le spécialiste de l’IA symbolique, l’ontologie du web sémantique est une base de connaissances apte à entreposer des énoncées logiques (analogue à la définition de Snoppy) et apte à être traité par un moteur d’inférence, aussi appelé raisonneur.
7.1- Le web sémantique dans l’internet des objets de la ville intelligente est un moteur d’innovation.
L’internet des objets (IoT-internet of things) ces objets connectés dans la ville et qui fournit des données au sujet d’événements physiques ( niveau d’ozone, de bruits, la température, etc.), prend une place de premier rang dans le paradigme de la ville intelligente. En ce moment et dans la plupart des cas, les objets connectés n’utilisent pas le web sémantique. Ce qui implique que les données produites sont propriétaires et non interopérables. À terme, cette situation engendrera des silos de masses de données IoT qui seront de plus en plus difficiles à gérer. L’introduction des technologies du web sémantique dans le module logiciel de l’objet connecté permettra deux choses :
- La technologie du web sémantique permettra d’interopérationnaliser les données fournies par l’objet connecté
- et rendra l’objet connecté intelligent! Pour cause, par la technologie du web sémantique, l’objet connecté sera l’hôte d’une ontologie servant de base de connaissances à un raisonneur. Chaque objet connecté pourra donc prendre des décisions et en informer le central des objets. Mieux encore, il sera en mesure d’informer par le web, les autres objets connectés pour ainsi former des écosystèmes d’objets intelligents et connectés par le web.
À ce jour, l’utilisation du web sémantique pour l’internet des objets est un projet d’étude important du W3C. Des ontologies de vocabulaires spécifiques aux objets connectés sont en cours de créations et de mise en œuvre. L’introduction du web sémantique dans la partie logicielle de l’objet connecté ouvrira des opportunités d’innovation dans l’utilisation de données interopérables pour le Big Data et par l’utilisation de l’intelligence artificielle pour l’exploitation, la gestion et le contrôle des objets connectés.
En conclusion
Il a été présenté sept raisons pour introduire la technologie du web sémantique au centre d’une politique du numérique. Nous aurions pu en élaborer beaucoup plus. Mais la véritable raison d’introduire cette technologie au centre d’une politique du numérique est la suivante : il ne pourrait y avoir de politique du numérique sans y introduire une politique du web. Aussi, il ne peut y avoir de politique du web si nous n’avons pas une place dans le web. Et la seule technologie qui permet d’avoir accès à l’ensembles des ressources du web est le web sémantique. Finalement, la question n’est pas de savoir si nous devons ou ne devons pas utiliser le web sémantique, mais plutôt, quand nous déciderons-nous à l’utiliser. Plusieurs Pays dans le monde ont compris les enjeux liés à cette technologie et y investissent massivement. A nous de décider du moment où nous souhaiterons adhérer à cette économie du futur.
Michel Héon PhD
Docteur en informatique cognitive
Président fondateur de Cotechnoe