Wikipédia : l'informatique à la rescousse !
Introduction
Vous connaissez sûrement
Wikipedia, l'encyclopédie libre et éditable. Large (environ 500 000 articles pour la wikipédia française), multilingue (171 langues actives, pour 5 millions d'articles au total), ce projet est en peu de temps devenu une référence indispensable sur Internet. Créée pour la soutenir, la
Fondation WikiMédia fédère maintenant d'autres projets (les "petites soeurs" de la Wikipédia) : Wikibooks, Wiktionary, etc...
Alors que la Wikipédia grandit de jour en jour, cette encyclopédie reste totalement transparente : les historiques des articles, par exemple, sont précieusement conservés. Des "dumps" (données exportées dans un format 'brut') sont téléchargeables, qui contiennent l'ensemble des articles ou même l'ensemble de la Wikipédia, et ils sont mis en valeur par des pratiques innovantes (que je vais vous présenter dans cette news) exploitant cette énorme base de connaissances selon trois axes principaux : l'
analyse, l'
extraction, et la
visualisation de données.
Analyser : WikiScanner
Le 13 août dernier, un outil nouveau a enflammé Internet. Nommé WikiScanner, il a une fonction très intéressante : il permet de sélectionner les éditions de la Wikipédia effectuées par de "grandes entreprises".
Plus précisément, cet outil permet d'établir la correspondance entre les adresses IP des éditions anonymes de l'encyclopédie (consultables dans les historiques des articles), et les adresses IPs (disponibles publiquement) des bureaux des entreprises. La quantité de données ainsi récupérées est énorme, et la plupart des éditions sont "normales" (vous êtes au boulot, vous surfez sur la Wikipédia, et corrigez un article sur un cinéaste américain, rien d'étrange). Cependant, une petite partie d'entre elles est étonnante. L'auteur de Wikiscanner, Virgil Griffith, a lancé un "concours" de la modification la plus intéressante, invitant ainsi de nombreux visiteurs à explorer ces informations, et à faire part de leurs découvertes. Le site Wired référence ainsi les
modifications "suspectes" (en) provenant de Wikiscanner.
Les trouvailles ainsi mises à jour sont parfois assez amusantes. Une
modification de l'article <lien type="wikipedia" langue="en">MSN Search</lien>, affirmant entre autres que MSN Search est un "concurrent majeur de Google, Yahoo et autres", a été ajoutée par l'agence de relations publiques de Microsoft !
Bien qu'assez curieuse, cette modification n'est pas non plus la preuve d'un vaste complot de manipulation

: les informations qu'elles ajoutent, même si elles sont formulées de manière biaisée, sont (probablement) factuellement exactes. D'autres modifications sont beaucoup moins amusantes. Par exemple, un paragraphe concernant le génocide arménien a
été supprimé par une addresse IP provenant du gouvernement turc.
Les informations apportées par cet outil sont toutes vérifiables dans l'historique de la Wikipédia, mais on ne peut pas émettre de certitude car elles reposent sur les adresses IP, qui sont falsifiables. Certaines entreprises ou institutions ont évoqué la possibilité qu'un attaquant camoufle son adresse IP pour leur porter préjudice.
L'outil s'est cependant révélé très utile, car il a permis la correction de la petite partie des erreurs introduites n'ayant pas encore été corrigées par les lecteurs, et car il permet une analyse plus précise d'une partie des comportements "vandales" sur la Wikipédia. Il a donc été très bien accueilli par les wikipédiens :
Citation (Jimmy Wales, fondateur de la Wikipédia) : C'est fantastique [...] Cela apporte un niveau supplémentaire de transparence au fonctionnement de la Wikipédia.
Pour plus d'information, je vous invite à vous référer à la page
WikiScanner de la ... Wikipédia.
Extraire : DBpedia
Vous vous souvenez peut-être du
Web Sémantique ? On en a déjà parlé
ici
Le principe du web sémantique est de mettre en relation des informations, de manière à ce qu'elles soient facilement accessibles aux outils informatiques (recherche, compréhension de textes, etc..).
une infobox sur la Wikipédia
La wikipédia, avec son énorme contenu et la quantité de ses liens inter-articles, est une formidable source d'informations sémantiques, mais est difficile à exploiter. C'est le but du projet DBPedia : extraire les informations de la Wikipédia, et la rendre accessible à travers des formats spécialisés dans le traitement sémantique.
Actuellement, DBPedia fonctionne principalement en utilisant les "modèles" de la Wikipédia, qui sont des instructions préformatées en syntaxe wiki (le zCode de la Wikipédia

), que l'on peut placer dans les articles pour y stocker une partie de l'information de l'article. Il est généralement visible à l'utilisateur sous la forme d'un cadre dans l'article (on l'appelle alors "Infobox"), mais trouve sa pleine utilité pour les outils automatisés, qui peuvent facilement en extraire de l'information. Par exemple, une InfoBox "Biographie" contiendra la date et le lieu de naissance et de mort d'une personne, ainsi que quelques autres informations utiles.
Un petit exemple d'utilisation de DBPedia : vous voulez les affiches de films dirigés par Clint Eastwood. Il suffit d'interroger la DBPedia en lui fournissant les critères sémantiques suivants :
Code bash?film <rdf:type> Template:infobox_film # l'objet 'film' est extrait de l'infobox film
?film <director> ~Clint[ _]+Eastwood # l'objet 'film' a été dirigié par Clint Eastwood
?film image ?image # l'objet 'film' a pour image l'objet 'image'
Voici le
résultat.
On peut imaginer une intégration de ce genre de possibilités au logiciels que vous utilisez. En fait, c'est même déjà en cours,
puisque certains environnements de bureau
travaillent déjà sur ces technologies.
Visualiser : IBM research group
Vous êtes vous déjà intéressé à une équipe de recherche en informatique ? En général, les informaticiens connaissent les logiciels et les technologies qu'ils utilisent tous les jours, mais ne sont pas souvent conscients des efforts de recherche qui se sont déroulés en amont. Je vais finalement vous présenter une partie du travail d'une équipe de recherche de l'entreprise IBM, qui utilise la Wikipédia pour tester de nouvelles technologies de visualisation.
L'objectif de cette équipe était de trouver un outil graphique qui permette d'assimiler rapidement la quantité d'informations contenues dans l'historique d'un article wikipédia : quels paragraphes ont été déplacés, supprimés, améliorés, quand le contenu a été ajouté, etc...
La méthode qu'ils ont finalement choisie est la suivante : les différentes versions de l'article sont classées chronologiquement sur l'axe horizontal; la hauteur de chaque version est proportionnelle à la taille de l'article, et elle est découpée en zones de couleurs représentant les différents auteurs. On obtient ainsi des graphiques appelés "History flow", qui donnent un très bon aperçu de l'histoire de l'article. Voici par exemple la représentation de l'article anglais sur l'avortement :
Voici quelques informations que nous apporte cette visualisation :
La taille : vous pouvez voir qu'au début, la taille de l'article augmente assez rapidement, alors que vers la fin du graphique la taille est stable (voire diminue un peu). Cela correspond à une limite naturelle de la taille des articles sur Wikipédia, les articles trop gros étant soit découpés en plusieurs articles, soit déplacés vers les WikiBooks.
Les couleurs : L'état actuel de l'article (les couches de droite) n'ont pas conservé grand chose des couches jaunes du départ. Cependant, celles-ci sont restées très présentes au cours de l'évolution, et ont donc eu une influence déterminante sur la structure de l'article.
Les formes : tout d'abord, à gauche, on voit deux couches jaunes qui "se croisent". Cela correspond à une réorganisation de l'article, où le contenu a été déplacé. Entre ces deux couches jaunes vient s'intercaler, après le déplacement, une couche grise : c'est une nouvelle partie.
Vous pouvez même observer à droite de l'image des lignes verticales très nettes, qui font des "cassures" dans les couches. Ces cassures correspondent à la suppression brutale, puis au rétablissement, de l'ensemble du contenu de l'article : c'est donc une manière de visualiser les actes de vandalisme.
Conclusion
J'espère que cet aperçu de l'innovation qui entoure actuellement cette encyclopédie vous a intéressés. Les défis qu'elle doit relever sont nombreux ( infrastructure, fiabilité du contenu, détection du vandalisme, organisation interne des contributeurs et des articles ), et l'informatique est dès à présent très utile pour manipuler ces grands volumes d'informations, ce qui nous promet encore plus d'applications intéressantes à l'avenir
