Recherche

Open Web Index : un socle européen pour la recherche en ligne

Le projet OpenWebSearch.eu ouvre au public son index web européen. En phase pilote, il est encore limité sur le contenu comme sur les droits d'utilisation.

Publié par Clément Bohic le | mis à jour à
Lecture
4 min
  • Imprimer
Open Web Index : un socle européen pour la recherche en ligne
© Zerbor – Adobe Stock

Après quasiment trois ans de travaux, l'Open Web Index est officiellement ouvert au public.

Cette initiative européenne vise, comme son nom l'indique, à créer un index web ouvert. Elle constitue le coeur d'un projet plus large : OpenWebSearch.eu, destiné à développer une "infrastructure européenne pour la recherche web".

L'ensemble, lancé en septembre 2022, est financé à hauteur de 8,5 M€ dans le cadre du programme Horizon Europe. L'université de Passau le coordonne. Il fédère une douzaine d'autres membres, essentiellement de la sphère académique, dans 7 pays (Allemagne, Autriche, Finlande, Pays-Bas, République tchèque, Slovénie, Suisse). Au dernier pointage, il doit se terminer en février 2026 (échéance initiale : l'été 2025).

Graphes de connaissances, fact-checking, dataviz... Construire autour de l'Open Web Index

Le secteur privé s'est rallié à OpenWebSearch.eu par l'intermédiaire de trois appels à projets. Le premier, organisé en 2023, portait sur les aspects légaux et économiques. Entre autres lauréats :

  • Open Console, une alternative à la Search Console de Google pour les webmasters

  • LOREN (Legal Open European Web Index), pour analyser les contraintes juridiques liées à la conception et à l'exploitation d'un index européen

  • LAW4OSAI (License-Aware Web Crawling for Open Search AI), axé sur la prise en compte des licences sous lesquelles les contenus sont publiés

Les deux autres appels à projets, bouclés en 2024, concernaient respectivement le développement d'applications et les ressources informatiques/datacenter. Parmi les lauréats du premier :

  • AKASE (Argumentation Knowledge Graphs for Advanced Search Engines), pour développer des graphes de connaissances confrontant des points de vue

  • VERITAS (Verified & Evidence-based Multilingual Information System), qui doit mettre l'Open Web Index à contribution dans le cadre d'une plate-forme multilingue de vérification d'informations

  • FUN (Quality-focused Neural Crawling), qui compte associer à l'Open Web Index des technologies d'identification du contenu de basse qualité

  • TILDE (Trustworthy Access to Knowledge for the Indexed Web), qui doit aboutir à une application d'exploration de données en langage naturel

Exaion, filiale d'EDF, est lauréate de l'appel à projets centré sur les ressources.

Objectif 2025 : indexer 50 % du web textuel

L'Open Web Index est fédéré sur trois datacenters (centres HPC en Allemagne, Finlande et République tchèque) qui le mettent à disposition dans son entièreté- sans API, néanmoins. Il est aussi décliné en datasets spécifiques téléchargeables. Son exploitation est soumise à une licence qui autorise, à l'heure actuelle, l'usage pour des test runs et des projets R&D. Une licence commerciale est dans les cartons. L'accès à la phase pilote nécessite de créer un compte sur le service B2ACCESS de l'EUDAT (réseau paneuropéen de centres de recherche).

Environ 1 Po de données ont pour le moment été indexées. Dont 40 % en anglais, 7 % en chinois, 6 % en allemand, autant en français et en russe. Objectif d'ici à la fin de l'année : avoir indexé 30 à 50 % des pages texte sur le web (soit 3 à 5 Po). Les fichiers multimédias sont pour le moment hors champ.

Pendant la durée du projet, les membres du consortium ont la propriété de l'Open Web Index. Il s'agira ensuite d'en faire un bien public, par exemple en le confiant à une organisation à but non lucratif de droit européen. Différentes entités pourront prendre à charge la maintenance des datasets spécifiques.

Apache Storm au coeur du réacteur

Le principal robot d'indexation est basé sur StormCrawler, un projet open source exploitant Apache Storm. Lui sont associés des logiciels spécialisés comme Mastodon Crawler (de Webis Group, membre du consortium) et WikiExtractor. Ainsi que des données de sources tierces tel Common Crawl.

Le pipeline de prétraitement repose sur une autre brique origine Webis : Resiliparse, la bibliothèque d'analyse de données du moteur de recherche ChatNoir. L'index est diffusé sous forme de fichiers CIFF (Common Index File Format) créés à l'aide de Spark à partir des fichiers WARC que produisent les crawlers. Des métadonnées au format Parquet sont ajoutées pour couvrir des aspects juridiques (droits d'utilisation des données, privacy...), techniques (fréquence d'update, statistiques d'indexation...) et sémantiques (types de sites, sujets couverts).

Illustration © Zerbor - Adobe Stock

Livres Blancs

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page