KonodeBlog

Aller au contenu | Aller au menu | Aller à la recherche

lundi, janvier 11 2010

Moteur généraliste vs Moteur vertical : vraie différence ou fausse réalité ?

Introduction

Konodeo a fait le choix de mettre au coeur de ses solutions des moteurs de recherche verticaux, c'est à dire des moteurs spécialisés sur une thématique ou faisant trait à une spécificité des sites web, afin de réunir au sein du même moteur un nombre limité de sources. Ces sources forment un corpus, dont la taille permet de restreindre le champ sémantique et d'effectuer des recherches plus fines.

Les moteurs verticaux (comme celui de Konodeo) s'opposent aux moteurs généralistes tels que Google ou Yahoo, qui sont à même de chercher de l'information sur tout le web mais s'exposent de fait à un plus grand bruit[1] dans les résultats de recherche, ainsi qu'à des difficultés à lever des ambiguïtés sémantiques.

Nous nous attacherons ici à vérifier qu'un moteur vertical répond différemment aux requêtes qu'un moteur généraliste,.

Méthodologie

Présentation

La comparaison se fait par rapport à un contexte pré-déterminé, correspondant à un moteur mis en place par Konodeo. Trois contextes ont été utilisés dans nos tests :

  • Contexte du développement informatique
  • Contexte de l’Arctique
  • Contexte Scientifique (Publications en Communication, Revue Forestière)

Chacun de ces contextes donne lieu à un benchmark séparé, permettant d’identifier ses spécificités avant de tirer des conclusions globales.

Modus Operandi

Le principe du test est de noter la pertinence des réponses apportées par le moteur à la question posée. Chaque requête effectuée donne lieu à une note de pertinence pour chaque moteur, entre 0 et 1. Cette note est attribuée comme suit :

  1. on part d’un capital de 12 points.
  2. un premier résultat non pertinent entraîne la soustraction de trois points.
  3. tout résultat suivant non pertinent entraîne la soustraction de un point
  4. le résultat obtenu est divisé par 12 (normalisation)

Chacun de ces moteurs présentant les résultats de requêtes sous la forme de dix réponses[2], on obtient des scores homogènes et normalisés.

Un résultat est jugé pertinent s'il répond tout ou partie à la requête telle qu'interprétée par la personne l'effectuant.

Écart entre moteurs

Méthode de calcul

Pour juger de l'écart entre deux moteurs de recherche, nous avons mis en place un indice calculé comme suit :

  • soit ri la requête i
  • soit si,mx le score correspondant à ri pour le moteur x.
  • soit N le nombre total de requêtes effectuées

Alors l'écart entre les moteurs m1 et m2 sera égal à la somme de 1 à N des valeurs absolues de (si,1' - si,m2') : calcul_ecart.png

Soit la moyenne des écarts constatés pour chaque requête entre les deux moteurs étudiés.

Résultats

Grand corpus : développeurs
Konodeo - GoogleKonodeo - YahooYahoo - Google
0,270,290,19

En moyenne on obtient 0,28 pour l'écart vertical/généraliste, et 0,19 pour l'écart généraliste/généraliste. Il y a donc 1,5 fois plus de différence entre le moteur vertical et un moteur généraliste qu'entre les deux moteurs généralistes sur ce corpus.

Corpus de taille moyenne : Arctique

Konodeo - GoogleKonodeo - YahooYahoo - Google
0,230,190,13

En moyenne on obtient 0,21 pour l'écart vertical/généraliste, et 0,13 pour l'écart généraliste/généraliste. Il y a donc 1,6 fois plus de différence entre le moteur vertical et un moteur généraliste qu'entre les deux moteurs généralistes sur ce corpus.

Corpus de petite taille : revues scientifiques

Konodeo - GoogleKonodeo - YahooYahoo - Google
0,220,270,16

En moyenne on obtient 0,25 pour l'écart vertical/généraliste, et 0,16 pour l'écart généraliste/généraliste. Il y a donc 1,6 fois plus de différence entre le moteur vertical et un moteur généraliste qu'entre les deux moteurs généralistes sur ce corpus.

Conclusions

Sans présumer de quel type de moteur répond le mieux selon les requêtes ou le type de requêtes, nous pouvons déjà établir une véritable différenciation dans la manière dont répond un moteur généraliste ou un moteur vertical tel que celui de Konodeo. Avec, dans le cadre de cette analyse limitée à trois corpus, un écart constant de facteur 1,6 la différence vertical / généraliste est réelle et ne saurait être négligée. Nous examinerons dans une prochaine étude les écarts de pertinence selon le type de moteur.

Notes

[1] Par bruit, nous entendons ici des résultats de recherche hors-sujet

[2] Sur Google et Yahoo, les résultats images et vidéos sont ignorés

lundi, octobre 26 2009

Les Maîtres de l'Arctique

Bienvenue en Arctique

L'Arctique est aujourd'hui un sujet majeur de politique extérieure. Oasis naturelle encore préservée, terre de compromis entre les nations, son avenir devient de plus en plus incertain alors que la fonte des glaces s'accélère et que son océan s'avère abriter d'immenses nappes de pétrole.

Mais si l'Arctique est un territoire géographique que de célèbres explorateurs ont arpenté, il en existe un alter ego numérique. Sur la toile, de nombreux sites se consacrent au sujet : qu'il s'agisse de scientifiques, d'universités, de citoyens passionnés ou d'écologistes avertis cette thématique alerte tout un pan du web. Au sein de cet espace les sites traitent donc de sujets liés à l'Arctique et se citent entre-eux formant ainsi un véritable réseau, un enchevêtrement de relations : un territoire.

Le corpus de sites consacré à l'Arctique utilisé par Konodeo et constitué à l'origine par l'association WebAtlas suite à une commande de l'inist a été manuellement divisé en trois catégories :

  • Sciences et Ressources (Chercheurs, universités, ...)
  • Société Civile (Associations, citoyens engagés, ...)
  • Divers

Konodeo a utilisé ses technologies pour visiter ce corpus et en indexer les informations. Les données obtenues ont permis de mettre en place notre portail de démo, accessible au grand public. Mais si les informations recueillies permettent de mettre en place efficacement des portails d'information, elles donnent également l'opportunité de mener de nombreuses études.

Nous allons donc nous attacher ici à observer les personnes qui sont citées sur les pages web du corpus, et quelques unes de leurs propriétés. Cette première étude sera l'occasion d'avoir un aperçu de l'utilisation que nous pouvons faire des informations issues d'un corpus thématique du web.

Études des personnalités du territoire

Vue générale

Étude statistique

Rappelons en premier lieu les caractéristiques de ce corpus de petite taille :

  • 522 sites web, dont 475 dans la catégorie Sciences et Ressources et 70 dans la catégorie Société Civile
  • 200 000 pages indexées
  • 16 000 noms de personnes retenus

Un indicateur de Pénétration de la communauté (Pc) a pu être calculé pour chaque personne retenue, à partir du nombre de sites web sur lesquels elles ont été citées. Cet indicateur permet de déterminer à quel point une personne est reconnue largement au sein de la thématique web, et avec quelle ferveur. Son affichage pour chaque personne au sein d'un graphique donne la figure suivante.

Pci General

Cette courbe exprime sans conteste une loi de puissance, et démontre que quelques personnes s'accaparent à elles seules la grande majorité de l'attention de la communauté.

Si l'on observe uniquement le nombre de sites web sur lesquels les personnes sont citées, la répartition est en effet la suivante :

  • 75% des personnes sont citées sur trois sites ou moins
  • 50% des personnes sont citées sur deux sites ou moins
  • 25% des personnes sont citées un site ou moins

Ce qui ne laisse donc que 25% des personnes citées sur 3 sites ou plus, avec un maximum de 66 sites pour le grand gagnant du classement général.

Trace sémantique

tagcloud General

Chaque personne est associée à une trace sémantique. Cette trace est générée à partir des mots que l'on a pu trouver sur toutes les pages où la personne a été citée, et caractérise le contexte auquel cette personne est associée dans le corpus. Le nuage de mots ci-dessus a été fabriqué à partir des traces sémantiques des dix personnes les plus influentes du corpus[1], et donne donc un aperçu des thèmes les plus récurrents autour des ces personnalités.

Classement

Le top 10 général des personnes les plus influentes de la thématique Arctique, classées par indicateur de pénétration de la communauté, est le suivant :

  1. Nicolas Hulot
  2. Alfred Wegener
  3. Marie Curie
  4. Barack Obama
  5. Albert Einstein
  6. Jean-Louis Borloo
  7. George Bush
  8. Jean-Claude Gascard
  9. Mark Serreze
  10. James Cook

La trace sémantique numéro un, Nicolas Hulot, se constitue des mots suivants :

environnement bio planète durable éco développement énergie ogm terre nature espèces cialis viagra eliz environnemental solaire électricité habitat eau effet europe déchets eco énergies animales électrique monde biocarburant forêts politique renouvelables animaux france équitable technologie serre biodiversité climatique commerce conception écologie consommer innovation produits design fondation livres recyclage

La liste est brouillée par des noms de personnalités très connues, et qui ne sont pas forcément spécifiques à l'Arctique. L'aperçu général ne présente donc qu'un intérêt limité du fait de son caractère transversal. C'est pourquoi nous allons maintenant nous intéresser plus spécifiquement aux sous-corpus Sciences et Ressources d'un côté et Société Civile de l'autre[2].

Sciences et ressources

Trace sémantique

tagcloud Sciences et R

Le nuage de mots formé des traces sémantiques des 10 personnes les plus en vue dans la catégorie Sciences et Ressources montre un intérêt fort envers le changement climatique et le monde universitaire. En est absent toute la dimension politique qui apparaissait dans le nuage de mots général : signe d'une divergence entre les préoccupations politiques et les sujets de recherche des scientifiques ?

Classement

  1. Alfred Wegener
  2. Mary Simon
  3. Darrell Kaufman
  4. Janet Warburton
  5. Philip Burgess
  6. Kristen Ulstein
  7. Stacy Kim
  8. Eric Brossier
  9. Elena Bautista
  10. Heidi Roop

Les personnes de référence ne sont dans cette catégorie que des scientifiques reconnus (pas toujours vivant, comme dans le cas d'Alfred Weneger) ou de grandes personnalités intimement liées à l'Arctique, comme Mary Simon qui s'est battue pour les droits des Inuits. La trace sémantique de cette dernière corrobore d'ailleurs ses activités :

inuit canada national arctic senators government simon leader itk mary senate canadian honourable president committee minister media bill content aboriginal peoples people health employment change hendrie skip climate development act nunavut time education report release day rights house canadians nations statements languages indigenous tapiriit years kanatami northern council ottawa communities

Nous sommes dans un milieu qui reconnaît essentiellement ses pairs, mais semble également s'ouvrir sur des personnalités liées à ses sujets de recherche, comme l'illustre la présence de Mary Simon.

Société Civile

Trace sémantique

Tagcloud Société Civile

Ce nuage de mots illustre la fusion des traces sémantiques des dix personnes les plus en vue dans la partie Société Civile du corpus. On observe un champ sémantique bien différent : les préoccupations semblent plutôt liées à la protection de la planète et de l'environnement, et bien sûr au développement durable. Cette sous-partie du corpus est une sphère écologique, qui alimente son argumentaire grâce aux observations issues de la sphère scientifique.

Classement

  1. Nicolas Hulot
  2. Hubert Reeves
  3. Pierre Rabhi
  4. Nicolas Sarkozy
  5. Corinne Lepage
  6. Vincent Munier
  7. Isabelle Delannoy
  8. Mireille Ferri
  9. Alfred Wegener
  10. Eric Brossier

Contrairement à ce que nous avons pu observer dans les Sciences et Ressources, il apparaît que la Société Civile est perméable au monde politique, mais pas seulement ; si le fer de lance de la communauté reste Nicolas Hulot, des personnalités issues de différents milieux se retrouvent dans le top 10 : personnalités médiatiques (Nicolas Hulot), politiques (Nicolas Sarkozy), artistes (Vincent Munier), citoyens engagés (Isabelle Delannoy), ou enfin scientifiques (Hubert Reeves) dont voici la trace sémantique :

environnement espèces planète nature terre effet animales bio eau forêts animaux serre biodiversité monde ressources formes sauvages disparition habitats produits vie couche marines france ouragans glaciaire volcans calotte source flore naturendanger ozone eco climatiques énergie homme reeves années gaz hubert commerce chroniques leurs climats durable développement mer animal naturel mesure

La Société Civile apparaît ici comme un carrefour, un lieu d'échange et de brassage de différents milieux.

Conclusions

S'il est évident qu'il existe des personnalités de référence pour tout domaine, cette courte analyse nous montre que chaque milieu a ses propres références au sein d'une même thématique. L'identification de ces personnalités permettra sans doute de mieux saisir quelle influence subit chaque milieu, mais aussi d'en saisir la diversité d'idées et d'opinions, ou au contraire sa grande convergence. Ce corpus de petite taille et n'étant divisé qu'en deux catégories étudiables ne permet pas de tirer des conclusions générales. Nous aurons cependant prochainement l'occasion de réitérer l'expérience sur un plus grand jeu de données.

Si vous souhaitez aller plus loin dans l'exploration des personnalités de l'Arctique, je vous invite à utiliser le Portail de démonstration. En jouant avec la recherche de noms propres, par exemple jean-Claude Gascard, vous pourrez accéder au graphe de relations de la personne concernée (bouton voir graphe en haut à droite du résultat).

Voir Graphe

Cet outil permet d'explorer le corpus sous forme de micro-graphes, représentant les relations entre les personnes ou les relations entre sites web.

Bonne visite !

Notes

[1] Bien que les données viennent de Konodeo, la "mise en image" a été faite à l'aide de Wordle.

[2] La catégorie Divers a été mise de côté en raison de son caractère hétérogène trop appuyé.