Introduction

Konodeo a fait le choix de mettre au coeur de ses solutions des moteurs de recherche verticaux, c'est à dire des moteurs spécialisés sur une thématique ou faisant trait à une spécificité des sites web, afin de réunir au sein du même moteur un nombre limité de sources. Ces sources forment un corpus, dont la taille permet de restreindre le champ sémantique et d'effectuer des recherches plus fines.

Les moteurs verticaux (comme celui de Konodeo) s'opposent aux moteurs généralistes tels que Google ou Yahoo, qui sont à même de chercher de l'information sur tout le web mais s'exposent de fait à un plus grand bruit[1] dans les résultats de recherche, ainsi qu'à des difficultés à lever des ambiguïtés sémantiques.

Nous nous attacherons ici à vérifier qu'un moteur vertical répond différemment aux requêtes qu'un moteur généraliste,.

Méthodologie

Présentation

La comparaison se fait par rapport à un contexte pré-déterminé, correspondant à un moteur mis en place par Konodeo. Trois contextes ont été utilisés dans nos tests :

  • Contexte du développement informatique
  • Contexte de l’Arctique
  • Contexte Scientifique (Publications en Communication, Revue Forestière)

Chacun de ces contextes donne lieu à un benchmark séparé, permettant d’identifier ses spécificités avant de tirer des conclusions globales.

Modus Operandi

Le principe du test est de noter la pertinence des réponses apportées par le moteur à la question posée. Chaque requête effectuée donne lieu à une note de pertinence pour chaque moteur, entre 0 et 1. Cette note est attribuée comme suit :

  1. on part d’un capital de 12 points.
  2. un premier résultat non pertinent entraîne la soustraction de trois points.
  3. tout résultat suivant non pertinent entraîne la soustraction de un point
  4. le résultat obtenu est divisé par 12 (normalisation)

Chacun de ces moteurs présentant les résultats de requêtes sous la forme de dix réponses[2], on obtient des scores homogènes et normalisés.

Un résultat est jugé pertinent s'il répond tout ou partie à la requête telle qu'interprétée par la personne l'effectuant.

Écart entre moteurs

Méthode de calcul

Pour juger de l'écart entre deux moteurs de recherche, nous avons mis en place un indice calculé comme suit :

  • soit ri la requête i
  • soit si,mx le score correspondant à ri pour le moteur x.
  • soit N le nombre total de requêtes effectuées

Alors l'écart entre les moteurs m1 et m2 sera égal à la somme de 1 à N des valeurs absolues de (si,1' - si,m2') : calcul_ecart.png

Soit la moyenne des écarts constatés pour chaque requête entre les deux moteurs étudiés.

Résultats

Grand corpus : développeurs
Konodeo - GoogleKonodeo - YahooYahoo - Google
0,270,290,19

En moyenne on obtient 0,28 pour l'écart vertical/généraliste, et 0,19 pour l'écart généraliste/généraliste. Il y a donc 1,5 fois plus de différence entre le moteur vertical et un moteur généraliste qu'entre les deux moteurs généralistes sur ce corpus.

Corpus de taille moyenne : Arctique

Konodeo - GoogleKonodeo - YahooYahoo - Google
0,230,190,13

En moyenne on obtient 0,21 pour l'écart vertical/généraliste, et 0,13 pour l'écart généraliste/généraliste. Il y a donc 1,6 fois plus de différence entre le moteur vertical et un moteur généraliste qu'entre les deux moteurs généralistes sur ce corpus.

Corpus de petite taille : revues scientifiques

Konodeo - GoogleKonodeo - YahooYahoo - Google
0,220,270,16

En moyenne on obtient 0,25 pour l'écart vertical/généraliste, et 0,16 pour l'écart généraliste/généraliste. Il y a donc 1,6 fois plus de différence entre le moteur vertical et un moteur généraliste qu'entre les deux moteurs généralistes sur ce corpus.

Conclusions

Sans présumer de quel type de moteur répond le mieux selon les requêtes ou le type de requêtes, nous pouvons déjà établir une véritable différenciation dans la manière dont répond un moteur généraliste ou un moteur vertical tel que celui de Konodeo. Avec, dans le cadre de cette analyse limitée à trois corpus, un écart constant de facteur 1,6 la différence vertical / généraliste est réelle et ne saurait être négligée. Nous examinerons dans une prochaine étude les écarts de pertinence selon le type de moteur.

Notes

[1] Par bruit, nous entendons ici des résultats de recherche hors-sujet

[2] Sur Google et Yahoo, les résultats images et vidéos sont ignorés