Il faut savoir qu`il existe une quantité gigantesque d`informations sur Internet, représentant plusieurs milliards de documents en constante augmentation. Ces informations sont pour la plupart renouvelées quotidiennement. Nous pauvres humains à la mémoire sélective, ne pouvons retenir l`ensemble des contenus du web, et c`est là que le ``moteur de recherche`` entre en scène et devient l`acteur indispensable pour s`y retrouver !
Concrètement, Qu`est ce c`est ?
Un moteur de recherche (Searchbot en anglais) est une machine spécifique (avec du matériel et logiciel dédié uniquement) chargé d`indexer comme dans un annuaire des postes, des pages web afin de permettre une recherche à l`aide de mots-clés saisis dans un formulaire de recherche. Ainsi par des concept et algorithme qui s`approche de plus en plus de l`intelligence artificielle, le moteur vous propose des réponses pertinentes à vos question.
Fonctionnement d`un moteur de recherche
L'explication qui est donnée ici vous donnera juste un idée de fonctionnement d'un search engine bot. Les moteurs de recherche évoluent sans cesse. Ils se perfectionnent de jour en jour...
La collecte de données
Des robots (comme dans Matrix) sont chargés de parcourir la toile en suivant récursivement les liens des millions de pages Web et indexent les contenus dans de gigantesques bases de données afin de permettre leur interrogation plus tard.
Tout à bord, nous devons comprendre la notion « robot » de moteur de recherche. Ce n`est effectivement pas un humain ou un groupe d`humain qui se charge des besogne répétitive (trop cher, trop long). Les moteur de recherche exploite donc u système de robot, appelé aussi spiders ou crawlers en anglais. C`est ``simplement`` un logiciel qui collecte des données sur les réseaux automatiquement et à très grande vitesse .
Aucun robot, malgré leur ``intelligence `` ne peut parcourir la totalité des pages en une journée (ce processus prend généralement plusieurs semaines), chaque moteur adopte donc sa propre stratégie, certains allant même jusqu`à calculer la fréquence de mise à jour des sites en fonction de critères qui évoluent sans cesse. Durant leur parcourt sur la toile, les robots mettent à jour le Index, trouvent les nouvelles adresses...
Il faut comprendre que un robot peut accéder à une page comme un navigateur quelconque. Par contre, il ne lit pas la page comme un internaute humain. Il ne lit que le ‘code source’ d’une page sous la forme texte. Un robot ne voit pas d`image, de vidéo ou de flash et n`entend pas les sons. Enfin, il apporte des ‘citations’ de textes et des liens qui sont importants pour ‘indexer’ une page.
L` indexation
Après que le robot ai ‘visité’ une page web et apporté des données la concernant, c’est la moteur d’indexation qui prend le relais.
Il a plusieurs tâches, et notamment :
* d’associer à chaque page trouvée, les mots-clés inscrits dans l`en-tête et dans certaines zones significatives de la page (que l`internaute de voit pas). Ils analyse aussi des relations entre différentes pages et différents sites.
* Il index chaque page identifiée dans une base de données qui sera accessible ensuite par les internautes à partir de mots-clés de recherche.
* Il calcule la position des mots dans la page et leur répétition (dans une certaine mesure).
* Il construit pour certain l`indice de popularité de la page (le nombre de liens qui pointent vers la page).
On peut dire que le travail de récupération des informations est réalisé.
L` interrogation
Lorsque l`internaute envoi sa requête de recherche au moteur, celui ci accède à ses bases de données pour chacun des mots envoyés. Il restitue les résultats sous forme de liens vers des pages présente dans son index. Les documents repêchés sont classés selon un ordre de pertinence décroissant.
La plupart des moteurs ne tiennent pas compte du sens littéral des mots.
Ils retournent tous les résultats que peut donner une recherche.
Le terme ``bibliothèque`` par exemple a plusieurs sens : bibliothèque municipale, bibliothèque de données virtuelle, un meuble bibliothèque, etc... Il appartient ainsi à l`utilisateur de saisir une recherche le plus pertinente possible.
Les principaux moteurs de recherche
Ci dessous les principaux moteurs de recherche classés par leur nombre de requettes effectuées
* Google, (environ 60% des 61 milliards de recherches sur internet)
* Yahoo, (8,5 milliards de recherches, soit 14% du total)
* Baidu, monte en puissance (3,3 milliards de requêtes, soit 5,4% du total),
* Live Search, (Microsoft) (2,1 milliards de recherches, 3,4%)
* Mozbot
Le Fonctionnement de base du moteur Googlebot de google.
Que sera le moteur de recherche de demain ?
Vaste question mais nous pouvons déjà imaginer que nos moteurs actuels migrerons petit à petit vers des système d'intelligence artificielle. Il comprendra les requêtes au sens littéral, comme vous et moi et aidera le moteur de recherche à fournir de bien meilleurs résultats en fonction des goûts et des habitudes de chacun. Il sera aussi capable d’évoluer dans le temps.
Sur base d’une pré-analyse de la requête et de son contexte, un système comme RankBrain aide le moteur de recherche à mieux interpréter les requêtes qu'il n'avait encore jamais vues.
En effet, il propose un résultat plus pertinent plutôt que de se baser simplement sur les mots clés saisis par l’internaute.
Autrement dit, dans les années à venir le moteur de Google devrait être bien plus intelligent et proposer des résultats pertinents sur des requêtes inconnues de son moteur de recherche. Et surtout les moteurs intelligents seront partout. Dans un smartphone, un ordinateur, un frigo, une voiture, un arrêt de bus, un train, un teeshirt...
Une chose est certaine, le monde va changer, et c'est déjà en marche !