thematic
 ACCUEIL
 LISTE DE DIFFUSION
 MENTIONS LEGALES
 ARCHIVES / N°
CRI Pratique
 PRÉSENTATION
 CRI Pratique

 La publication "pratique/généraliste" du CITIC 74.

 CRI PRATIQUE

 Les moteurs de recherche
Introduction


 Les moteurs de recherche
Le référencement


 Les moteurs de recherche
Comment trouver l’information ?


 Les moteurs de recherche
Quel moteur de recherche utiliser ?


 Les moteurs de recherche
Conclusion


 Le logiciel libre du mois
FireFox 1.0, réappropiez-vous le web !


TÉLÉCHARGEABLE
(Format PDF - 557.5 ko)


CRI PRATIQUE > 2004 > N°13 Novembre 2004 >

Parfois comparé à la Bibliothèque d’Alexandrie, le Web est composé d’un nombre inestimable de sites, eux-mêmes composés d’un nombre incalculable de pages... Il faudrait plus d’une vie pour tout consulter ! Heureusement, les moteurs de recherche sont une des principales ressources mises à la disposition de l’internaute pour l’aider à trouver son aiguille dans des milliers de meules de foin.

Le moteur de recherche (ou Search Engine) est un programme, comparable à une base de données archivant des sites web, des pages web et les mots les composant. Cette base est mise à jour régulièrement, à mesure que de nouveaux sites web sont créés ou que le contenu des pages est modifié.
Pour trouver le thème recherché, le moteur « scrute » dans sa base de données l’existence de la chaîne de caractères demandée et la restitue, le cas échéant, sous la forme d’une liste de sites ou de pages web, selon sa nature.

LES ANNUAIRES

En effet, certains programmes sont en fait des annuaires (ou directory), recensant uniquement des sites web, sans se préoccuper des pages les composant. Ce type de recherche est dite « en arbre » : moins fine, elle permet de classer les sites web par typologie en isolant ceux relatifs à l’argument recherché.

Exemple d’annuaire : Yahoo !

LES MOTEURS DE RECHERCHE

Ils recensent les sites web en prenant en compte les pages qui les composent, sur la base de l’importance des mots contenus dans chaque page. Ils supposent donc que si un terme apparaît souvent dans une page web, c’est qu’il représente l’argument principal de cette page.

Exemple de moteurs de recherche : Google, AltaVista, Lycos...

À noter : c’est pour cette raison qu’une même recherche peut vous renvoyer sur plusieurs pages web d’un même site.

LES MÉTAMOTEURS

Également appelés metacrawlers, ils permettent une recherche simultanée sur plusieurs moteurs de recherche. Ces derniers n’utilisant pas toujours le même système de recherche, les résultats sont moins précis.

Exemple de métamoteurs : Mamma.com, metacrawler.com

Il est impossible de donner une liste exhaustive d’annuaires ou de moteurs de recherche, tant ils sont nombreux, et eux-mêmes ne peuvent pas recenser tout le Web. Google est cependant considéré comme un des plus complets, avec quelques 8 milliards de pages web répertoriées !

Lire la suite de cette article : Le référencement

CRI PRATIQUE > 2004 > N°13 Novembre 2004 >

Comment les sites web et leurs pages sont-ils archivés par les moteurs de recherche ?

LE RÉFÉRENCEMENT MANUEL

Le webmaster « inscrit » son site web dans différents moteurs de recherche, selon son choix. Plus il multipliera cette action, et meilleure sera la lisibilité de son site web. Certains référencements sont gratuits (c’est le cas de Google), d’autres payants ; certains sont plus rapides que d’autres (comptez entre 1 et 15 jours pour voir apparaître votre site web après l’avoir inscrit).

LE RÉFÉRENCEMENT AUTOMATIQUE

Parallèlement, tous les moteurs de recherche sont composés de programmes spécifiques, appelés spider ou crawler. Ces « robots » sondent régulièrement le Web, ajoutant à leur base de données de nouveaux sites web, de nouvelles pages ou les dernières modifications apportées au contenu.

Pour une bonne lisibilité de votre site web, il est nécessaire de procéder à un bon référencement, les deux actions étant complémentaires.

À noter : pour l’internaute, l’utilisation d’un moteur de recherche est gratuite. C’est grâce à la publicité que ce service, pourtant onéreux à mettre en place, devient accessible : vente d’espaces publicitaires (les bannières et les pop-up, ces petites fenêtres qui s’ouvrent automatiquement), mise en place de liens payant et sponsorisés par les annonceurs, accords divers avec les sociétés, etc.

Lire la suite de cette article : Comment trouver l’information ?

CRI PRATIQUE > 2004 > N°13 Novembre 2004 >

C’est le cœur du problème... Si les moteurs de recherche sont simples à utiliser, il est cependant essentiel de procéder à des recherches précises : plus la demande sera ciblée, plus la réponse sera pertinente et moins vous perdrez de temps !

À CHAQUE MOTEUR SA MÉTHODE !

Ils affichent en général une aide (ou recherche avancée) dans le menu de la page d’accueil : n’hésitez pas à la consulter, elle vous guidera efficacement dans vos recherches !

-  AltaVista
Ce moteur de recherche propose une recherche booléenne. Créés par le mathématicien Georges Boole, les principaux booléens sont : AND, NOT, NEAR, OR, et peuvent être utilisés avec des *astérisques*, des « guillemets » ou des (parenthèses).

    • AND => en liant deux ou plusieurs mots avec AND, vous demandez les documents contenant tous les mots indiqués.

      Exemple : recettes AND gâteaux => tous les documents avec tous les mots demandés.
    • OR => vous permet d’afficher les documents contenant soit un terme, soit l’autre, soit les deux.

      Exemple : recettes OR gâteaux => tous les documents contenant soit recettes soit gâteaux, soit les deux.
    • NEAR => Condition plus restrictive : les mots liés par NEAR doivent apparaître ensemble dans le texte, à une distance limitée (généralement 10 mots).
    • NOT => Restriction de la requête : en liant deux ou plusieurs mots avec NOT, vous excluez des documents contenant le mot ou l’expression indiqué(e). NOT peut être utilisé avec d’autres opérateurs, comme AND.

      Exemple : recettes NOT gâteaux récupère les documents contenant recettes mais ne contenant pas gâteaux.
    • (PARENTHÈSES) => Tous les booléens peuvent être insérés dans expressions avec parenthèses. Elles indiquent que l’objet de l’opérateur qui les précède s’applique à toute l’expression contenue dans les parenthèses.

      Exemple : recettes AND (tartes OR glaces NOT gâteaux).
    • « GUILLEMETS » => Ils indiquent que leur contenu doit être traité en un seul bloc. Ne pas en mettre revient à utiliser le booléen OR : la requête est élargie au lieu d’être resserrée.
    • *ASTÉRISQUE* => Certains moteurs de recherche l’acceptent à la place d’une ou plusieurs lettres. Elle est utilisée pour rechercher toutes les déclinaisons d’un mot (genre, nombre, temps conjugué, etc.). L’astérisque est également utilisée à l’intérieur d’un mot, en cas de doute sur l’orthographe exacte.

      Exemple : anim* => animal / animaux / animation / animalier...

-  Google

Google n’accepte pas les booléens, mais propose un formulaire à remplir pour affiner votre recherche Vous avez notamment la possibilité de trier les résultats par langue, par format de fichier, par date ou encore par domaine.

Les principes de base d’une recherche sur Google :

    • Inclusion automatique de l’opérateur AND :
      Si votre recherche porte sur plusieurs termes, Google signale uniquement les pages qui comportent tous ces termes, sans qu’il soit nécessaire de spécifier le booléen AND entre eux.
    • Termes ignorés :
      Google ignore les chaînes de caractères dont le poids sémantique est trop faible (également désignés mots vides ou bruits) : le, la, les, du, avec, vous, etc. Google ignore également les mots spécialisés tels que http ou .com, ainsi que les lettres/chiffres d’un seul caractère, qui jouent rarement un rôle intéressant dans les recherches et risquent de ralentir le processus.

      Pour forcer l’inclusion d’un mot vide dans une recherche, vous pouvez le faire précéder du signe +, lui-même précédé d’un espace. Vous pouvez également inclure le signe plus + dans une recherche d’expression.

      Exemple : +le +songe +d’une +nuit +d’été
    • Lemmatisation :
      Google ne réduit pas les mots au masculin, au singulier, à l’infinitif, etc. , mais les utilise exactement tels que vous les entrez dans le champ de recherche.

      Exemple : Si vous entrez le terme cheval ou cheva*, Google ne fait pas porter la recherche sur chevaux, chevaline ou chevalerie, mais uniquement sur la chaîne de caractères exactement tapée.
    • Majuscules et minuscules :
      Les recherches Google ne tiennent pas compte de la casse des lettres. Quelle que soit la typographie utilisée, Google interprète toujours les lettres composant vos termes de recherche comme des minuscules.

      Exemple : Si vous lancez différentes recherches en spécifiant tour à tour le terme cheval, Cheval et CHEVAL, la liste des pages Web correspondant aux résultats de recherche sera identique dans les trois cas car elle porte uniquement sur la chaîne cheval.
    • Accents :
      Par défaut, les recherches Google ne tiennent pas compte des accents ou autres signes diacritiques (cédille, tilde espagnol, umlaut allemand, etc.).

      Exemple : les termes francais et français retrouvent les mêmes pages. Pour indiquer que ces deux termes ont une signification différente, utilisez soit le signe + , soit les termes de recherche +français et +francais.

Pour résumer : dans la plupart des cas, taper un seul terme vous conduira à des milliers de réponses. Pour affiner votre recherche, soit en la restreignant soit en l’élargissant, pensez à être le plus précis possible. Et n’hésitez pas à utiliser l’aide proposée dans le menu de la page d’accueil du moteur de recherche : chaque moteur est différent.

Lire la suite de cette article : Quel moteur de recherche utiliser ?

CRI PRATIQUE > 2004 > N°13 Novembre 2004 >

Ils sont tellement nombreux qu’il est difficile de répondre à cette question. Il faut en essayer plusieurs, et adopter celui qui répond le mieux à vos attentes et dont l’interface vous plaît le plus.

Par ailleurs, sachez que certains moteurs de recherche sont généralistes, d’autres sont spécifiques à un sujet, et d’autres proposent des options très utiles :

-  Labanquise.org n’indexe que les pages web dédiées aux logiciels libres ainsi que les sites web proposant de télécharger ces outils.
-  Google ou AltaVista proposent de ne trouver que des résultats rédigés en français, ou encore de classer les pages par date.
-  AltaVista permet de rechercher tous les sites web faisant un lien vers le vôtre (tapez dans la barre de recherche link : URL de mon site)
-  Etc.

L’AVIS DU CRI74

Google est sans doute le moteur de recherche le plus abouti, grâce à des fonctionnalités très utiles :

-  Pages « cachées » : lorsque Google explore le Web, il crée une copie de chaque page examinée et la stocke dans une mémoire cache. L’intérêt ? Si le serveur du site web que vous souhaitez consulter est indisponible, ou si le site n’existe plus, vous pourrez malgré tout accéder à une copie de ce site, dans l’état où il se trouvait lors de son indexation la plus récente. Lorsqu’une page cachée est affichée, elle est précédée d’un en-tête encadré qui rappelle qu’il ne s’agit pas de la page originale. De plus, Google « surligne » les différentes occurrences des termes de recherche.

À noter : le lien « Copie caché » n’apparaît pas si le site n’a pas encore été indexé ou si le propriétaire du site a demandé que le contenu caché soit exclu de l’indexation Google.

-  Pages similaires : si le contenu d’un des sites web retrouvés par Google vous intéresse et que vous souhaitez en savoir plus, vous pouvez cliquer sur ce lien pour trouver d’autres sites à contenu similaire que vous n’avez pas encore visités. Si vous recherchez des informations sur un produit donné, cette fonctionnalité peut vous aider à trouver des sites de comparaison, d’opinion, etc.

Google propose également une traduction automatique des pages web, une calculatrice intégrée (tapez vos opérations dans la barre de recherche) ; il vous propose une version HTML des documents en PDF ou en .doc placés sur la page web, de manière à ce que vos n’ayez pas à télécharger des documents trop lourds. Une recherche d’images est aussi possible.

C’est pour toutes ces raisons que de nombreux sites web intègrent Google dans leur propre moteur de recherche : en tapant une requête, vous accédez directement à la page de résultats Google.

Lire la suite de cette article : Conclusion

CRI PRATIQUE > 2004 > N°13 Novembre 2004 >

Le Web est encore jeune, mais il a déjà bouleversé notre rapport à l’information. Dans cette inextricable base de données, il existe fort heureusement de nombreux outils permettant une recherche rapide et pertinente : les moteurs de recherche, associés aux booléens, à la syndication de contenus (voir Réseaux74 du mois d’octobre), sans oublier un navigateur malin, feront de vous un internaute satisfait !

CRI PRATIQUE > 2004 > N°13 Novembre 2004 >

Marre des pop-up ? Lassé des innombrables fenêtres qui s’ouvrent à chaque lien ? Fatigué de vous perdre sur la toile et de revenir bredouille ? Sorti le 9 novembre, FireFox 1.0 (le navigateur libre de Mozilla) va vous réconcilier avec le Web !


-  Navigation par onglets
Ouvrez les liens en arrière-plan et gagnez du temps en chargeant plus d’une page web à la fois.

-  Blocage des pop-up
Bloquez les fenêtres publicitaires grâce à l’anti-pop-up intégré d’office dans Firefox.

-  Recherche intégrée
Google est directement intégré dans le navigateur, mais celui-ci vous donne la possibilité d’utiliser le moteur de recherche de votre choix. De nombreux autres outils de recherche sont intégrés (vos mots clefs tapés dans la barre d’adresse et vous conduisant directement sur le site web demandé ; la nouvelle barre de recherche qui surligne les mots recherchés lors de leur frappe sans vous encombrer d’une boîte de dialogue de recherche, etc.).

-  Sécurité et respect de la vie privée
Conçu avec comme priorité la sécurité et le respect de votre vie privée, Firefox protège votre ordinateur des logiciels espions présents sur les pages web en ne chargeant pas les contrôles activeX nocifs. Une large gamme d’outils de sécurité vous garantissent un accès sûr au Web.

-  Marque-pages dynamiques
L’intégration des flux de syndication RSS vous permet de suivre l’actualité en temps réel et d’accéder aux toutes dernières actualités de vos sites préférés.

-  Téléchargements simplifiés
Les fichiers que vous téléchargez sont enregistrés sur votre Bureau pour les retrouver facilement. Vous ne perdrez plus votre temps à cliquer dans des boîtes de dialogue pour un simple téléchargement.

-  Facile d’utilisation
Simple et intuitif, Firefox n’en est pas moins puissant et doté de toutes les fonctionnalités auxquelles vous êtes habitué : marque-pages, historique, mode plein-écran, zoom texte vous permettant de mieux lire les pages au texte minuscules, etc.

Et sans oublier les nombreuses extensions, les mises à jour automatiques, la fonctionnalité relative aux formulaires (lorsque vous remplissez un formulaire sur un site web, Firefox enregistre les données saisies et les propose automatiquement pour tout nouveau formulaire)...

FireFox 1.0 : seulement 4, 5 Mo ( !) pour redécouvrir le Web, téléchargeable ici : http://www.mozilla-europe.org/fr/

 ACTUALITÉ
 SITES RÉFÉRENCÉS
 Dmaths

 Créé par un enseignant, est un complément pour OpenOffice.org destiné à tous ceux, et en particulier les professeurs de mathématiques, qui utilisent régulièrement l’éditeur d’équation...

 ATD 74

 Informations touristiques, le site de vos vacances en Haute-Savoie...

 Yahoo

 Annuaire...

Copyright © 2005 Centre de Ressources Informatiques de Haute-Savoie - webmaster@thematic74.fr
Site web entièrement basé sur SPIP, logiciel libre de gestion de contenu collaborative.