Indexation automatisée

De WikiNotions
Aller à : navigation, rechercher
Liste des notions

F (folksonomie)

L (langage documentaire)

Langage documentaire

Lemmatisation

O (opérateur, outils de recherche...)

V (veille, vocabulaire contrôlé...)

W (web sémantique)

Nom : Indexation automatisée

Type d'article : Notion

Notion organisatrice : Indexation

Notion(s) associée(s) : Mot clé, Index, Référencement, Métadonnée, Web sémantique, Internet, Instabilité documentaire, Outil de recherche, Moteur de recherche, Métamoteur

Caractéristiques

Niveau débutant

  • Consiste en une opération informatique et automatique
  • Concerne des documents numériques en ligne
  • Suppose une méthode logicielle
  • Conduit à la création d'un index
  • Permet de retrouver facilement des données informationnelles

Niveau avancé

  • S'appuie sur une programmation d'algorithmes
  • Prend en considération la fréquence des mots
  • Suppose des opérations diverses :
    • l'extraction des mots vides (comme des mots fonctionnelles tels des articles)
    • la prise en considération de la place des mots dans le document (titraille, chapeau, casse...)
    • l'opération de stemming ou lemmatisation (effacer les terminaisons pour retrouver les racines des mots)
  • Peut concerner :
    • des textes
    • des images
    • des documents sonores
    • de la vidéo

Définitions

Niveau de formulation débutant

L'indexation automatisée consiste en une opération informatique et automatique qui concerne des documents numériques en ligne. Elle suppose une méthode logicielle qui conduit à la création d'un index. Cette indexation automatisée permet de retrouver facilement des données informationnelles parmi plusieurs documents, à l'aide d'un moteur de recherche.

Niveau de formulation avancé

L'indexation automatisée consiste en une opération informatique et automatique qui concerne des documents numériques en ligne. Elle suppose une méthode logicielle qui conduit à la création d'un index. Cette indexation automatisée permet de retrouver facilement des données informationnelles parmi plusieurs documents, à l'aide d'un moteur de recherche.

La méthode logicielle de l'indexation automatisée s'appuie sur une programmation d'algorithmes qui prend en considération la fréquence des mots. Elle suppose des opérations diverses :

  • l'extraction des mots vides (comme des mots fonctionnelles tels des articles) ;
  • la prise en considération de la place des mots dans le document (titraille, chapeau, casse...) ;
  • l'opération de stemming ou lemmatisation (effacer les terminaisons pour retrouver les racines des mots).

L'indexation automatisée peut concerner des textes, mais aussi d'autres natures d'information, à savoir des vidéos, des documents sonores, et des images. Pour les images, il peut s'agir d'une indexation réalisée à partir des métadonnées liées à l'image, mais aussi à partir d'une reconnaissance du contenu graphique de l'image.

Complément : la lemmatisation, les lemmes

La lemmatisation est une analyse lexicale qui conduit au regroupement de termes par lemmes. Un lemme, ou forme canonique, désigne le terme générique qui comprend les différentes formes lexicales qui peuvent dériver de ce terme. Par exemple, le lemme nourriture comprend le terme nourriture au singulier et au pluriel, toutes les formes de conjugaison du verbe nourrir, les adjectifs dérivés nourricier, nourrissant, ainsi que leurs formes variables.

La gestion des lemmes est intégrée dans les algorithmes des moteurs de recherche afin d'associer les mots-clés présentés par l'utilisateur dans sa requête, avec les termes qui ont une forme lexicale proche dans l'interrogation de l'index ou base de données.

Exemples et contre-exemples

Exemples

  • Indexation automatique de ressources numériques sur un moteur de recherche
  • Catégorisation automatique de résultats sur un moteur ou un métamoteur

Contre-exemples

  • Indexation matières avec RAMEAU
  • Indexation des documents du CDI avec le thésaurus Motbis
  • Indexation et classification de documents avec la CDU ou la classification Dewey dans une bibliothèque

Séquences pédagogiques

Lycée : Seconde.

• COLIN Véronique. Comment fonctionne un moteur de recherche. In Doc TICE. Site des documentalistes de l'académie de Besançon [en ligne], 07/06/2013. Disponible sur : http://documentation.ac-besancon.fr/comment-fonctionne-un-moteur-de-recherche/
Séquence commentée sur ID Base : http://idbase.esmeree.fr/notice/jb3rncgr
Notions associées : Moteur de recherche, Requête, Mot clé, Base de données, Index, Indexation automatisée, Evaluation de l'information, Recherche d'information, Source.
• RABAT Frédéric. Une année avec Google (suite). In Documentation. Académie de Rouen [en ligne], 03/06/2008. Disponible sur : http://documentation.spip.ac-rouen.fr/spip.php?article192
Séquence commentée sur ID Base : http://idbase.esmeree.fr//notice/e54flncw
Notions associées : Moteur de recherche, Requête, Mot clé, Base de données, Index, Indexation automatisée, Evaluation de l'information.
• SOGLIUZZO Gaëlle. Comment fonctionne un moteur de recherche : l’exemple de Google. In Culture de l'info et des médias en lycée [en ligne], 20/11/2013. Disponible sur : http://beaumont-redon.fr/wp/cultureinfomedias/2013/11/20/comment-fonctionne-un-moteur-de-recherche-lexemple-de-google/
Notions associées : Moteur de recherche, Requête, Mot clé, Base de données, Index, Indexation automatisée, Evaluation de l'information.

Sujet(s) de débat, de controverse

Déréférencement : faut-il un droit à l'oubli ?
Notions associées : Référencement, Indexation, Indexation automatisée, Trace numérique, Droit de l'information