Indexation

De WikiNotions
Aller à : navigation, rechercher
Liste des notions

F (folksonomie)

L (langage documentaire)

O (opérateur, outils de recherche...)

V (veille, vocabulaire contrôlé...)

W (web sémantique)

Caractéristiques

Niveau débutant

  • Décrit le contenu d'un document
  • Analyse le contenu d'un document
  • Facilite l'accès à l’information

Niveau avancé

  • Utilise des techniques de marquage
  • Produit et constitue une information secondaire

Caractéristiques complémentaires

  • Utilise un langage documentaire
  • Utilise le langage naturel
  • Se pratique sous forme d'indexation documentaire par les professionnels de l’information
  • Se développe sous forme d'indexation libre collective
  • Englobe l’indexation automatisée
  • Concerne toutes les sortes de données, de traces, de ressources

Définitions

Niveau de formulation débutant

L’indexation est une opération d’analyse et de description du contenu d’un document. Elle facilite l’accès à l’information qu’il contient.

Niveau de formulation avancé

L’indexation vise à représenter le contenu d’un document ou d’un ensemble de données, de traces, de ressources, par des techniques de marquage, soit externes (mots clés, descripteurs, indices, « tags », etc.), soit internes (indexation automatisée, métadonnées, lemmatisation). Cette opération permet l’accès à l’information. Elle produit une information secondaire, décrivant et représentant une information primaire. Elle peut se faire à l’aide d’un langage documentaire (thésaurus, liste d’autorité, classification) ou en langage naturel (indexation collective libre). Elle peut être humaine (indexation documentaire et/ou libre) ou bien confiée aux outils informatiques (indexation automatisée).

Approfondissement de la notion

L’indexation reste l’une des opérations de traitement de l’information des plus complexes car, quelles que soient ses modalités (humaine, automatisée, contrôlée, libre…), elle rencontre deux grandes catégories de problèmes, particulièrement difficiles à résoudre :

  • la représentation des connaissances, notamment à travers des langages documentaires ;
  • les pièges et les limites du langage naturel (polysémie, synonymie, etc.)

On peut distinguer deux approches possibles de l’indexation, longtemps séparées et aujourd’hui en voie de convergence :

  • l’approche des documentalistes et bibliothécaires, correspondant à l’indexation humaine, ou documentaire ;
  • l’approche des linguistes et des informaticiens, correspondant à l’indexation automatisée.

Ces deux modalités renvoient à deux formes, complémentaires, de représentation du contenu d’un document :

  • dans l’approche documentaire, l’indexation est définie comme la représentation, par les éléments d’un langage documentaire, des notions résultant de l’analyse d’un document ou d’une question, en vue d’en faciliter la recherche. Il s’agit d’une représentation extérieure au document, forcément réductrice du contenu.
  • dans l’approche linguistique, l’indexation se fonde sur l’analyse automatique d’un texte, selon différents niveaux et différentes modalités (analyse morpho-syntaxique, calcul des occurrences, etc.) par des outils de TALN (Traitement Automatique du Langage Naturel). Il s’agit d’une représentation du contenu par le document lui-même.

Dans les deux approches, l’indexation a les mêmes finalités : faciliter l’accès à une information, à une donnée, au contenu d’un document ou d’un ensemble de documents. Une troisième voie émerge aujourd’hui sur le Web, fondée sur la puissance de l’indexation collective (folksonomie) par le partage d’étiquettes libres (social tags).

Après avoir été longtemps réservée aux seules techniques documentaires, dont elle constitue une part essentielle, l’indexation est aujourd’hui au cœur du traitement et de la recherche de l’information sur les réseaux, où elle recouvre une très grande multiplicité de phénomènes et d’enjeux : méthodes d’indexation des ressources du web dans les moteurs de recherche, développement de l’indexation sémantique, problématique de l’indexation de l’image ou du son, techniques d’indexation et de cartographie de l’information, essor de l’indexation collective, etc.

Exemples et contre-exemples

Exemples

  • Choix d’un mot clé issu de l’analyse d’un document
  • Choix d’un descripteur dans un thésaurus
  • Opération de cotation d’un livre à partir d’une classification
  • Analyse automatisée d’un corpus de textes
  • Elaboration des métadonnées d’un document électronique
  • Choix d’un mot clé libre (« tag ») sur une plate-forme de signets

Contre-exemples

  • Rédaction d’un résumé
  • Elaboration d’une bibliographie
  • Rédaction de la référence bibliographique d’un document
  • Classement de documents dans une bibliothèque

Séquences pédagogiques

Collège : Troisième

Sujet(s) de débat, de controverse

Déréférencement : faut-il un droit à l'oubli ?
Notions associées : Référencement, Indexation, Indexation automatisée, Trace numérique, Droit de l'information

Références

  • LEFEVRE Philippe. La recherche d’informations. Du texte intégral au thésaurus. Paris : Hermès Science Publications, 2000
  • MANIEZ Jacques. Actualité des langages documentaires. Fondements théoriques de la recherche d'information. Paris : ADBS, 2002
  • POMART Paul-Dominique. Indexation. In Dictionnaire de l'information. 3ème édition. Paris : Armand Colin, 2008, p. 129-131