Aller au contenu principal

CiteSeerx

Présentation

CiteSeerx est à la fois un index de citations et un agrégateur de documents en libre accès dans le domaine de l’informatique et des disciplines associées (sciences de l’information, mathématiques appliquées, physique et économie). Il est particulièrement utile pour suivre les réseaux de citations.

  • Adresse : https://citeseerx.ist.psu.edu
  • Créateurs : Steve Lawrence, Lee Giles et Kurt Bollacker de NEC Labs, Princeton, New Jersey. En 2003, l’index a été pris en charge par le College of Information Sciences and Technology de l’Université de Pennsylvanie.
  • Date de création : 1997, mais devient public en 1998.    
  • Modalité(s) d’accès : Archive ouverte et gratuite (utilise le protocole OAI-PMH). Elle bénéficie de l’appui financier des organismes publics tels la NASA, la NSF (National Science Foundation) et l’Allen Institute of Artificial Intelligence.

Contenu

Types de données

CiteSeerx est avant tout un index de citations. Il moissonne les métadonnées des publications librement accessibles sur internet dans le but de faciliter les analyses statistiques des citations et des co-citations. Il s’agit du premier moteur de recherche scientifique à effectuer une indexation automatique de citations. En plus de référer des documents indexés dans la base de données, ces citations vont aussi référer à des documents qui en sont absents.

CiteSeerx est également un répertoire de littérature scientifique. La collection est constituée de documents en texte intégral. Son volume a connu une forte croissance à la fin les années 2000 grâce à l’essor du mouvement du libre accès : elle est passée de 1,8 millions de titres en 2008 à 21 millions en 2014. CiteSeerx accepte l’autoarchivage des articles par les auteurs et autrices.

Couverture disciplinaire

Initialement spécialisé en informatique, sciences de l’information et mathématiques appliquées, le moteur intègre maintenant des publications du domaine de la physique et de l’économie.

Mise à jour

La fréquence exacte de mise à jour du contenu n’est pas connue. Le site mentionne qu’il est « mis à jour régulièrement ».

Exploration

Interface

Par défaut, l’écran d’accueil s’ouvre sur la recherche simple de documents.

Présentation de l'écran d'accueil de CiteSeerx

1) Critères de recherche - Trois options d’interrogation sont disponibles : Documents, Authors et Tables. Cette dernière option permet de rechercher des graphiques et tableaux tirés des publications indexées.

2) Boîte de recherche - En plus de la boîte de recherche simple, un formulaire de recherche avancée est disponible (Advanced Search). Pour faire afficher les citations dans les résultats, il faut cocher la case Include Citations.

3) Liste des documents les plus cités et des citations les plus fréquentes.

4) Section réservée aux auteurs et autrices qui veulent archiver leurs articles.

Recherche

Par défaut, la recherche est effectuée dans le texte des articles. Le formulaire de recherche avancée permet de choisir d’autres critères d’interrogation (titre, autorat, revue, affiliation, intervalle de dates de publication) ou d’en combiner plusieurs.

Les opérateurs booléens sont acceptés, mais il n’est pas possible de faire une recherche d’expression (guillemets). Il n’y a pas de caractères de troncature, mais la racinisation est automatique. Les caractères spéciaux (p. ex. les accents) sont pris en compte.

Les résultats sont triés par ordre de pertinence, selon la fréquence des termes recherchés dans le texte des articles. L’ordre du tri peut être changé pour le nombre de citations ou la date de publication.

Capture des options de tri

CiteSeerx propose de lancer la même recherche avec d’autres moteurs scientifiques ou généralistes: (de gauche à droite) AllenAI Semantic Scholar, Google Scholar, Microsoft Academic, Google, Bing, DBLP Computer Science Bibliography.

Analyse des résultats

Indices bibliométriques

Pour chaque article, CiteSeerx calcule :

  • Nombre de citations reçues (autocitations comprises);
  • Nombre d’articles qui citent les mêmes publications que l’article actif (Active Bibliography ou couplage bibliographique) ;
  • Nombre de co-citations (liste d’articles cités en même temps que l’article actif par d’autres publications).

Exportation / visualisation

Les citations sont présentées dans leur contexte. Exemple :

Les références bibliographiques peuvent être exportées au format BibTeX. Il est aussi possible de partager les articles sur les réseaux sociaux.

La création d’un compte CiteSeerx donne accès à d’autres fonctionnalités, dont la sauvegarde de résultats (Add to Collection), la correction d’erreurs (Correct Errors) et les alertes sur tout changement apporté aux articles sauvegardés (Monitor Changes).

Points forts et précautions

Points forts

  • Répertoire scientifique en libre accès;
  • Code source du moteur de recherche (SeerSuite) disponible sur GitHub;
  • Techniques d’intelligence artificielle avancées, telles la classification automatisée des documents, l’élimination des doublons et la désambiguïsation des noms;
  • Possibilité de programmer des alertes sur les nouvelles publications associées à un établissement de recherche en particulier.

Points faibles et précautions

  • Aucun contrôle de qualité des publications indexées par CiteSeerx ni système de recommandation;
  • Couverture limitée aux articles librement accessibles en ligne, impactant l’indice h calculé par CiteSeerx, excluant tout article sous abonnement;
  • Biais disciplinaire écartant les sciences humaines et sociales;
  • Biais linguistique axé sur la littérature en anglais uniquement;
  • Erreurs d’indexation (données manquantes, dédoublement des entrées) dues à l’autoarchivage et ayant un impact sur le résultat de la recherche.

Références

CiteSeerX. (s. d.). About CiteSeerX. https://csxstatic.ist.psu.edu/home
Wu, J., Williams, K. M., Chen, H.-H., Khabsa, M., Caragea, C., Tuarob, S., Ororbia, A. G., Jordan, D., Mitra, P. et Giles, C. L. (2015). CiteSeerX: AI in a Digital Library Search Engine. AI Magazine, 36(3), 35‑48. https://doi.org/10.1609/aimag.v36i3.2601