Thèses de la mobilité

Image :

Description en une ligne : Les Thèses de la mobilité est un petit projet expérimental de collection de thèses sur le thème de la mobilité pour l'ADEME.

Description : Les Thèses de la mobilité est un petit projet expérimental de collection de thèses sur le thème de la mobilité pour l'ADEME.

Le projet contient actuellement 4 734 thèses sur le thème de la mobilité extraites du répertoire national des thèses theses.fr. L'extraction repose sur une méthode semi-automatique : un premier corpus de thèses candidates a été sélectionné à partir du vocabulaire d'un thésaurus créé par la Fabrique des Mobilités. Cette première sélection a ensuite été triée manuellement pour ne conserver que les thèses pertinentes pour l'ADEME.

Cette page de documentation revient successivement la phase de constitution du corpus et sur le développement de l'application et du moteur de recherche. Au-delà du compte-rendu elle présente également une méthodologie qui peut être facilement transposée à d'autres thématiques.

Constitution du corpus

Une première sélection a été effectuée à partir du thésaurus développé par la Fabrique des Mobilités.

Nous avons lancé une extraction automatique de tous les résultats de recherche de theses.fr correspondant aux termes et expressions du thésaurus. Par exemple, lorsqu'on effectue une recherche sur "aéroport", theses.fr donne 199 résultats. Le moteur de recherche de theses.fr n'utilise pas seulement le titre des thèses mais l'ensemble des métadonnées disponible comme le résumé de thèse et les mots-clés.

Nous avons récupéré les résultats de tous les mots-clés retenus dans le thesaurus. La récolte est très variable : certains mots-clés sont présents dans des centaines de fiches de thèses quand d'autres sont tout simplement inutilisés (c'est notamment le cas pour des expressions spécialisées comme "abri piéton" ou "consommation véhicule théorique"). theses.fr reste en effet un moteur de recherche de métadonnées et de résumés et ne rend pas forcément compte de terminologies trop précises qui n'apparaissent que dans le texte des thèses.

Les résultats de recherche sont présentés dans un format xml. Nous avons créé un script de parsing pour transformer ces informations en données tabulaires.

Au terme de ce premier traitement nous obtenons un premier corpus très lâche de 35 000 thèses "candidates" contenant au moins deux occurrences des termes du thésaurus. La plupart de ces thèses ne sont pas pertinentes :

Nous avons effectué une sélection manuelle à partir de plusieurs extractions :

Les 1000 premières thèses par nombre d'occurrences des mots-clés du thésaurus. Par exemple la première thèses de la liste "Autorickshaw : émergence et recompositions d’une filière entre l’Inde, l’Égypte et le Congo" contient 55 occurrences de mots-clés du thésaurus dans son titre, son résumé ou dans d'autres métadonnées de theses.fr. Les entrées de cette sélection sont généralement pertinentes même des inclusions inexactes ont quand même dû être vérifiées manuellement. Par exemple la thèse "Analyse diachronique du Trésor de la Langue Française et de l'Oxford English Dictionary : le traitement des emprunts" contenait un nombre élevé d'occurrences du thésaurus (37) mais dans la perspective d'une analyse lexicologique qui n'était pas pertinente dans le cadre du projet.
6015 thèses contenant au moins une occurrences des mots-clés du thesaurus dans leur titre et qui ne faisaient pas partie de la sélection précédente (déjà vérifiée). Nous avons conservé environ la moitié des résultats. Certains termes étaient parfois communément utilisés pour documenter d'autres sujets de recherche (comme la "mobilité sociale").
424 thèses classés dans l'une des catégories lié au transport et à la mobilité de theses.fr Cela inclut notamment la classification normalisée "Commerce, communications, transports" dans le référentiel OAI (ddc:380) mais aussi des catégorisations plus libres incluses dans le champ discipline, apparemment à la libre appréciation du docteur ou de l'école doctorale ("Génie mécanique, productique, transport", "Économie des transports"…)

Dans la grande majorité des cas le choix est trivial et une simple lecture rapide du titre suffit à déterminer si la thèse relève bien du thème choisi. Au terme de cette première phase de sélection, 4360 thèses ont été approuvées et 2388 ont été rejetées (soit un taux de succès de 66%).

Dans un second temps, nous avons "repêché" certaines thèses non retenues lors des sélections précédentes en utilisant deux méthodes complémentaires qui nécessitaient une première analyse du corpus :

Les thèses dirigées par les directeurs et directrices de thèse les plus "actifs" du corpus. Certains chercheurs se spécialisent en effet dans un domaine qui peut ne pas avoir été entièrement couvert par le thésaurus de la fabrique (comme le droit maritime ou la modélisation du trafic autoroutier).
Les occurrences des termes du thésaurus dans le texte complet de la thèse lorsque celui-ci a été mis en ligne et est facilement accessible (idéalement, directement sur le portail de theses.fr).

Ces extractions successives visaient à trouver le juste milieu optimal entre une sélection trop large mais beaucoup trop fastidieuse (le corpus de 35 000 thèses candidates) et une sélection plus rigide mais qui aurait pu écarté trop de thèses pertinentes. En particulier sur certaines thèses plus anciennes la documentation est peu développée avec un résumé parfois très succinct. Dans ce contexte, les occurrences des termes du thésaurus sont mécaniquement plus faibles.

L'approche retenue ici pourrait facilement être rééditée sur un autre corpus. Dans le cadre de ce projet nous avons en effet effectué une extraction intégrale des métadonnées basiques de theses.fr (titres, docteur, directeur…) et préparé plusieurs scripts d'extractions prêts à l'emploi.

L'Application Thèses de la mobilité

Le corpus finalement retenu comprend 4734 thèses. Près de 40% de ces thèses peuvent être consultées en ligne ou sur une autre plateforme universitaire.

Pour rendre accessible ce corpus, nous avons développé une petite application d'exploration de données. Elle comprend principalement un moteur de recherche permettant de formuler des requêtes sur le titre, le résumé et les mots-clés des thèses. Les résultats donnent accès aux principales métadonnées (titre, docteur, directeur, domaine, accès du texte et financement par l'ADEME).

Deux catégories ont nécessité un traitement intermédiaire.

Les domaines : ils ont été recomposées en fusionnant les disciplines du référentiel OAI theses.fr : pour un corpus de taille moyenne sur une thématique assez ciblé, il était peu pertinent de proposer un grand nombre de catégories. Nous avons élaboré une nouvelle catégorisation à partir des champs de recherche les plus actifs sur la question des mobilités : droit et régulation, économie et gestion, géographie et SHS (qui comprend aussi les thèses en sociologie ou anthropologie), sciences techniques et informatiques (avec de nombreuses thèses en ingéniéries), sciences médicales et biologiques et humanités et linguistiques.
La présence d'un financement de l'ADEME. Nous avons croisé les entrées du corpus avec celles des données ouvertes de l'ADEME en utilisant des techniques de fuzzy matching. Les données de l'ADEME référencent fréquemment les titres choisis au début de la thèse alors qu'il peut avoir significativement changé au moment de la soutenance. Le fuzzy matching permet de rapprocher les titres qui ont partiellement changé. Cette méthodologie reste cependant imparfaite et n'est plus opérationnelle lorsque le titre a trop évolué. Pour faire une vérification complète il serait nécessaire de croiser les données de l'ADEME avec l'ensemble des thèses de theses.fr, ce qui pourra être l'objet d'un nouveau projet.

Le moteur de recherche inclut également deux visualisations des données. Un camembert donne un aperçu de la répartition des thèses correspondant à la requête par discipline. Un graphe projette l'évolution de cette répartition dans le temps. Les deux visualisations sont interactives et en les survolant on a accès aux données chiffrées.

Les résultats du moteur de recherche correspondent à un tri sous-jacent. Il présente en premier les thèses dont la requête est présente dans le titre, puis celles dont la requête est présente dans les mots-clés et enfin celles dont la requête est présente dans le résumé. Au sein de chacune de ces sélections les thèses sont ordonnées de manière anté-chronologiques avec les thèses les plus récentes en premier.

Deux moteur de recherche subsidiaires ont été ajoutés : un moteur de recherche par directeur et un moteur de recherche par jury. Les requêtes portent respectivement sur l'ensemble des thèses dirigés par une personne ou dont la personne était membre du jury à l'occasion de la soutenance. Ces deux moteurs de recherche permettent de repérer rapidement des chercheurs spécialisés dans un sous-thème lié à la mobilité.

Enfin l'application inclut deux projections des données du corpus :

Une projection par nuage du tag qui montre l'importance des entrées du thésaurus de la fabrique des mobilités dans le corpus (lorsqu'elles sont attestées). La sélection d'un terme ramène sur une page de requête. Le nuage de tag permet de voir rapidement quelles sont les principales thématiques et champs de recherche attestés.
Une projection cartographique à partir des lieux étudiés par les thèses, tels que mentionnés dans leurs titres. De nombreuses du corpus ont en effet un fort ancrage local, en particulier les thèses soutenues en géographie, en économe et dans d'autres disciplines de SHS. La cartographie permet de repérer rapidement les travaux menés à l'échelle d'un territoire.

Site web de la référence : http://www.numapresse.org/divers/environnement/presentation.php

Tags : thèse

Thème : Vélo et Mobilités Actives, Accessibilité dans les transports, Données ouvertes, Navettes autonomes, Traces de mobilité et des données associées, Covoiturage quotidien, Ecoles et Etudiants, Autopartage - location courte durée, Urbanisme et ville, Ecomobilité scolaire, Logistique urbaine, Stationnement, Voiture électrique et charge, Collectivité

Organisations impliquées dans la ressource : ADEME

Référent (individu) : PCLanglais

Défi auquel répond cette connaissance : Faire progresser la FabMob

Communauté d’intérêt : Communauté des Ecoles et Etudiants

Personnes clés à solliciter : MyLeitz

Discuter sur le chat : https://chat.fabmob.io/channel/theses

Autres informations :