compte-rendu INFTER

Analysis of geographical information in textual data

Le 28 avril 2017, le CIST a accueilli Taylor Arnold, chercheur à la Yale University au Department of Statistics and Data Science, spécialiste d’analyse statistique en général et d’analyse textuelle en particulier, professeur invité par l’Université Paris Diderot (initiative conjointe LARCA/CLILLAC-ARP).

Introduisant la conférence, Claude Grasland a centré son exposé sur l’analyse spatiale des listes de lieux définis de façon qualitative par leurs noms. Il a montré que la reconnaissance des entités spatiales est plus facile dans le cas des états que des villes. Puis il a développé deux exemples d’analyse de listes de lieux. D’une part, l’analyse des représentations mentales que se font les étudiants des pays du Monde (projet FP7 EuroBroadMap, 2009-2013). D’autre part, l’apport de l’analyse des flux RSS de presse internationale à l’analyse des relations géopolitiques de pouvoir entre les pays du Monde (projet ANR Géomédia, 2013-2016).

Couverture de l'ouvrage Humanities Data in R, Springer

Taylor Arnold a dressé un tableau historique du courant de l’analyse exploratoire des données en identifiant les auteurs majeurs du champs. Puis il a montré le tournant qu’a constitué le développement de S, S+ et enfin R dans l’extension du domaine de l’analyse exploratoire des données. Enfin, il a souligné plus précisément les apports de ce type d’analyse aux humanités numériques à travers l’exemple de l’analyse textuelle et du package CoreNLP.

La présentation de Marianne Guérois et Malika Madelin était une analyse exploratoire de données Airbnb (collectées par la plateforme InsideAirbnb). Elles ont enrichi par une analyse textuelle le travail fait dans le cadre du projet Grandes métropoles. Cette analyse s’appuie sur trois types d’information associée à une localisation : le titre et la description des locations (par les hôtes) et les commentaires (par les clients). Cette étude répond à plusieurs interrogations. Par exemple, quelles sont les langues utilisées et observe-t-on l’émergence de communautés de langages ? Autre exemple, la localisation des lieux décrite par les hôtes est-elle en cohérence avec la localisation spatiale de l’hébergement et avec les commentaires des clients ? D’un point de vue méthodologique, l’une des principales difficultés résulte dans la reconnaissance des lieux géographiques. Ainsi, à quoi correspond « Eiffel » : s’agit-il d’une localisation à proximité de la tour ou d’une vue sur la tour, depuis la location ? Parmi les résultats, la carte de mots par arrondissements parisiens souligne la hiérarchie des lieux dans la ville, notamment des lieux touristiques. Par ailleurs, ces lieux touristiques peuvent être cités au-delà de leur quartier. La présentation se conclut par une analyse de la localisation des mots mentionnant l’argument de localisation centrale.


En savoir plus

fr_FR