The April 28th, 2017, le CIST a accueilli Taylor Arnold, chercheur à la Yale University au Department of Statistics and Data Science, spécialiste d’analyse statistique en général et d’analyse textuelle en particulier, professeur invité par l’Université Paris Diderot (initiative conjointe LARCA/CLILLAC-ARP).
Introducing the lecture, Claude Grasland a centré son exposé sur l’analyse spatiale des listes de lieux définis de façon qualitative par leurs noms. Il a montré que la reconnaissance des entités spatiales est plus facile dans le cas des états que des villes. Puis il a développé deux exemples d’analyse de listes de lieux. D’une part, l’analyse des représentations mentales que se font les étudiants des pays du Monde (FP7 EuroBroadMap project, 2009-2013). D’autre part, l’apport de l’analyse des flux RSS de presse internationale à l’analyse des relations géopolitiques de pouvoir entre les pays du Monde (ANR Géomédia project, 2013-2016).
- Spatial analysis of lists of places (pdf in English)
Taylor Arnold a dressé un tableau historique du courant de l’analyse exploratoire des données en identifiant les auteurs majeurs du champs. Puis il a montré le tournant qu’a constitué le développement de S, S+ et enfin R dans l’extension du domaine de l’analyse exploratoire des données. Enfin, il a souligné plus précisément les apports de ce type d’analyse aux humanités numériques à travers l’exemple de l’analyse textuelle et du package CoreNLP.
- Geography and text analysis in R (pdf in English)
- Voir également l’ouvrage Humanities Data in R, Springer
The presentation of Marianne Guérois et Malika Madelin was an exploratory analysis of Airbnb data (scrapped by the InsideAirbnb platform. They enriched with textual analysis the work done as part of the Grandes métropoles project. Cette analyse s’appuie sur trois types d’information associée à une localisation : le titre et la description des locations (par les hôtes) et les commentaires (par les clients). Cette étude répond à plusieurs interrogations. Par exemple, quelles sont les langues utilisées et observe-t-on l’émergence de communautés de langages ? Autre exemple, la localisation des lieux décrite par les hôtes est-elle en cohérence avec la localisation spatiale de l’hébergement et avec les commentaires des clients ? D’un point de vue méthodologique, l’une des principales difficultés résulte dans la reconnaissance des lieux géographiques. Ainsi, à quoi correspond « Eiffel » : s’agit-il d’une localisation à proximité de la tour ou d’une vue sur la tour, depuis la location ? Parmi les résultats, la carte de mots par arrondissements parisiens souligne la hiérarchie des lieux dans la ville, notamment des lieux touristiques. Par ailleurs, ces lieux touristiques peuvent être cités au-delà de leur quartier. La présentation se conclut par une analyse de la localisation des mots mentionnant l’argument de localisation centrale.
- How do Airbnb hosts and guests speak about Parisian locations? (pdf in English)