Géomédia MEDIA

Mise à disposition d’un échantillon de la base de données Géomédia

Le projet ANR Corpus Géomédia a été lancé en février 2013. Il associe géographes, spécialistes des médias et de la communication et informaticiens.

Son objectif est de mettre en place, pour une centaine de journaux dans le monde (francophones, anglophones et hispanophones), un outil pour capter les flux RSS concernant l’actualité internationale puis de répondre à plusieurs questions de recherche : qu’est-ce qu’un événement ? Comment expliquer les sous ou surreprésentations de certains espaces ou acteurs ? Peut-on modéliser une circulation de l’information à l’échelle globale ?

Réalisé conjointement avec des équipes d’informaticiens et de spécialistes de modélisation de l’information géographique et médiatique, ce projet devrait offrir une base de données innovante pour les recherches futures sur la mondialisation, bien au-delà des disciplines géographiques et médiatiques. Stockant une information volatile (les flux RSS enrichis d’attributs spatiaux) et libre de droits (à la différence des articles de journaux), il constituera une archive utile à la fois aux historiens du temps présent et aux chercheurs des générations futures.

L’application Géomédia a été mise en place début 2014 dans le cadre du projet de collecte des flux RSS. Aujourd’hui, 300 flux RSS sont branchés à l’outil de collecte et plus de 6 millions d’items (articles) RSS ont été collectés, en 8 langues (français, anglais, espagnol, portugais, allemand, italien, polonais, catalan).

Répartition des flux RSS collectés, par langue
Projet ANR Corpus Géomédia - Répartition des flux RSS collectés, par langue

L’ANR Corpus Géomédia a pour objectif de mettre à disposition l’ensemble de sa base de données en libre accès, à la fin du projet (juin 2016). Néanmoins, nous mettons dès aujourd’hui un échantillon de la base de données à disposition, afin d’amorcer un échange avec le monde scientifique sur les méthodes de traitement, d’enrichissement et de représentation visuelle des données de flux RSS médiatiques.

L’échantillon proposé correspond à l’ensemble des items (articles) RSS collectés entre le 1er octobre 2014 et le 31 décembre 2014 pour 8 flux RSS.

Projet ANR Corpus Géomédia - Flux RSS collectés pour l'échantillon

3 langues sont utilisées dans cet échantillon : l’anglais (5 flux), l’espagnol (2 flux) et le français (1 flux). Les 8 flux sont originaires de 8 pays différents (Australie, Chili, Chine, France, Royaume-Uni, Inde, Mexique et États-Unis).


En savoir plus

fr_FR