Corpus et interfaces: comment penser le partage du sens
This speech is a response to the website, #Idéo2017, which collects, stores and analysis tweets on a variety of topics, such as, political events, social events, cultural events. Given that people consume most of their content on social media every day, it is of value to appreciate this content and the readers' reactions to this content.
This site works in a way in which they are able to collect the data (tweets), store it so it is search, as well as display their findings in pCharts and graphics. They have designed their search tool as a hybrid system, combining the responses of the tweets of a real-time search to a synthesis of several tweets by aggregation of the information via facets and linguistic calculations of clustering or word clouds.
This platform gives elements of answer to the question of the sharing of meaning, through the constitution of corpus: by the aggregation and the automatic indexing of flows, the developed interface allows the uses of analysis the data, either through the lexicon used (words, associations of words, words and their derivatives, etc.), or according to the authors of the tweets issued.
Cet article présente la plateforme #Idéo2017 (http://ideo2017.ensea.fr/plateforme/), qui répond au besoin sociétal d’une meilleure compréhension des événements sociaux, politiques, culturels. Les réseaux sociaux font de plus en plus partie du quotidien, notamment en ce qui concerne la « consommation » de l’information (Mercier, 2014). Le service de microblogging Twitter peut être considéré comme un indicateur pour connaître les réactions de ses utilisateurs sur des sujets sociaux (Longhi et Saigh, 2016 à sur la réforme du statut des intermittents), politiques (Longhi, 2014 ; Conover et al., 2011), économiques, etc. Par conséquent, on peut utiliser ces données textuelles pour extraire les émotions, les sentiments, les opinions, des utilisateurs (Kristen et Dan, 2016). Si des travaux universitaires ou industriels existent, les résultats sont difficilement accessibles pour les citoyens intéressés par ce thème. Il existe en parallèle certaines analyses présentées actuellement aux citoyens, mais elles sont déjà agrégées par les médias, médiées par des spécialistes, ou présentent des méthodologies et traitements relativement simples.
La méthodologie de la plateforme #Idéo2017 est la suivante:
- récupération des tweets sera faite via l’API Twitter puis stockage dans une base de données NoSql MongoDB;
- utilisation d'Elasticsearch pour stocker les données (Kononenko et al., 2014) : cela permet d’améliorer le temps de réponse de notre outil surtout lors de l’utilisation du moteur de recherche;
- pour la partie d’analyse linguistique et la visualisation des réseaux lexicaux, sémantiques, thématiques, nous utilisons certaines fonctionnalités du logiciel Iramuteq implémentées en PHP et disponibles en open source. Pour la réalisation de certaines analyses dans notre outil, nous apportons des modifications à l’implémentation d’Iramuteq;
- nous utilisons également PHP Word Cloud pour un nuage de mots et pChart ainsi que Kibana pour des graphiques permettant de visualiser les interactions dans les communautés, les évolutions temporelles, etc
En particulier, le moteur de recherche que nous développons a pour but de proposer à l’utilisateur des recherches intelligentes à facettes sur la totalité des tweets.
Afin de nous différencier du moteur de recherche présent sur l’interface de Twitter, nous avons conçu notre outil de recherche comme un système hybride, associant les réponses des tweets d'une recherche en temps réel à une synthèse de plusieurs tweets par agrégation de l'information via les facettes et les calculs linguistiques de clustering ou de nuages de mots.
Cette plateforme donne des éléments de réponse à la question du partage de sens, par le biais de la constitution de corpus: par l'agrégation et l'indexation automatique de flux, l'interface développée permet aux usages d'analyse les données, soit à travers le lexique employé (mots, associations de mots, mots et leurs dérivés, etc.), soit en fonction des auteurs des tweets émis.
(Source: ELO 2018 Lire et comprendre la littérature électronique I panel, speech Corpus et interfaces: comment penser le partage du sens)
Cette plateforme donne des éléments de réponse à la question du partage de sens