De la collecte à l’analyse d’un corpus de SMS authentiques : une démarche pluridisciplinaire

Rachel Panckhurst; Mathieu Roche; Cédric Lopez; Bertrand Verine; Catherine Détrie; Claudine Moïse

doi:10.1051/hel/2016380206

Free Access

Issue		HEL Volume 38, Number 2, 2016 Constitution de corpus linguistiques et pérennisation des données


Page(s)		73 - 85
DOI		https://doi.org/10.1051/hel/2016380206
Published online		01 February 2017

Histoire Épistémologie Langage 38/2 (2016), p. 73-85

De la collecte à l’analyse d’un corpus de SMS authentiques : une démarche pluridisciplinaire

Rachel Panckhurst¹, Mathieu Roche²^,3, Cédric Lopez⁴, Bertrand Verine¹, Catherine Détrie¹ et Claudine Moïse⁵

¹ Praxiling UMR 5267 CNRS & Université Paul-Valéry Montpellier 3
² UMR TETIS (Cirad, CNRS, Irstea, AgroParisTech), Montpellier
³ LIRMM (Univ. Montpellier, CNRS), Montpellier
⁴ R&D Viseo Technologies, Grenoble
⁵ Lidilem, Université Grenoble Alpes

Résumé

Nous présentons notre approche fondée sur les données authentiques, en nous concentrant sur des recherches récentes, portant sur le recueil, le traitement et l’analyse d’un grand corpus de SMS en français, intitulé 88milSMS (http://88milsms.huma-num.fr/, Panckhurst, Détrie, Lopez, Moïse, Roche, Verine, 2014), incluant un questionnaire sociolinguistique soumis aux donateurs au moment de la collecte ainsi que leurs réponses. Puis nous expliquons pourquoi, dans une démarche pluridisciplinaire (située entre sciences du langage, informatique et traitement automatique du langage naturel), nous avons décidé de fournir à la communauté scientifique et au grand public le corpus de SMS.

Abstract

This article highlights an approach based on authentic data, by focusing on recent research related to collection, processing and analysis of a large French text-message corpus, entitled 88milSMS (http://88milsms.huma-num.fr/, Panckhurst, Détrie, Lopez, Moïse, Roche, Verine, 2014), including a sociolinguistic questionnaire submitted to donors (with their answers). The authors, using a pluridisciplinary approach (linguistics/language sciences, computer science, Natural Language Processing), explain why they chose to give the scientific community and the general public access to the SMS corpus.

Mots clés : Corpus / SMS / pluridisciplinarité / données authentiques / traitement automatique du langage naturel (TALN) / discours électronique médié / logiciel d’anonymisation / dictionnaires électroniques / alignement

Key words: Corpus / SMS / pluridisciplinarity / authentic data / natural language processing (NLP) / mediated electronic discourse / anonymisation software / electronic dictionaries / alignment