Istituto

Formazione

Dottorato

Ricerca

Eventi e notizie

Chi siamo Chi siamo
Collaboratori Collaboratori
Contatti Contatti

Bachelor in Lingua, letteratura e civiltà italiana Bachelor in Lingua, letteratura e civiltà italiana
Master in Lingua, letteratura e civiltà italiana Master in Lingua, letteratura e civiltà italiana
Giornate e settimane residenziali Giornate e settimane residenziali

Il dottorato all'ISI Il dottorato all'ISI
Offerta formativa Offerta formativa
Ammissione e candidature Ammissione e candidature
Tesi di dottorato Tesi di dottorato
Dottorandi visiting Dottorandi visiting

Corsi per dottorandi
Scuole dottorali
Corsi USI

Scuola dottorale confederale in Civiltà italiana

Struttura
Membri – docenti
Membri – dottorande/i
Attività primo ciclo (2012-2016)
Attività secondo ciclo (2017-2021)
Attività terzo ciclo (2021-2025)

Aree di competenza Aree di competenza
Presentazione dei progetti Presentazione dei progetti
Progetti di ricerca Progetti di ricerca
Post-doc Post-doc
Pubblicazioni Pubblicazioni
Pubblicazioni recenti Pubblicazioni recenti
Collane d’Istituto Collane d’Istituto
Convegni e giornate di studio Convegni e giornate di studio

La «civiltà dell’anatomia»: il genere delle Anatomie letterarie nell’Italia del Seicento
Il corpo del testo e le sue parti: anatomia, linguaggio e accademie nella prima età moderna e oltre
Fable, Emblem, Poem, Performance : Renaissance Word and Image Tales (FNS 218082)

{DiMa} Initiative
{DiMa} Magazine

Calendario eventi Calendario eventi
Cicli e incontri Cicli e incontri
Notizie Notizie
Newsletter Newsletter

Paradiso
Purgatorio
Elogio della follia
Personaggi
Lectura Boccaccii
Lettura collodiana
Lettura manzoniana
Inferno
Geografia e storia della letteratura italiana
Lettura manzoniana
Settimana della lingua italiana nel mondo
Archivi del Novecento
Classici italiani
Da Carlo a Carlo. La linea lombarda
Qui e ora
Per voce sola
Storie e confini
I mercoledì dell’ISI
Altre conferenze
Un libro per la vita
Lettura manzoniana - III ciclo
Lettura collodiana

Paradiso
Purgatorio

ShareTIGR: un anno per preparare la condivisione del corpus di italiano parlato TIGR

Verso un corpus di italiano parlato

ShareTIGR

13 marzo 2024

Lo scorso mese è iniziato il progetto ShareTIGR, il cui obiettivo è di condividere con la comunità scientifica il corpus TIGR, un insieme di materiali per lo studio dell'italiano parlato raccolto nei cantoni svizzeri Ticino e Grigioni. Il presente contributo presenta in breve il progetto e inaugura una serie di blog post che racconteranno le attività del team in carico.

Il corpus TIGR documenta interazioni che si sono svolte faccia a faccia negli anni 2021-2022 - in periodo pandemico, dunque! - in situazioni di vario genere: conversazioni a tavola, preparazione di cibo, incontri di tutoring in architettura, lezioni, interviste. Le interazioni sono state registrate con due telecamere e microfoni da bavero e in seguito trascritte mediante un'applicazione (ELAN) che associa ogni pezzo di testo al/la parlante che l'ha prodotto e all'intervallo corrispondente del file video. I materiali sono stati raccolti nel quadro di una ricerca finanziata dal Fondo Nazionale Svizzero (il progetto InfinIta sulle fonti d'informazione nell'italiano parlato, 2020-2024), ma sono ricchi di informazioni utili a indagare una vasta gamma di temi oltre quelli previsti dal progetto d'origine. I corpora orali possono infatti essere usati per studiare in diverse prospettive l'interazione, il discorso, il lessico, la grammatica, la variazione geografica e sociale della lingua.

Condizione del riuso dei dati è che essi siano reperibili, accessibili tecnicamente e disponibili in formati di ampia diffusione e interoperabili, in breve che siano FAIR (findable, accessible, interoperable, reusable, Wilkinson et al. 2016). I dati del TIGR sono stati raccolti in tal modo da poter soddisfare questi criteri e contemporaneamente assicurare un'adeguata protezione dei dati personali (sul difficile bilanciamento delle varie esigenze si vedano Diaz 2022 e Miecznikowski e Profazi 2023b). Nello specifico, ogni partecipante registrata/o ha espresso il proprio consenso all'uso dei dati dopo essere messa/o a conoscenza degli scopi dell'indagine e delle modalità di diffusione dei dati. In ShareTIGR, elaboreremo ulteriormente i dati, eliminando certe informazioni personali, preparando file audio-video maneggevoli, convertendo e formattando le trascrizioni, redigendo descrizioni a vari livelli e preparando metadati leggibili dai motori di ricerca. Infine, li depositeremo su SWISSUbase, un repositorio scientifico svizzero per le scienze sociali e la linguistica. Gli utenti interessati potranno così scaricare i documenti e usarli ai fini delle proprie ricerche, dopo essersi registrati e aver firmato un accordo che precisa le modalità e gli scopi del riuso.

Dopo il deposito su repositorio, un ulteriore scenario di condivisione può essere quello di inserire i documenti su una piattaforma che permetta la loro consultazione e analisi online. Piattaforme esistenti per i corpora orali come il sito del corpus KiParla (Mauri e Goria 2018, Miecznikowski e Profazi 2023a), la Datenbank für Gesprochenes Deutsch DGD (Schmidt 2014) o il Corpus de LAngue Parlée en Interaction CLAPI mostrano i vantaggi e il potenziale della consultazione online. Ciò è emerso chiaramente da una serie di giornate di studio organizzate nel quadro di un progetto attualmente in corso all'USI, in collaborazione con altre università svizzere, co-finanziato da swissuniversities e volto a esplorare "Data-sharing skills in corpus-based research on talk-in-interaction" (CHORD-talk-in-interaction). Piattaforme per corpora orali multimediali devono tuttavia ancora essere sviluppate in Svizzera.

Tornando a ShareTIGR, il progetto durerà un anno e sarà coinvolto il team di InfinIta (Johanna Miecznikowski, Elena Battaglia e Christian Geddo), che è stato presente sul campo e ha revisionato le trascrizioni, rafforzato nei primi mesi dal contributo di una collaboratrice attiva anche in CHORD-talk-in-interaction (Nina Profazi). Durante quest'anno, in parallelo al lavoro sui dati completeremo man mano la descrizione del corpus TIGR sul sito del progetto e condivideremo la nostra esperienza tramite il blog, a più voci e in due lingue (italiano e inglese). Ci rivolgiamo a studiose e studiosi di linguistica e delle scienze sociali, a persone interessate alle digital humanities, a specialisti della gestione di dati, a divulgatori scientifici e al pubblico interessato. Usando diversi canali, dai convegni scientifici alle pagine web, il blog e i social media, intendiamo trattare la preparazione del corpus TIGR come un caso studio che permetta di riflettere su sfide e opportunità, problemi e soluzioni che riguardano più generalmente gli open research data (ORD) in linguistica e in campi affini.

Johanna Miecznikowski

Bibliografia

Balthasar, L., Bert, M. (2005). La plateforme « Corpus de langues parlées en interaction » (CLAPI). Historique, état des lieux, perspectives. Lidil 31, 13-33. https://doi.org/10.4000/lidil.139

Diaz, P. (2022). Data protection: legal considerations for research in Switzerland. FORS Guide No. 17, Version 1.0. Lausanne: Swiss Centre of Expertise in the Social Sciences FORS. https://doi.org/10.24449/FG-2022-00017

Mauri, C., Goria, E. (2018). Il corpus KIParla: una nuova risorsa per lo studio dell’italiano parlato. In F. Masini and F. Tamburini (eds.), CLUB Working Papers in Linguistics, 2, 96-116. Bologna: CLUB – Circolo Linguistico dell’Università di Bologna. https://amsacta.unibo.it/id/eprint/6060/

Miecznikowski, J., Profazi, N. (2023a). Spoken language corpora as open research data: the example of KIParla. https://www.chord-talk-in-interaction.usi.ch/news/feeds/36167

Miecznikowski, J., Profazi, N. (2023b). Social interaction is among people. Legal, technical, and ethical explorations about personal information and its removal in talk-in-interaction as data. https://www.chord-talk-in-interaction.usi.ch/news/feeds/36387

Schmidt, T. (2014): The Database for Spoken German – DGD2. In: Proceedings of the Ninth conference on International Language Resources and Evaluation (LREC’14), Reykjavik, Iceland: European Language Resources Association (ELRA), 1451-1457.

Wilkinson, M. D., Dumontier, M., Aalbersberg, I. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J. W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Waagmeester, A., Wittenburg, P., Wolstencroft, K., . . . Velterop, J. (2016). The FAIR guiding principles for scientific data management and stewardship. Scientific Data, 3(1), 1-9. https://doi.org/10.1038/sdata.2016.18.

Istituto

Formazione

Dottorato

Ricerca

Eventi e notizie

ShareTIGR: un anno per preparare la condivisione del corpus di italiano parlato TIGR

Quicklink

Condividi

Stampa

Informazioni

Resta in contatto

Di più sull’USI