Italienisch
corpus di italiano parlato. Il corpus (audio, etichettatura e documentazione) è pubblico, l’accesso e il download completo del materiale per finalità scientifiche sono gratuiti.
CLIPS consiste di circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente e etichettato foneticamente. Le registrazioni sono state effettuate in 15 località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia.
Per ogni località è stato raccolto a) parlato radiotelevisivo (notiziari, interviste, talk shows); b) parlato dialogico (240 dialoghi raccolti secondo le modalità del map task e del ‘gioco delle differenze’, dei quali 30 etichettati foneticamente, 90 trascritti ortograficamente, studenti universitari); c) parlato letto da parlanti non professionisti (20 frasi atte a garantire la copertura delle frequenze medio-alte del lessico italiano); d) parlato telefonico (conversazioni tra circa 300 parlatori e un portiere d’albergo simulato) e) parlato letto da 20 parlanti professionisti (160 frasi atte a garantire la copertura delle sequenza fonotattiche dell’italiano e delle frequenze medio-altedel lessico italiano) registrato in camera anecoica.
La documentazione, i protocolli di raccolta e di annotazione del materiale tengono conto delle direttive del progetto EAGLES.
Englisch
corpus of spoken Italian. The corpus (audio files, annotation and documentation) are fully downloadable from the website via ftp, free for research purposes.
CLIPS consists of about 100 hours of speech, equally represented by female and male voices. A section of the corpus is transcribed orthographically, a smaller section has been phonetically labeled. Recordings were made in 15 Italian cities, selected on the basis of linguistic and socio-economic principles of representativeness: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia.
For each of the 15 cities different text typologies have been included: a) radio and television broadcasts (news, interviews, talk shows); dialogue (240 dialogues collected using the map task procedure and the “spot the difference” game. In this set: 30 dialogues are phonetically labeled, 90 orthographically transcribed); c) read speech from non professional speakers (20 sentences each, covering medium-high frequency Italian words); d) speech over the telephone (conversations between 300 speakers and a simulated hotel desk service operator), e) read speech from 20 professional speakers (160 sentences, covering all phonotactic sequences and medium-high frequency Italian words) recorded in an anechoic chamber.
Documentation, corpus collection and annotation follow the EAGLES guidelines. |
|