WWW-Quellen zur Korpuslinguistik

 
10.11.2008 23:51
 

Korpuslinguistik on-line

Kongresse

Zeitschriften

Institutionen

 

Korpora

Frühe Korpora

Frühe Programme zur computergestützten Textanalyse

Texte und Korpora allgemein

Englische Texte und Korpora

Texte und Korpora romanischer Sprachen

Französische Texte und Korpora

Okzitanische Korpora

Italienische Texte und Korpora

    Italiano parlato

      • CIRASS: Corpora di parlato
        • AVIP
        • API
        • CLIPS - corpus di italiano parlato. Il corpus (audio, etichettatura e documentazione) è pubblico, l’accesso e il download completo del materiale per finalità scientifiche sono gratuiti.
          CLIPS consiste di circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente e etichettato foneticamente. Le registrazioni sono state effettuate in 15 località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia.
          Per ogni località è stato raccolto a) parlato radiotelevisivo (notiziari, interviste, talk shows); b) parlato dialogico (240 dialoghi raccolti secondo le modalità del map task e del ‘gioco delle differenze’, dei quali 30 etichettati foneticamente, 90 trascritti ortograficamente, studenti universitari); c) parlato letto da parlanti non professionisti (20 frasi atte a garantire la copertura delle frequenze medio-alte del lessico italiano); d) parlato telefonico (conversazioni tra circa 300 parlatori e un portiere d’albergo simulato) e) parlato letto da 20 parlanti professionisti (160 frasi atte a garantire la copertura delle sequenza fonotattiche dell’italiano e delle frequenze medio-altedel lessico italiano) registrato in camera anecoica.
          La documentazione, i protocolli di raccolta e di annotazione del materiale tengono conto delle direttive del progetto EAGLES.

          corpus of spoken Italian. The corpus (audio files, annotation and documentation) are fully downloadable from the website via ftp, free for research purposes.
          LIPS consists of about 100 hours of speech, equally represented by female and male voices. A section of the corpus is transcribed orthographically, a smaller section has been phonetically labeled.  Recordings were made in 15 Italian cities, selected on the basis of linguistic and socio-economic principles of representativeness: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia.
          For each of the 15 cities different text typologies have been included: a) radio and television broadcasts (news, interviews, talk shows); dialogue (240 dialogues collected using the map task procedure and the “spot the difference” game. In this set: 30 dialogues are phonetically labeled, 90 orthographically transcribed); c) read speech from non professional speakers (20 sentences each, covering medium-high frequency Italian words); d) speech over the telephone (conversations between 300 speakers and a simulated hotel desk service operator), e) read speech from 20 professional speakers (160 sentences, covering all phonotactic sequences and medium-high frequency Italian words) recorded in an anechoic chamber.
          Documentation, corpus collection and annotation follow the EAGLES guidelines.
        • IPar
      • Corpora di LABLITA
        • Corpus della lingua parlata spontanea adulta
        • Corpus della prima acquisizione dell'italiano dai 12 ai 36 mesi
        • Corpus MURST
        • Corpus dei media
      • BADIP (Banca dati dell'italiano parlato) - online analysierbare Version des LIP
      • CHILDES
      • Corpus di italiano televisivo (CIT)
      • Slangopedia, un fiume di parole (ABC) - vocabolario on-line dei linguaggi giovanili

    Italiano scritto

    Online Publikationen etc.

    Marco Baroni's Homepage an der SSLMIT

Spanische Texte online

Datenbanken

Italienisch

Korpuserstellung

Korpuskodierung

Tools / Software

Beispiele

Center

Humanities Computing

Geschichte

Roberto Busa und der Index Thomisticus

Theorie etc.

Computergestützte Textanalyse

Hubs / Tutorien

Interessante Projekte

 
 
   
Copyright © 2002-2008 Elisabeth Burr 10.11.2008 23:51 elisabeth.burr@uni-leipzig.de