Verhuizing TST-materialen

Vanaf april 2016 zijn de digitale taalmaterialen van de TST-Centrale niet langer ondergebracht bij de Nederlandse Taalunie, maar bij het Instituut voor de Nederlandse Taal. Lees meer...

Lassy Klein-corpus

Prijs per product (download)€0,00
“Exclusief btw en verzend- en afhandelingskosten”
Verzend- en afhandelingskosten:
Stel een vraag over dit artikel
Preloader

Kenmerken

Aantal Woorden: 1000000
Categorie: Corpus
Annotaties:
Lemma’s , Morfologie , Part of Speech , Syntaxis , Woordfrequentie

Lassy Small Version 4.0

LassySmall-v4.0.tgz
Ontwikkelaar: RuG, K.U. Leuven

Omschrijving

Het Lassy Klein-corpus is een corpus van ongeveer 1 miljoen woorden met manueel geverifieerde syntactische annotaties. Lemma’s en POS-tags werden automatisch toegevoegd aan het corpus m.b.v. Tadpole (nu: Frog). De syntactische dependentiestructuren werden toegevoegd m.b.v. Alpino. De lemma’s, POS-tags en syntactische boomstructuren werden geverifieerd en gecorrigeerd.

Het corpus is beschikbaar in zowel xml als in Dact-formaat en de zoeksoftware Dact wordt meegeleverd in het downloadbestand. De download bevat daarnaast ook frequentielijsten.

Specificaties

Versie 4.0
Jaar 2016
Opdrachtgever NTU|STEVIN
Financier NTU|STEVIN
Eigenaar Taalunie
Bestandsgrootte 994 MB
Controlegetal (MD5) 8d548e9db67260696d5dd74d79aa77d0
Dataformaat xml, dact
Software Dact
Talen Nederlands
Documentatie LREC2006-artikel
TLT2009-artikel
Project LASSY: Large Scale Syntactic Annotation of written Dutch
Projectwebsite http://www.let.rug.nl/~vannoord/Lassy/
Toepassing Waardevol voor o.a. taalkundig onderzoek (bv. zinsbouw) en als referentiemateriaal bij het maken van woordenboeken of lexica.

Licentie
Niet-commercieel