Verhuizing TST-materialen

Vanaf april 2016 zijn de digitale taalmaterialen van de TST-Centrale niet langer ondergebracht bij de Nederlandse Taalunie, maar bij het Instituut voor de Nederlandse Taal. Lees meer...

BasiLex-corpus

Prijs per product (download)€0,00
“Exclusief btw en verzend- en afhandelingskosten”
Verzend- en afhandelingskosten:
Stel een vraag over dit artikel
Preloader

Kenmerken

Aantal Woorden: 11500000
Categorie: Corpus
Taligheid: Monolinguaal
Periode van: 1976
Periode tot: 2013
Annotaties:
Lemma’s , Part of Speech

BasiLex-corpus_1.0.zip
Ontwikkelaar: Radboud Universiteit

Omschrijving

Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd. Het corpus bevat 13.5 miljoen tokens, waarvan 11.5 miljoen woorden. De tokens komen voor ongeveer 40% uit educatieve materialen, 40% uit kinderliteratuur, en 20% uit media.

 

Specificaties

Versie 1.0
Jaar 2015
Financier NWO
Eigenaar Radboud Universiteit
Bestandsgrootte 1.1 GB
Dataformaat xml (FoLiA)
Besturingssysteem Linux, Windows
Talen Nederlands
Documentatie Referentieartikel
Project WIC-CorD: a Dutch Written Input for Children Corpus, POS-tagged and lemmataized, with a derived lexicon tagged for frequency and linguistic characteristics
Doelpubliek Voornamelijk voor leerkrachten, makers van lesmaterialen en toetsen, schrijvers van kinderliteratuur, uitgevers en onderzoekers.
Commerciële licentie Informatie over prijsbeleid. Bij aanvraag van commerciële licenties voor zowel het BasiLex-lexicon als voor het BasiLex-corpus gelden voordelige prijzen.

Soort licentie