Værktøjer
Her på siden finder du links til værktøjer til at udforske ENO. Vi udvikler løbende værktøjer. Du kan også følge med på Huggingface.
Associationsleksikon
Dette værktøj er en genvej til at undersøge, hvilke associationer et ord bærer i en given periode. Det hviler på fem separate word2vec-modeller trænet på tidslige udsnit af ENO. Hvert snit indeholder nogenlunde lige meget tekst for at give sammenlignelige modeller, men repræsenterer perioder af forskellige varigheder.
Modellerne er skip-gram-modeller og er trænet med et vindue på 5 ord på hver side af et givet ord. Dermed indfanger de både syntaktiske og semantiske ligheder. Ord skal optræde mindst 20 gange i hvert udsnit for at være søgbare. Modellerne er på 250 dimensioner og er trænet med 15 iterationer. Før træningen er tekster med en pwa under 0.9 frasorteret.
Old News Bert
DA-Bert_Old_News_V1 er en transformer-model trænet på et tidligt udsnit på c. 260 millioner ord fra ENO. Det er en fill-mask model, der forudsiger et maskeret ord i en sætning. Den er trænet af Johan Heinsen og Matias Appel i regi af CALDISS.
Modellen kan bruges som basis for fintuning eller som den er til at lege med sproget i datasættet. Til tekst-embeddings anbefaler vi at prøve https://huggingface.co/JohanHeinsen/Old_News_Segmentation_SBERT_V0.1 eller at benytte multilinguale modeller som E5-large.