Tilblivelsen af datasættet

Hvordan gjorde vi?

Forfattet af

Johan Heinsen, Laura Aagaard, Rasmus Due Bak, Mads Lehrmann Christensen, Mie Dodensig, Dionysia Horne, Maja Stecher Jensen, Ravn Jørgensen, André Sigaard Mikkelsen, Caisa Johanna Ingerslev Nedergaard, Frederik Sørig Søndergaard Nielsen, Christian Friis Olesen, Fiona Gesine Otten, Anne Katrine Holm Pedersen, Maja Sjørslev Petersen, Louise Haldrup Riske, Zenia Skytte Sørensen, Maja Kromann Sørensen, Jeppe Risager Ubbesen

Senest opdateret

8.2.2024

På de følgende sider kan du læse om, hvordan vi gjorde, da vi skabte Aalborg Stifts Adresseavis online. Teksten er forsøgt opbygget sådan, at andre kan gøre os kunsten efter. Hver artikel svarer til et konkret skridt i processen.

Hvorfor var projektet nødvendigt?

Danske aviser er allerede tilgængelige via det Kongelige Biblioteks platform Mediestream. Her kan enhver søge i fritekst i alle aviser, der ikke længere er underlagt ophavsret. Platformen gør det muligt at se en affotografering af den side, hvor ens hit findes. Samme kan downloades som pdf. Har man teknisk snilde, kan man også benytte KBs API-adgange til at downloade større udsnit af aviserne i tekstformat. Alt synes således vel. Desværre vil den håbefulde historiker eller slægtsforsker dog blive skuffet, når vedkommende kigger nærmere på det tekst, man har søgt i.

Tag nu f.eks. dette udsnit af tekst fra den første bevarede side af Aalborg Stifts Adresseavis:

Udsnit af første side i KBs scanning af Aalborg Stifts Adresseavis

Den er for så vidt pæn for vores menneskeøjne. En enkelt blækklat har gjort et ord utydeligt, men ikke mere, end at vi kunne forvente et godt resultat. Så hvad står der egentlig ifølge computeren? Her er det tekst, man søger i, når man søger i fritekstsøgningen:

ninger, virkeligfluldeboe,saamaattehanoversendehanr han« Liig ; og da han ved alt stedse var betankt paa hvad somkunde spare«, ogoverlagte, atTransportenafstLiig vilde koste mere end en anten Bareartikel, saa beordrede Kam ham, at lagge tet dode Legeme i en Tonde, fylde M med Talt, og saalcde« sptdere Broderen til Cadhr underHan« Adresse. medPaategning: þÿ F a a r e k

Langt fra klart som blæk! Dette eksempel er ganske typisk, og husk, at dette faktisk er med en pænt bevaret side. Når siderne af den ene eller anden grund er i dårligere stand, bliver resultatet endnu mindre pålideligt. Dertil kommer, at det også har været vanskeligt at identificere layout korrekt. Derfor bløder spalter tit sammen. Resultatet er ikke rigtigt tekst - og hvis man søger i håbet om at finde, sætter man sin lid til tilfældet. Årsagen er kompleks, men bunder i, at den teknologi, der blev brugt, da man skabte den digitale avissamling ikke kan håndtere aviserne i den forfatning de fandtes. Aviserne blev mikrofilmet over en lang proces, der startede allerede i 1970erne. Fra mikrofilm blev de scannet til et digitale billeder i forholdsvis høj opløsning. Alligevel var der for meget støj og for få pixels til, at den såkaldte OCR-teknologi kunne håndtere materialet. Det er en skam, for aviserne var et hverdagsmedie og kunne derfor udgøre en afgørende kilde for både kvantitative og kvalitative undersøgelser af kultur- og socialhistorien - hvis altså blot computeren kunne læse dem.

I de senere år er der kommet en ny teknologi til. AI og neurale netværk har revolutioneret mulighederne for automatiseret tekstgenkendelse. Den mest succesfulde platform hertil er Transkribus, der startede som et regulært forskningsprojekt, men nu drives som et kommercielt kooperativ.

Den ældre mere velkendte OCR står for “optical character recognition” og leder efter den enkelte bogstavsform. De nyere teknologier leder derimod ofte imod større bidder af tekst - typisk linjer. Og det gør den med afsæt i træningsmateriale, der har vist den, hvad der står i tilsvarende tekststykker. Med nok træningsmateriale af tilstrækkelig kvalitet bliver resultatet en voldsom forbedring af præcisionen. Teknologien er mest kendt, fordi den kan bruges til at genkende håndskrift - noget der før var helt umuligt - men den præsterer endnu bedre på trykt materiale. Forudsætningen er dog, at der skabes en god model. På de følgende sider kan du læse om, hvordan vi gjorde netop dette.

På med arbejdshandskerne

Processen involverede en masse manuelt arbejde! Brugen af kunstig intelligens bliver ofte solgt på et løfte om, at det gør ting lettere. Forskeren Johan Jarlbrink har formuleret det således:

Automation is a temptation and a promise, and perhaps a threat.1

Fristelsen er tydelig, når man betragter den eksisterende tekstkvalitet og tænker på alle de muligheder, der ville åbne sig for kultur- og socialhistorien, hvis blot teksten faktisk var meningsfuld tekstdata. Truslen opfattes ofte sådan, at automatisering vil gøre historikere og forskere overflødige. Imidlertid fremhæver Jarlbrink også:

I will argue that digital research is far from automated. A human being is still needed to make sense of results, of course. I will focus on something else, not on the creative ways in which scholars interpret data outputs, but on the dull tasks that make data outputs possible. Most datasets need cleaning, editing and error checking. The outcome of automatic processes needs to be examined by someone who goes through the results; sometimes it needs to be corrected manually. Such procedures are often left out completely or only mentioned in brief when digital methods are discussed. yet, they have a significant impact on results and need to be taken seriously.2

De følgende sektioner af Aalborg Stifts Adresseavis online er et forsøg på at tage denne del af arbejdet seriøst: for at vise, hvad der er gjort for at gøre det let at tilgå fortiden.

Fodnoter

  1. Johan Jarlbrink, “All the work that makes it work: Digital methods and manual labour”, i: Digital histories: Emergent approaches within the new digital history, redigeret af Mats Fridlund, Mila Oiva og Petri Paju (Helsinki: Helsinki University Press, 2020), s. 113-126 (citat s. 113). https://doi.org/10.33134/HUP-5-7↩︎

  2. Ibid.↩︎