Kiøbenhavns_postrytter

Link til fritekstsøgning: https://hislabaau.shinyapps.io/Kiobenhavns_postrytter/

Udgivelsessted: Aalborg

Periode dækket: 1733-1798

Digitaliseret: Juli 2025 - August 2025

Digitaliseret af: Johan Heinsen

Billedproveniens: Nye affotograferinger stillet til rådighed af Det Kongelige Bibliotek.

Version: 1.0

Præcision af tekstgenkendelse

Beregnet præcision af tekstgenkendelsen (ordniveau) pr. tekst måned for måned. Linjerne angiver median samt øvre og nedre kvartil.

Kendte udfordringer, der forårsager ujævn præcision:

  • Avisen er ikke formatteret som de senere aviser. Det betyder, at den ikke passer specielt godt til de segmenteringsworkflows der er designet til dem. Af samme grund er avisens segmentering dårligere end gennemsnittet.

  • Sidetal er automatisk filtreret fra. Dette kan i enkelte tilfælde have fjernet talelementer fra tekst.

Forklaring af datasættets kolonner

  • text: Indeholder den identificerede tekst. Teksten er segmenteret. Algoritmen er designet til at transkribere bogstavret og tekstsøgninger skal indrettes derefter. Det er denne variabel, der søges i via søgeknappen. Søgefeltet godtager regex.

  • id: Dette er et unikt id for den givne tekst. Vær opmærksom på, at disse id’er opdateres for hver udgave af datasættet.

  • dato: Datoen for udgivelsen i formatet år-måned-dag. Du kan klikke på datoen og læse hele udgaven for den givne dato.

  • pwa (= predicted word accuracy): Denne kolonne indeholder en beregnet score for præcisionen på tekstgenkendelsen. Værdierne rangerer mellem 0 og 1.

  • vis lignende tekster: Her har du mulighed for en alternativ filtrering, der viser en given teksts 25 nærmeste slægtninge i avisen. Slægtskabet er udregnet på baggrund af teksternes placering i et semantisk rum skabt via en encoder-model (https://huggingface.co/JohanHeinsen/Old_News_Segmentation_SBERT_V0.1) og Facebook Artificial Intelligence Similarity Search (https://faiss.ai/index.html).