Photo by Markus Winkler on Unsplash
Photo by Markus Winkler on Unsplash

Machine Learning e Fonti Storiche

Author: Elia Giacobazzi | Ultimo aggiornamento: Venerdì 03 Marzo 2023 15:23

Nel mondo di oggi l’intelligenza artificiale ha un importanza sempre più cruciale e capillare, ma come può aiutarci a
preservare, analizzare e studiare fonti storiche orali e scritte
?

Cos’è il Machine Learning

Banalizzando all’estremo la questione, un algoritmo di Machine Learning (in italiano apprendimento automatico)
è un algoritmo o software in grado d’imparare (e quindi di migliorarsi) non solo in base alle decisioni di un
programmatore umano ma anche in base all’esperienza. Normalmente questa “esperienza” viene fornita sotto forma di dati
o informazioni raccolte e catalogate da esseri umani, ma in alcuni casi imparano direttamente dal contesto in cui agiscono.

Questo tipo di tecniche ci hanno permesso negli ultimi 70 anni di automatizzare e digitalizzare operazioni un tempo
realizzabili solo da un essere umano.

Alcuni esempi che riguardano la nostra vita di tutti i giorni possono essere:

Machine Learning e fonti storiche

Nell’ambito della preservazione dei documenti storici, il Machine Learning può aiutare lo storico o il ricercatore nel
suo lavoro in vari modi.

Digitalizzazione

Un documento storico normalmente esiste tramite un supporto fisico (carta, registrazioni analogiche, oggetti, …),
questo supporto va incontro a degrado nel tempo. Per poter preservare e rendere accessibile il contenuto un ottima
strategia è la digitalizzazione. Un documento cartaceo può essere scansionato, una video in pellicola può essere
trasportato in digitale. Questi file possono poi essere archiviati all’interno di un database e visionati
tramite un sito e/o un portale.

La semplice digitalizzazione però non ci permette di sfruttare a pieno le potenzialità dei sistemi informatici. Se
scansionassi decine di pagine di giornale e cercassi un particolare trafiletto non potrei fare altro che scorrere ogni
singola immagine. Molto più interessante invece sarebbe poter cercare i trafiletti scritti da un certo autore e la
possibilità di poter direttamente copia-incollare il trafiletto. Per questo ci viene incontro la trascrizione.

Trascrizione

Metodi e tecniche per indicizzare contenuti su libri e documenti esistono da secoli, ma ancora oggi buona parte di
queste operazioni viene eseguita a mano. La trascrizione e l’indicizzazione di un documento storico viene effettuata
nella maggior parte dei casi da un essere umano, pagina dopo pagina, indice dopo indice. Fino a pochi anni fa non
c’erano molte alternative, ma la situazione è cambiata.

Aziende come Google, Amazon, Microsoft, da anni propongono soluzioni per trascrivere automaticamente un testo o un audio
direttamente in un testo digitale, molte stampanti di fascia alta propongono soluzioni OCR per convertire in automatico
la scansione in un documento pdf con testo selezionabile. Perché non applicare queste tecniche a documenti storici?

Il problema

All’interno del progetto AFOr abbiamo applicato tecniche OCR allo stato dell’arte per convertire in automatico
documenti scansionati in blocchi di testo digitale, in alcuni casi era persino possibile estrapolare dettagli sulla
struttura della pagina. Purtroppo quasi tutto il testo trascritto era impreciso. L’algoritmo dietro tesseract (la
libreria OCR che abbiamo utilizzato) tende a digerire male il testo scritto a mano, le imprecisioni della ciclostile e
le immagini presenti nelle pagine del giornale della Casona o dei volantini delle aziende del villaggio. Questo perché
nativamente gli algoritmi oggi disponibili sono stati pensati per funzionare su documenti moderni, scritti a computer o
nel caso delle trascrizioni audio sul parlato moderno… non sul dialetto modenese.

Le possibilità

Con lo stato dell’arte di oggi non è possibile digitalizzare in automatico “con un semplice click”, serve ancora un
po’ di lavoro “manuale” per arrivare all’obiettivo, ma questo non vuol dire che siano inutili.

Quello che possiamo fare con queste tecniche è di “fargli fare il grosso del lavoro”. Trascrivere centinaia di pagine
è un lavoro dispendioso, ma correggere una trascrizione approssimativa è comunque un lavoro più gestibile da un essere
umano.

Possiamo far fare a questi algoritmi una prima parte del lavoro e concentrarci invece sui dettagli.
Inoltre, come accennato all’inizio, le tecniche di machine learning imparano dall’esperienza. Se il numero di
documenti è molto alto posso trascrivere manualmente una parte di essi e usare queste informazioni per migliorare
l’algoritmo stesso e migliorare le sue performance.

Il futuro della storia si prospetta interessante.