Transkribus

A ottobre scorso un servizio di Euronews ha fatto conoscere anche ai non addetti ai lavori come funziona la piattaforma Transkribus, messa a punto nell’ambito del progetto di ricerca europeo Read.
Gli studiosi scannerizzano le pagine degli antichi manoscritti usando un normale cellulare, su cui è installata un’applicazione che riconosce quando una pagina è stata voltata e scatta in automatico le foto. L’operatore non deve fare altro che voltare le pagine una dopo l’altra, mentre il cellulare è appoggiato su una cupola di tessuto nero all’interno della quale è applicata un’illuminazione artificiale.
Una volta inserite le pagine nel computer, l’operatore inizia a trascrivere il testo. L’intelligenza artificiale impara a riconoscere le lettere, e da quel momento in poi è in grado di trascrivere in automatico il testo successivo, o testi scritti con calligrafia simile.
Ovviamente più è regolare la scrittura, più è facile ottenere risultati accettabili. Gli ultimi comunicati, diffusi alla fine del mese scorso, parlano della lettura di un testo in antico slavonico che ha totalizzato non più del 5% di errori.
I principali problemi riguardano le lettere sovrascritte, le abbreviazioni e la separazione tra le parole.
Il sito linka anche un Pdf di 21 pagine con una relazione in inglese sulle operazioni di trascrizione. Che contiene anche qualche esempio di come appare la pagina da scannerizzare, e a fianco il testo scannerizzato, in lettere slavoniche.
Il font usato in questo caso è senza nome, embedded nella pagina con codifica base64. Sbirciandoci dentro non viene fuori nessun autore e nessuna nota sul copyright. Le lettere sembrano disposte un po’ alla rinfusa. Parte dei glifi sono posizionati al posto delle lettere maiuscole, e si tratta in parte di segni diacritici. Lo spazio delle minuscole è lasciato vuoto. Le altre lettere si trovano in un’area per uso privato che comincia da u+e000 e arriva all’incirca a u+e01e.
La lingua chiamata old slavonic dagli inglesi viene chiamata da Wikipedia in italiano Lingua slava ecclesiastica antica, o paleoslavo, staroslavo o antico macedone. È una lingua estinta, usava un alfabeto cirillico arcaico o un alfabeto glagolitico (il più antico alfabeto slavo conosciuto).
Si sviluppò dal nono secolo in poi. Il Pdf non si sofferma sui dettagli storici dei manoscritti esaminati. Si nominano però i vangeli di Ostromir, che risalgono circa all’anno Mille.

Commenti

Post più popolari