Effettua una ricerca
Nicola Barbuti
Ruolo
Ricercatore
Organizzazione
Università degli Studi di Bari Aldo Moro
Dipartimento
DIPARTIMENTO DI STUDI UMANISTICI (DISUM)
Area Scientifica
AREA 11 - Scienze storiche, filosofiche, pedagogiche e psicologiche
Settore Scientifico Disciplinare
M-STO/08 - Archivistica, Bibliografia e Biblioteconomia
Settore ERC 1° livello
Non Disponibile
Settore ERC 2° livello
Non Disponibile
Settore ERC 3° livello
Non Disponibile
The paper outlines the invention of a method and an apparatus able to recognize the text in a set of digital images referring to pages of ancient manuscripts or printed books. It includes the following macro steps: identifying and connecting in sequence regions containing words in a subset of the images; structuring a thesaurus of fonts used in those regions; performing the character recognition of one or more images belonging to the set, associating to this recognition a first value of efficiency. The prototype is patent pending (National Pat. Pend. n. BA2011A000038 – Intern. Pat. Pend. n. I116-PCT).
Contemporary libraries have changed quickly their social role and function due to the proliferation and diversification of multimedia digital documents, becoming complex networks able to support communication and collaboration among the various distributed users communities. Technologies have not grown in step with the needs generated by this new approach, except in specific areas and implications. Hence the need to design an integrated digital library architecture that covers by advanced techniques the whole spectrum of functionality, without which the same social and cultural function of a modern digital library is at risk. This paper briefly describes an architecture that aims to bridge this gap, bringing together the experience, expertise and software systems developed by university and companies researchers. A prototype of the system is under development.
Si tratta di un applicativo altamente innovativo, in grado di elaborare full text da immagini a colori di manoscritti, libri e documenti antichi, carte, mappe, spartiti, etc. con percentuali di restituzione di testo corretto assolutamente elevate e mai raggiunte prima per riproduzioni digitali di tali materiali. L'applicativo, difatti, a fronte delle percentuali di restituzione dei correnti OCR e IWR in uso (che oscillano dall’1% fino a un massimo del 30-35%), si basa su funzioni di Intelligent Character Recognition del tutto nuove, in grado di transcodificare in full text immagini di materiali antichi con una percentuale di esattezza che oscilla tra il 45-70% per i manoscritti e il 60-99% per i materiali a stampa. Caratteristica fondamentale è che l’applicativo genera full text basandosi su una quantità di informazioni inserite manualmente assolutamente minima, in quanto si basa su un sistema di acquisizione di dati basato su autoapprendimento. Inoltre, per le sue caratteristiche funzionali, non necessita di thesauri semantici strutturati di riferimento, in quanto effettua un processo di segmentazione e indicizzazione delle immagini basato sulle caratteristiche tipografiche di ciascuna immagine su cui opera. Il SW prevede anche funzioni di OCR per immagini di testi e documenti moderni o mappe, stampe, spartiti, etc., e di IWR per documenti manoscritti in grafie difficilmente leggibili anche all’occhio umano o afflitti da difetti o danni che ne rendono particolarmente rumorosa l’immagine digitale.
Oggetto del presente lavoro è un manoscritto inedito contenente il volume IV della Descrizione, origini e successi della Provincia d’Otranto di Girolamo Marciano (1571-1628) nei primi anni del Seicento, e pubblicata postuma nel 1855. Il contenuto è miscellaneo. Attraverso lo studio e l’analisi diretta di questa fonte inedita, è stato possibile identificare il periodo in cui datare la trascrizione e i diversi proprietari che hanno custodita. Tuttavia, la provenienza non è il solo elemento di interesse del manoscritto. Dalla collazione con il testo pubblicato nell’edizione a stampa, sono emerse sostanziali differenze nei contenuti, dovute alle successive aggiunte attribuite al medico e filosofo oritano Domenico Antonio Albanese. Lo studio evidenzia come la particolarità dell’opera consista nell’essere una copia contenente una percentuale non elevata di interpolazioni posteriori all’originaria stesura e costituisce probabilmente la base sulla quale è stata elaborata la versione integrata con il testo di Albanese.
Il paper descrive il sistema di graphic matching ICRPad M-Evo, sviluppato con l’obiettivo di consentire agli studiosi di humanities di effettuare ricerche su grandi database di manoscritti storici applicando ai data humanities l’approccio metodologico definito dal “quarto paradigma” del data science (data intensive scientific discovery – Gordon Bell, 2012). Secondo tale approccio, gli algoritmi si sviluppano e applicano per trovare nuove ipotesi di lavoro tramite la scoperta di pattern estratti direttamente da database di grandi dimensioni.
Nel lavoro si descrive il progetto creazione di un modello sperimentale di digital library di beni librari antichi. Si descrivono le fasi del processo di digitalizzazione: acquisizione ottica, generazione dei formati di pubblicazione, costruzione dello schema da utilizzare per i metadati secondo lo standard MAG 2.0.1, descrizione degli oggetti digitali, costruzione della web U/I, generazione dei metadati e pubblicazione sul web.
La società ha come oggetto: ricerca e sviluppo sperimentale nel campo ICT, della digitalizzazione del patrimonio culturale e della dematerializzazione dei processi amministrativi
Condividi questo sito sui social