
Dai volumi della Guida alla Guida Elettronica
La Guida generale degli Archivi di Stato rappresenta il
progetto culturale più condiviso nella Amministrazione archivistica e sicuramente il più consultato.
I suoi limiti, le zone meno
riuscite non solo non hanno ridotto la sua importanza ed il suo ruolo sia nella pratica
quotidiana sia come strumento di presentazione del mondo degli Archivi verso l
utenza esterna, ma anzi ripropongono con forza la necessità di attuare quegli interventi
manutentivi e più in generale editoriali che possano riproporla come il
sistema unitario di presentazione dei posseduti degli Archivi di Stato.
Qualunque intervento sia relativo
alla manutenzione (acquisizione di modifiche, aggiornamenti, aggiunte,
rifacimenti,etc.) sia di carattere editoriale (nuove forme di redazione sia centrali che periferiche, nuove forme di pubblicazione, di distribuzione e di accesso) non poteva
che essere successivo ad un processo di passaggio dal documento cartaceo alla sua
trasposizione elettronica.
Tale processo poteva attuarsi in
diversi modi, ciascuno caratterizzato da gradi via via più spinti di automazione delle
attività necessarie:
-
il primo tipo di intervento,
con la minore presenza di automazione ma non necessariamente con il minor grado di
complessità, poteva prevedere la reintroduzione manuale delle pagine dei quattro volumi della
Guida, usando un buon sistema di editoria elettronica; il risultato di questa
forma di intervento consiste esclusivamente in una trasposizione della Guida in un sistema
di files in un qualche ambiente di video scrittura. Problemi da affrontare in questa
soluzione riguardano il processo organizzativo (decentrato/centralizzato, procedure di
correzione/revisione) e soprattutto la scelta di un ambiente di produzione diffuso e
capace di generare documenti in un formato il più completo possibile dal punto di vista
tipografico ed il più indipendente dai sistemi hw/sw usati
-
una evoluzione non trascurabile della modalità precedente consiste
nella esplicitazione preliminare, con luso di strumenti formali e indipendenti
dalle specifiche soluzioni informatiche, della struttura così fortemente presente nella
redazione della Guida sia a livello di entità logiche sia a livello di singoli campi
informativi previsti all interno di queste entità. Il processo di introduzione dei
testi come previsto dalla soluzione precedente verrebbe arricchito dalla introduzione
manuale dei marcatori specifici collegati ai vari elementi strutturali. Questa
versione informatica strutturata dei testi costituenti la Guida ha il vantaggio
di consentire, con opportuni strumenti software, di accedere non solo ai testi
piatti (destrutturati) ma di permettere migrazioni del testo verso ambienti
ipertestuali del tipo InfoBase o verso ambienti fortemente strutturati quali sistemi Data
Base che consentono navigazioni nella struttura logica della Guida. Altro elemento
importante è dato dalla maggiore capacità di questa soluzione informatica di supportare
il processo di manutenzione evolutiva, consentendo un dialogo ordinato con la periferia.
-
reintrodurre manualmente i
testi della G., eventualmente arricchita con i marcatori degli elementi strutturali,
presenta problemi di tempo, costo, organizzazione; un possibile, parziale superamento di
questi problemi è rappresentato dalla cattura automatica delle pagine della G. attraverso
luso di un sistema O.C.R. (pc con scanner e software di riconoscimento dei
caratteri). Anche per questa soluzione si pongono i problemi di scegliere un formato di
arrivo che sia il più fedele possibile alle caratteristiche tipografiche del testo di
partenza, permetta di recuperare la struttura implicita nel testo, consenta la più ampia
varietà di prodotti editoriali ottenibili e le loro forme più efficaci di distribuzione.
Le attuali capacità offerte dai sistemi OCR mostrano un notevole miglioramento rispetto
al passato sia per quanto riguarda la accuratezza di lettura (non riconoscimenti o errori
di lettura), sia per quanto riguarda la capacità di riconoscere e di conservare le
principali caratteristiche tipografiche (corpi, fonti, note etc.); nessuno degli attuali
sistemi commerciali però riesce ad evitare una significativa fase di correzione manuale e
soprattutto nessuno è in grado di introdurre automaticamente i marcatori della struttura
sottostante. In conclusione questa soluzione come risultati raggiungibili non si discosta
dalla soluzione 1., pur comportando tempi e costi ovviamente diversi.
-
Lultima soluzione
ipotizzata non poteva purtroppo basarsi su sistemi disponibili sul mercato ma richiedeva una
consistente attività di ricerca applicata che superasse i limiti delle soluzioni precedenti
e consentisse in tempi certi e contenuti di raggiungere il meglio dei risultati acquisibili.
In particolare si voleva ottenere con un processo quasi automatico (e comunque
a bassa e controllata attività di intervento manuale) la trasposizione elettronica del
testo pieno, corredato cioè da tutte le caratteristiche tipografiche dei
volumi a stampa, ed inoltre integrato da tutte le informazioni strutturali che lo
descrivono: diventava possibile così trasferire automaticamente tutte le informazioni
presenti nella G. in un sistema Data Base. Per realizzare tale soluzione occorreva
sviluppare opportuni sistemi di integrazione degli strumenti O.C.R. disponibili
utilizzandone le componenti più adeguate e dove necessario svilupparne ex novo,
effettuare una approfondita analisi dei testi della G. per esplicitare una grammatica non
ambigua che collegasse caratteristiche tipografiche e specifici elementi testuali agli
elementi strutturali presenti nella G., costruire i moduli di generazione del testo
strutturato, e del data base corrispondente alla Guida.
Progetto Informatizzazione
Guida Generale degli Archivi di Stato
Il progetto ha avuto la finalità di valorizzare i contenuti
informativi e di ricerca della Guida degli Archivi di Stato, attraverso l'adozione di
procedure di analisi e di soluzioni informatiche che hanno consentito di :
rendere esplicita la
struttura informativa formale che ha caratterizzato la redazione dei volumi della Guida
identificare precisi criteri
di compatibilità tra la struttura informativa della Guida, quella adottata per il
progetto Anagrafe e le norme di standard proposte in sede internazionale (innanzitutto,
ISAD)
consentire la trasposizione
informatica della Guida, intesa come prodotto editoriale tradizionale, in diversi
prodotti/servizi tra cui
in primo luogo un prodotto
editoriale informatico, caratterizzato da un totale recupero della ricchezza
tipografica e strutturale del prodotto cartaceo e dalla adozione
di standard aperti (SGML per la descrizione strutturale, PDF per la descrizione
tipografica) che consentano una sostanziale indipendenza da soluzioni proprietarie
un sistema di base dati che
mantenga integralmente la complessa struttura informativa presente nella Guida e consenta
nel contempo tutte le funzionalità attese da sistemi di navigazione e ricerca (gerarchie,
collegamenti ipertestuali, thesauri) sia in ambiente locale che in rete.
Ciò è stato reso possibile da una serie di passaggi fondamentali:
- esplicitazione
della struttura informativa presente nella Guida attraverso la identificazione di una
grammatica formale basata sullo standard SGML che descriva le varie componenti logiche
presenti e le caratteristiche fisiche (tipografiche, lessicali) che le caratterizzano
- acquisizione da
scanner delle pagine della Guida e lettura intelligente delle immagini
acquisite
- produzione della
versione informatica della Guida passando, attraverso un processo fortemente automatizzato, dai testi letti dall'OCR ai testi marcati SGML
- produzione del
sistema di Data Base ed Information Retrieval inserito in un contesto di rete (INTERNET)
- approntamento
(acquisizione, attivazione, sperimentazione e trasferimento) dei sistemi informatici Hw/Sw
necessari per gestire le attività C. e D. su indicate.
Tutte le attività suesposte,
pur traducendosi in risultati finali assolutamente definiti, comportavano
elementi di complessità e di innovazione tali da non poter essere affrontati direttamente
con metodologie e strumenti tradizionali, ma da richiedere piuttosto una qualificata azione di
ricerca applicata e di adattamento/integrazione; il Centro MAAS del Consorzio Roma Ricerche ha collaborato con l'amministrazione archivistica coordinando lapporto delle
professionalità necessarie per conseguire il raggiungimento dei risultati
attesi.
Hanno collaborato all'iniziativa la Sovrintendente all'Archivio centrale dello Stato Paola Carucci e il direttore della Divisione V-Studi e Pubblicazioni dello UCBA Antonio Dentoni-Litta, responsabile scientifico dell'intero progetto, Ezelinda Altieri Magliozzi, Lucia Fauci Moro, Manuela Cacioli. Hanno preso parte, a diversi livelli e in diverse fasi,
competenze proprie del Centro (il direttore Enrico Rendina, che ne ha sviluppato, coordinato e diretto i passaggi operativi, Ilaria Buonincontro, Cristina Cannizzo, Stella Di Fazio, Monica Grossi, Giovanni Michetti, Silvia Trani e, per ciò che riguarda l'elaborazione e la cura del sistema informatico, Piermarco Rendina), nonché particolari
qualificate competenze esterne (Vecomp Software per le attività di OCR e sviluppo dei moduli software di analisi e marcatura, e 3D Informatica per il motore di ricerca DB ed IR ).
Il progetto ha richiesto un tempo di
realizzazione di dodici mesi (a partire dalla positiva conclusione della prima fase) , al
termine del quale si è messo a disposizione un sistema informatico in grado di
consentire la produzione di specifiche edizioni informatiche della Guida di cui questa realizzazione su CD costituisce un primo esempio, e parallelamente
un sistema prototipale inserito in INTERNET con le stesse funzionalità e la medesima interfaccia per attività di consultazione ed
aggiornamento del data base Guida. |