hrmaroonato.gif (149 bytes)

hrmaroonato.gif (149 bytes)


Dai volumi della Guida alla Guida Elettronica
La Guida generale degli Archivi di Stato rappresenta il progetto culturale più condiviso nella Amministrazione archivistica e sicuramente il più consultato.

I suoi limiti, le zone meno riuscite non solo non hanno ridotto la sua importanza ed il suo ruolo sia nella pratica quotidiana sia come strumento di presentazione del mondo degli Archivi verso l’ utenza esterna, ma anzi ripropongono con forza la necessità di attuare quegli interventi ‘manutentivi’ e più in generale editoriali che possano riproporla come il sistema unitario di presentazione dei posseduti degli Archivi di Stato.

Qualunque intervento sia relativo alla manutenzione (acquisizione di modifiche, aggiornamenti, aggiunte, rifacimenti,etc.) sia di carattere editoriale (nuove forme di redazione sia centrali che periferiche, nuove forme di pubblicazione, di distribuzione e di accesso) non poteva che essere successivo ad un processo di passaggio dal documento cartaceo alla sua trasposizione elettronica.

Tale processo poteva attuarsi in diversi modi, ciascuno caratterizzato da gradi via via più spinti di automazione delle attività necessarie:

  • il primo tipo di intervento, con la minore presenza di automazione ma non necessariamente con il minor grado di complessità, poteva prevedere la reintroduzione manuale delle pagine dei quattro volumi della Guida, usando un ‘buon’ sistema di editoria elettronica; il risultato di questa forma di intervento consiste esclusivamente in una trasposizione della Guida in un sistema di files in un qualche ambiente di video scrittura. Problemi da affrontare in questa soluzione riguardano il processo organizzativo (decentrato/centralizzato, procedure di correzione/revisione) e soprattutto la scelta di un ambiente di produzione diffuso e capace di generare documenti in un formato il più completo possibile dal punto di vista tipografico ed il più indipendente dai sistemi hw/sw usati

  • una evoluzione non trascurabile della modalità precedente consiste nella esplicitazione preliminare, con l’uso di strumenti formali e indipendenti dalle specifiche soluzioni informatiche, della struttura così fortemente presente nella redazione della Guida sia a livello di entità logiche sia a livello di singoli campi informativi previsti all’ interno di queste entità. Il processo di introduzione dei testi come previsto dalla soluzione precedente verrebbe arricchito dalla introduzione manuale dei ‘marcatori’ specifici collegati ai vari elementi strutturali. Questa versione informatica ‘strutturata’ dei testi costituenti la Guida ha il vantaggio di consentire, con opportuni strumenti software, di accedere non solo ai testi ‘piatti’ (destrutturati) ma di permettere migrazioni del testo verso ambienti ipertestuali del tipo InfoBase o verso ambienti fortemente strutturati quali sistemi Data Base che consentono navigazioni nella struttura logica della Guida. Altro elemento importante è dato dalla maggiore capacità di questa soluzione informatica di supportare il processo di manutenzione ‘evolutiva’, consentendo un dialogo ordinato con la periferia.

  • reintrodurre manualmente i testi della G., eventualmente arricchita con i marcatori degli elementi strutturali, presenta problemi di tempo, costo, organizzazione; un possibile, parziale superamento di questi problemi è rappresentato dalla cattura automatica delle pagine della G. attraverso l’uso di un sistema O.C.R. (pc con scanner e software di riconoscimento dei caratteri). Anche per questa soluzione si pongono i problemi di scegliere un formato di arrivo che sia il più fedele possibile alle caratteristiche tipografiche del testo di partenza, permetta di recuperare la struttura implicita nel testo, consenta la più ampia varietà di prodotti editoriali ottenibili e le loro forme più efficaci di distribuzione. Le attuali capacità offerte dai sistemi OCR mostrano un notevole miglioramento rispetto al passato sia per quanto riguarda la accuratezza di lettura (non riconoscimenti o errori di lettura), sia per quanto riguarda la capacità di riconoscere e di conservare le principali caratteristiche tipografiche (corpi, fonti, note etc.); nessuno degli attuali sistemi commerciali però riesce ad evitare una significativa fase di correzione manuale e soprattutto nessuno è in grado di introdurre automaticamente i marcatori della struttura sottostante. In conclusione questa soluzione come risultati raggiungibili non si discosta dalla soluzione 1., pur comportando tempi e costi ovviamente diversi.

  • L’ultima soluzione ipotizzata non poteva purtroppo basarsi su sistemi disponibili sul mercato ma richiedeva una consistente attività di ricerca applicata che superasse i limiti delle soluzioni precedenti e consentisse in tempi certi e contenuti di raggiungere il meglio dei risultati acquisibili. In particolare si voleva ottenere con un processo ‘quasi’ automatico (e comunque a bassa e controllata attività di intervento manuale) la trasposizione elettronica del testo ‘pieno’, corredato cioè da tutte le caratteristiche tipografiche dei volumi a stampa, ed inoltre integrato da tutte le informazioni strutturali che lo descrivono: diventava possibile così trasferire automaticamente tutte le informazioni presenti nella G. in un sistema Data Base. Per realizzare tale soluzione occorreva sviluppare opportuni sistemi di integrazione degli strumenti O.C.R. disponibili utilizzandone le componenti più adeguate e dove necessario svilupparne ex novo, effettuare una approfondita analisi dei testi della G. per esplicitare una grammatica non ambigua che collegasse caratteristiche tipografiche e specifici elementi testuali agli elementi strutturali presenti nella G., costruire i moduli di generazione del testo strutturato, e del data base corrispondente alla Guida. 


Progetto Informatizzazione
Guida Generale degli Archivi di Stato

Il progetto ha avuto la finalità di valorizzare i contenuti informativi e di ricerca della Guida degli Archivi di Stato, attraverso l'adozione di procedure di analisi e di soluzioni informatiche che hanno consentito di :

  • rendere esplicita la struttura informativa formale che ha caratterizzato la redazione dei volumi della Guida

  • identificare precisi criteri di compatibilità tra la struttura informativa della Guida, quella adottata per il progetto Anagrafe e le norme di standard proposte in sede internazionale (innanzitutto, ISAD)

  • consentire la trasposizione informatica della Guida, intesa come prodotto editoriale tradizionale, in diversi prodotti/servizi tra cui

    • in primo luogo un prodotto editoriale informatico, caratterizzato da un totale recupero della ricchezza ‘tipografica’ e ‘strutturale’ del prodotto cartaceo e dalla adozione di standard aperti (SGML per la descrizione strutturale, PDF per la descrizione tipografica) che consentano una sostanziale indipendenza da soluzioni proprietarie

    • un sistema di base dati che mantenga integralmente la complessa struttura informativa presente nella Guida e consenta nel contempo tutte le funzionalità attese da sistemi di navigazione e ricerca (gerarchie, collegamenti ipertestuali, thesauri) sia in ambiente locale che in rete.

Ciò è stato reso possibile da una serie di passaggi fondamentali:

  1. esplicitazione della struttura informativa presente nella Guida attraverso la identificazione di una grammatica formale basata sullo standard SGML che descriva le varie componenti logiche presenti e le caratteristiche fisiche (tipografiche, lessicali) che le caratterizzano
  2. acquisizione da scanner delle pagine della Guida e lettura ‘intelligente’ delle immagini acquisite
  3. produzione della versione informatica della Guida passando, attraverso un processo fortemente automatizzato, dai testi letti dall'OCR ai testi marcati SGML
  4. produzione del sistema di Data Base ed Information Retrieval inserito in un contesto di rete (INTERNET)
  5. approntamento (acquisizione, attivazione, sperimentazione e trasferimento) dei sistemi informatici Hw/Sw necessari per gestire le attività C. e D. su indicate.

Tutte le attività suesposte, pur traducendosi in risultati finali assolutamente definiti, comportavano elementi di complessità e di innovazione tali da non poter essere affrontati direttamente con metodologie e strumenti tradizionali, ma da richiedere piuttosto una qualificata azione di ricerca applicata e di adattamento/integrazione; il Centro MAAS del Consorzio Roma Ricerche ha collaborato con l'amministrazione archivistica coordinando l’apporto delle professionalità necessarie per conseguire il raggiungimento dei risultati attesi.

Hanno collaborato all'iniziativa la Sovrintendente all'Archivio centrale dello Stato Paola Carucci e il direttore della Divisione V-Studi e Pubblicazioni dello UCBA Antonio Dentoni-Litta, responsabile scientifico dell'intero progetto, Ezelinda Altieri Magliozzi, Lucia Fauci Moro, Manuela Cacioli. Hanno preso parte, a diversi livelli e in diverse fasi, competenze proprie del Centro (il direttore Enrico Rendina, che ne ha sviluppato, coordinato e diretto i passaggi operativi, Ilaria Buonincontro, Cristina Cannizzo, Stella Di Fazio, Monica Grossi, Giovanni Michetti, Silvia Trani e, per ciò che riguarda l'elaborazione e la cura del sistema informatico, Piermarco Rendina), nonché particolari qualificate competenze esterne (Vecomp Software per le attività di OCR e sviluppo dei moduli software di analisi e marcatura, e 3D Informatica per il motore di ricerca DB ed IR ).

Il progetto ha richiesto un tempo di realizzazione di dodici mesi (a partire dalla positiva conclusione della prima fase) , al termine del quale si è messo a disposizione un sistema informatico in grado di consentire la ‘produzione’ di specifiche edizioni informatiche della Guida di cui questa realizzazione su CD costituisce un primo esempio, e parallelamente un sistema prototipale inserito in INTERNET con le stesse funzionalità e la medesima interfaccia per attività di consultazione ed aggiornamento del data base Guida.

 

hrmaroonato.gif (149 bytes)


Sviluppi futuri
Quando il progetto "Guida" venne concepito la scelta dello SGML si configurava sicuramente come la più idonea a conseguire un duplice risultato: "cattura" di tutte le informazioni, strutturali e tipografiche, veicolate dai volumi a stampa, e loro trasferimento automatico in un sistema Data Base. Essa si presentava tuttavia anche come la soluzione più all'avanguardia e la più aperta a possibili sviluppi e applicazioni future. Alla fine di un processo che, tra fase progettuale e fase operativa, ha coperto un arco cronologico di circa due anni, è possibile affermare che entrambi gli obiettivi operativi sono stati efficacemente attuati. Disponiamo infatti di una banca dati strutturata secondo le partizioni e gli elementi informativi della Guida che consente non solo la ricerca on-line ma anche l'aggiornamento diretto. I dati forniti dagli Istituti si avvarranno di maschere di inserimento e modifica con campi predefiniti che consentiranno di agganciare le descrizioni date in Guida agli strumenti di ricerca esistenti negli istituti. Lo scenario nel quale il prodotto finale si trova ad essere calato è quello di un ambiente sempre più sensibile e ricettivo nei confronti di linguaggi di codifica o descrizione strutturale dei testi. Basti riflettere sulla vitalità odierna dell'EXTENSIBLE MARKUP LANGUAGE o XML (diretta emanazione dello STANDARD GENERALIZED MARKUP LANGUAGE) non solo come linguaggio fondamentale di editing delle pagine WEB, ma anche e soprattutto come descrittore/analizzatore della struttura logico-formale dei testi che lo supportano, e sulla possibilità ad esso associata di gestire le unità informative (tramite un motore di ricerca XML) prescindendo da una struttura Data Base predefinita. La codifica SGML dei volumi della Guida generale si presta in maniera del tutto naturale ad una "rilettura" XML.