OCR i biblioteques digitals

Publicat el Dissabte, 1 de juliol de 2006 02:00h

OCR és la sigla doptical character recognition, és a dir, reconeixement òptic de caràcters (lequivalent de la sigla en català és ROC, tot i que jo mestimo més fer servir langlesa OCR, més estesa). Aquesta tecnologia és força antiga i de sempre ha estat lligada al tractament mecànic de la informació, és a dir, la informàtica. Lany 1955 ja sutilitzava als Estats Units per llegir targetes de crèdit en companyies petrolieres de Califòrnia i també a les forces aèries americanes per llegir i transmetre teletips escrits a màquina. La idea bàsica consisteix a convertir un document imprès en una seqüència de caràcters en format digital. Actualment si tenim un escàner domèstic a casa podem agafar una factura i digitalitzar-la. A partir daquest moment, lordinador veu el document com una imatge gràfica igual com si es tractés duna fotografia, no és capaç dentendre el contingut escrit de la factura. Si apliquem sobre la imatge un programari específic dOCR, lordinador, mitjançant complexos algoritmes, és capaç dextreure el contingut escrit del document, és a dir conèixer les xifres que conformen el total facturat, les dades del client i el detall daquesta.

Ara pensem en un llibre qualsevol duna biblioteca. Ordenat i classificat descansa en un prestatge esperant que algun lector el vulgui llegir. Quan algú lagafa utilitza líndex per intentar trobar la informació que cerca més ràpidament. Però a vegades no nhi ha prou i cal empassar-se tot el llibre per tenir èxit. El llibre digital enfront el llibre imprès té molts avantatges, si està publicat a Internet és accessible a tothom sense haver-se de traslladar físicament a la biblioteca, si a més lhan passat per un tractament dOCR, serem capaços de fer cerques per paraules i accedir a la informació que necessitem més ràpidament. Però és clar, un llibre publicat a Internet pot tenir un propietari i aquest naturalment no estarà dacord en la seva publicació si no es passa prèviament per caixa. Aquest va ser el principal impediment que Google es va trobar quan va voler posar en marxa el seu servei de biblioteca digital. Dels 32 milions de llibres publicats fins al dia davui, Google en pensava escanejar i passar per lOCR gairebé la meitat. Malgrat la polseguera que es va aixecar en el primer moment, finalment es va trobar una solució al litigi que permet a editorials i autors exercir els seus drets. Gran part dels llibres digitalitzats per Google només es poden llegir parcialment i per tenir-hi accés complet cal comprar-los.

El nou servei de Google és especialment útil per donar vida a llibres descatalogats que difícilment seran reeditats. El fons daquesta nova biblioteca digital prové en gran part de llibreries dels Estats Units. Un exemple de la utilitat daquest servei és consultar el llibre Viaje literario a las iglesias de España de Jaime Villanueva, escrit el 1851 i publicat el 1902. Gràcies a lOCR trobem fàcilment una referència a Cambrils que explica la troballa el 1803, entre Cambrils i Montbrió, prop del camí real, dun mil·liari romà (una fita) de tretze pams i mig daltura amb inscripcions que feien referència a lemperador Claudi i que havia estat reaprofitada com a tomba. Segons el llibre, la columna va ser traslladada posteriorment a lermita de Nostra Senyora de Misericòrdia. La inscripció havia estat alterada quan el monòlit es va destinar a sepulcre al recobrir el mort amb maons i argamassa. Aquest és un clar exemple del potencial que ens pot oferir la digitalització de llibres amb OCR al coneixement global de la humanitat.

www.books.google.com

Seccions

Categories

SEGUEIX-NOS

Cercador