Opinió

OCR i biblioteques digitals

OCR és la sigla d’optical character recognition, és a dir, reconeixement òptic de caràcters (l’equivalent de la sigla en català és ROC, tot i que jo m’estimo més fer servir l’anglesa OCR, més estesa). Aquesta tecnologia és força antiga i de sempre ha estat lligada al tractament mecànic de la informació, és a dir, la informàtica. L’any 1955 ja s’utilitzava als Estats Units per llegir targetes de crèdit en companyies petrolieres de Califòrnia i també a les forces aèries americanes per llegir i transmetre teletips escrits a màquina. La idea bàsica consisteix a convertir un document imprès en una seqüència de caràcters en format digital. Actualment si tenim un escàner domèstic a casa podem agafar una factura i digitalitzar-la. A partir d’aquest moment, l’ordinador veu el document com una imatge gràfica igual com si es tractés d’una fotografia, no és capaç d’entendre el contingut escrit de la factura. Si apliquem sobre la imatge un programari específic d’OCR, l’ordinador, mitjançant complexos algoritmes, és capaç d’extreure el contingut escrit del document, és a dir conèixer les xifres que conformen el total facturat, les dades del client i el detall d’aquesta.

Ara pensem en un llibre qualsevol d’una biblioteca. Ordenat i classificat descansa en un prestatge esperant que algun lector el vulgui llegir. Quan algú l’agafa utilitza l’índex per intentar trobar la informació que cerca més ràpidament. Però a vegades no n’hi ha prou i cal empassar-se tot el llibre per tenir èxit. El llibre digital enfront el llibre imprès té molts avantatges, si està publicat a Internet és accessible a tothom sense haver-se de traslladar físicament a la biblioteca, si a més l’han passat per un tractament d’OCR, serem capaços de fer cerques per paraules i accedir a la informació que necessitem més ràpidament. Però és clar, un llibre publicat a Internet pot tenir un propietari i aquest naturalment no estarà d’acord en la seva publicació si no es passa prèviament per caixa. Aquest va ser el principal impediment que Google es va trobar quan va voler posar en marxa el seu servei de biblioteca digital. Dels 32 milions de llibres publicats fins al dia d’avui, Google en pensava escanejar i passar per l’OCR gairebé la meitat. Malgrat la polseguera que es va aixecar en el primer moment, finalment es va trobar una solució al litigi que permet a editorials i autors exercir els seus drets. Gran part dels llibres digitalitzats per Google només es poden llegir parcialment i per tenir-hi accés complet cal comprar-los.



El nou servei de Google és especialment útil per donar vida a llibres descatalogats que difícilment seran reeditats. El fons d’aquesta nova biblioteca digital prové en gran part de llibreries dels Estats Units. Un exemple de la utilitat d’aquest servei és consultar el llibre Viaje literario a las iglesias de España de Jaime Villanueva, escrit el 1851 i publicat el 1902. Gràcies a l’OCR trobem fàcilment una referència a Cambrils que explica la troballa el 1803, entre Cambrils i Montbrió, prop del camí real, d’un mil·liari romà (una fita) de tretze pams i mig d’altura amb inscripcions que feien referència a l’emperador Claudi i que havia estat reaprofitada com a tomba. Segons el llibre, la columna va ser traslladada posteriorment a l’ermita de Nostra Senyora de Misericòrdia. La inscripció havia estat alterada quan el monòlit es va destinar a sepulcre al recobrir el mort amb maons i argamassa. Aquest és un clar exemple del potencial que ens pot oferir la digitalització de llibres amb OCR al coneixement global de la humanitat.

www.books.google.com