Para pasar un texto cualquiera a PDF, sólo hay que «imprimirlo» en
una impresora PDF. Hay cientos de programas de este tipo y es
indispensable tener instalado al menos uno de ellos en el ordenador.
Funcionará como cualquier impresora. La mayor parte de los tratamientos de texto, al menos en sus versiones más modernas, cuenta con esta opción.
En cambio, cuando queremos trabajar sobre un archivo PDF, lo primero es saber que el paso a PDF de un texto creado con cualquier otra aplicación (Word, por ejemplo) no se puede revertir: es necesario crear un documento nuevo e insertar en él el texto. Hay dos tipos de archivos PDF: los editables y los no editables. Los
primeros se crean cuando pasamos a formato PDF un documento editable
cualquiera: una página web, un documento de word… Los segundos son
imágenes y proceden del escaneado de una página.
Es relativamente sencillo pasar a Word un documento editable: la
mayor parte de las veces basta con copiar y pegar, aunque hay programas
que automatizan el proceso.
En cambio, los documentos no editables (las imágenes de una página de
texto) requieren el uso de un programa de reconocimiento óptico de
caracteres (OCR).
¿Dónde podemos encontrar un programa OCR?
- Lo primero es mirar en el CD que acompaña al escáner, pues TODOS incluyen alguno.
- La segunda opción, si es para un uso puntual, es bajarse una demo
temporal de alguno de los programas de pago (los tres principales son Abbyy Finereader, Readiris y Omnipage).
- La tercera opción es un OCR gratuito. La mayor parte están en línea.
La diferencia principal entre un programa gratuito y uno de pago es el
número de idiomas del que se puede hacer cargo y también tienen menos opciones de conversión. No hay que olvidar que
este tipo de programas “leen” y “reconocen” las palabras, por lo que es
indispensable que el idioma esté bien configurado. El programa gratuito
que se hace cargo de más idiomas es probablemente Abbyy Online (versión
gratuita de Abbyy Finereader).
- Últimamente es posible encontrar aplicaciones para teléfono móvil que realizan esta función tras fotografiar el documento con la cámara del mismo. Las aplicaciones de toma de notas de tipo Evernote o OneNote también incorporan un OCR que en general funciona bien (y se puede utilizar también desde la cámara del móvil).
Una vez que el texto del PDF está pasado a Word, el paso siguiente es la
postedición.
En general, incluye dos procesos diferentes. En algunos casos será innecesaria, en otros será necesario
uno de los dos procesos y en otros, los dos.
- En el caso de programas OCR, detección de erratas e interpretaciones
equivocadas. El número de erratas es inversamente proporcional a la
calidad del escaneado y a la calidad del programa OCR que estemos
utilizando
- Reconstrucción del formato, si fuera necesario.
Debemos tener siempre presente que el paso de Word a PDF es en cierta
forma irreversible y que al darlo siempre se perderá información de
formato. Por eso, cuando un programa reconstruye el formato en Word
(tanto en archivos procedentes de un escáner como en documentos PDF editables) lo interpreta de manera «visual», forzando el las opciones de
formato de Word hasta hacer difícil trabajar después con él (columnas y
secciones innecesarias, muchos cambios de interlineado, cuadros de
texto innecesarios, espacio entre caracteres variable…). El resultado
son archivos difíciles de editar, muy laboriosos de tratar con programas
TAO y con un riesgo de «cuelgues» de Word importante.
Si el formato es indispensable y también lo es que el documento no dé
problemas en ediciones posteriores (por ejemplo, para programas de
TAO), es mucho mejor pedirle al programa que conserve únicamente el
formato básico (negrillas y cursivas) y reconstruir el resto
manualmente. Para ello, debemos ir a la configuración del programa y
elegir la opción adecuada. Suele haber tres: texto sin formato, texto con formato de carácter, texto formateado. La más eficaz en este caso es la segunda. En cambio, si solo queremos contar palabras, con la primera, que es la más rápida, es suficiente.
Por último, encontraréis más información y vínculos a diversos programas aquí: