Home / Transdoc - Inicio / Gestión de la información / Conversión de documentos PDF

Conversión de documentos PDF


Para pasar un texto cualquiera a PDF, sólo hay que «imprimirlo» en una impresora PDF. Hay cientos de programas de este tipo y es indispensable tener instalado al menos uno de ellos en el ordenador. Funcionará como cualquier impresora. La mayor parte de los tratamientos de texto, al menos en sus versiones más modernas, cuenta con esta opción.

En cambio, cuando queremos trabajar sobre un archivo PDF, lo primero es saber que el paso a PDF de un texto creado con cualquier otra aplicación (Word, por ejemplo) no se puede revertir: es necesario crear un documento nuevo e insertar en él el texto. Hay dos tipos de archivos PDF: los editables y los no editables. Los primeros se crean cuando pasamos a formato PDF un documento editable cualquiera: una página web, un documento de word… Los segundos son imágenes y proceden del escaneado de una página.

Es relativamente sencillo pasar a Word un documento editable: la mayor parte de las veces basta con copiar y pegar, aunque hay programas que automatizan el proceso.

En cambio, los documentos no editables (las imágenes de una página de texto) requieren el uso de un programa de reconocimiento óptico de caracteres (OCR).

¿Dónde podemos encontrar un programa OCR?

  • Lo primero es mirar en el CD que acompaña al escáner, pues TODOS incluyen alguno.
  • La segunda opción, si es para un uso puntual, es bajarse una demo temporal de alguno de los programas de pago (los tres principales son Abbyy Finereader, Readiris y Omnipage).
  • La tercera opción es un OCR gratuito. La mayor parte están en línea. La diferencia principal entre un programa gratuito y uno de pago es el número de idiomas del que se puede hacer cargo y también tienen menos opciones de conversión. No hay que olvidar que este tipo de programas “leen” y “reconocen” las palabras, por lo que es indispensable que el idioma esté bien configurado. El programa gratuito que se hace cargo de más idiomas es probablemente Abbyy Online (versión gratuita de Abbyy Finereader).
  • Últimamente es posible encontrar aplicaciones para teléfono móvil que realizan esta función tras fotografiar el documento con la cámara del mismo. Las aplicaciones de toma de notas de tipo Evernote o OneNote también incorporan un OCR que en general funciona bien (y se puede utilizar también desde la cámara del móvil).

Una vez que el texto del PDF está pasado a Word, el paso siguiente es la postedición.

En general, incluye dos procesos diferentes. En algunos casos será innecesaria, en otros será necesario uno de los dos procesos y en otros, los dos.

  1. En el caso de programas OCR, detección de erratas e interpretaciones equivocadas. El número de erratas es inversamente proporcional a la calidad del escaneado y a la calidad del programa OCR que estemos utilizando
  2. Reconstrucción del formato, si fuera necesario.

Debemos tener siempre presente que el paso de Word a PDF es en cierta forma irreversible y que al darlo siempre se perderá información de formato. Por eso, cuando un programa reconstruye el formato en Word (tanto en archivos procedentes de un escáner como en documentos PDF editables) lo interpreta de manera «visual», forzando el las opciones de formato de Word hasta hacer difícil trabajar después con él (columnas y secciones innecesarias, muchos cambios de interlineado, cuadros de texto innecesarios, espacio entre caracteres variable…). El resultado son archivos difíciles de editar, muy laboriosos de tratar con programas TAO y con un riesgo de «cuelgues» de Word importante.

Si el formato es indispensable y también lo es que el documento no dé problemas en ediciones posteriores (por ejemplo, para programas de TAO), es mucho mejor pedirle al programa que conserve únicamente el formato básico (negrillas y cursivas) y reconstruir el resto manualmente. Para ello, debemos ir a la configuración del programa y elegir la opción adecuada. Suele haber tres: texto sin formato, texto con formato de carácter, texto formateado. La más eficaz en este caso es la segunda. En cambio, si solo queremos contar palabras, con la primera, que es la más rápida, es suficiente.

Por último, encontraréis más información y vínculos a diversos programas aquí:


    Post a comment

    Your Name or E-mail ID (mandatory)

     

    Note: Your comment will be published after approval of the owner.




     RSS of this page