Digitalizar documentos con DjVu

A día de hoy es común el uso de documentos digitales, ya sean libros, revistas, etc. siendo cada vez más frecuente poder comprar publicaciones en estos formatos y no en papel. También es frecuente la necesidad de digitalizar documentos para así tenerlos organizados y a mano en nuestro ordenador. Existe una gran variedad de utilidades para digitalizar documentos a través de nuestro escáner, pero hoy vamos a ver cómo digitalizar un libro o revista con DjVu desde GNU/Linux.

Lo primero es un poco de historia. ¿Qué es DjVu? y ¿Por qué vamos a usar este formato?

DjVu es un formato de archivo informático diseñado principalmente para almacenar imágenes escaneadas. Se caracteriza por incorporar avanzadas tecnologías tales como separación de capas de imágenes, carga progresiva, codificación aritmética y compresión sin pérdida para imágenes bitonales (dos colores), permitiendo que imágenes de alta calidad se almacenen en un mínimo de espacio.

En líneas generales, DjVu es un formato de fichero abierto y existen soluciones privativas para trabajar con él, aunque sus autores originales mantienen una versión con licencia GPL llamada DjVuLibre. Esta versión libre será la que nosotros utilicemos para digitalizar nuestros documentos y está disponible en los repositorios de las grandes distros.

Y bien, ¿qué necesitamos para empezar a usar DjVu? Lo primero es tener instalado DjVuLibre en nuestro sistema, un escáner compatible con SANE funcionando y un visor de ficheros DjVu. El proceso de digitalizado consta de tres partes:

  1. Escaneado página por página del documento.
  2. Compresión de las imágenes con las utilidades ofrecidas por DjVuLibre.
  3. Crear el documento con las imágenes resultantes.

Una vez hemos escaneado las páginas de nuestro documento, pasamos a comprimirlas de la siguiente manera.

$ cd ruta_de_nuestras_imagenes
$ c44 portada_color.pnm portada_color.djvu
$ cjb2 pagina1_bn.pnm pagina1_bn.djvu

Como vemos utilizaremos el compresor c44 para comprimir las imágenes a color, como la portada, páginas con fotografías, etc. y el compresor cjb2 para las páginas en blanco y negro con texto y gráficos sencillos. Éste paso hará que nuestras imágenes pasen de tener al rededor de 2Mb a unos escasos 30-200kb dependiendo de cada caso.

Llega el momento de unir todas las páginas en nuestro documento DjVu de la siguiente forma:
$ djvm -c documento.djvu portada_color.djvu pagina1_bn.djvu

Realmente sencillo. Tan sólo pasamos como argumentos el nombre del nuevo documento seguido de todas nuestras páginas en orden. Ahora ya sólo queda abrir documento.djvu con nuestro visor favorito.

Este proceso, aunque sencillo, puede extenderse en el tiempo en el caso de digitalizar documentos de gran tamaño, por eso he creado un pequeño script que automatiza en gran medida el proceso de digitalización. Podéis descargarlo desde http://pub.jotahacker.es/digitalizar/.

Llevamos 3 Comentarios

  1. HacKreatorz ha dicho:

    23 septiembre 10 a las 18:37

    Muy interesante la entrada, y el script es muy útil! Muchísimas gracias! :D

  2. 23 septiembre 10 a las 20:02

    El script es bastante sencillo pero cumple bien su función :) Gracias por el comentario ;)

  3. Bitacoras.com ha dicho:

    28 septiembre 10 a las 16:54

    Información Bitacoras.com…

    Valora en Bitacoras.com: A día de hoy es común el uso de documentos digitales, ya sean libros, revistas, etc. siendo cada vez más frecuente poder comprar publicaciones en estos formatos y no en papel. También es frecuente la necesidad de digitalizar …..