Convertir palabra (.docx) a docbook

Se me ha encomendado encontrar una manera de convertir una gran cantidad de archivos .docx a docbook 5. Actualmente, abrimos el archivo en openoffice y lo guardamos en docbook. Esta es una tarea que consume tiempo, pero estoy seguro de que hay una mejor manera. Estos archivos se procesarán posteriormente a nuestro esquema NG personalizado de relajación. Por lo tanto, esta conversión no necesita ser impecable. He mirado a mi alrededor y continuaré investigando algunas pistas, pero no he encontrado nada útil.

Mirando Convertir doc / docx a HTML semántico han sugerido upCast , pero esto no parece apropiado para mis necesidades.

Estoy buscando algo disponible de forma gratuita que pueda usar desde la línea de comandos. En última instancia, me gustaría procesar por lotes nuestros archivos. He incluido las tags linux, python y java, ya que estos son los entornos en los que me siento más cómodo, pero estaría dispuesto a esforzarme por encontrar la solución adecuada. Estoy intentando investigar un poco antes de salir y reinventar la rueda.

Hay varias formas de realizar este script, tanto utilizando scripts externos como scripts dentro de OpenOffice. Vea los siguientes enlaces para algunos ejemplos:

Algunos de los enlaces anteriores no utilizan Java o Python, pero los principios siguen siendo válidos y los scripts suelen ser lo suficientemente cortos como para ser portados (el primer ejemplo es en Ruby, pero es mi favorito personal debido a la simplicidad).

Puede ejecutar openoffice en modo servidor y enviar los documentos a él sin tener que abrirlos manualmente.

Una forma: http://code.google.com/p/bungeni-editor/wiki/RunningTheJODConverterServer

A riesgo de ganar una insignia de arqueólogo de SX, las respuestas deben incluir una referencia a Pandoc . Esto no depende de la oficina abierta.

pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx