El martes 28 de febrero de 2012 por fin se presentó el traductor automático del Gobierno Vasco y como era de esperar se han suscitado multitud de comentarios, en general negativos. En mi calidad de participante en el desarrollo y estudioso de la disciplina, deseo aportar información acerca de tres aspectos fundamentales: la calidad, la oportunidad y la propiedad. Empezaré por el tercero, que considero el más relevante.
La propiedad
1.1 Se ha acusado al Gobierno Vasco de haber encargado a una empresa foránea (Lucy Software Ibérica) el desarrollo de un sistema propietario, conculcando supuestamente su compromiso con las empresas locales y el software libre. Pero estas críticas son engañosas; primero porque los elementos más valiosos del traductor (los recursos lingüísitcos, diccionarios bilingües, reglas de transferencia y reglas de generación) son en realidad —por contrato— de propiedad pública y están en manos del Gobierno Vasco. (Más abajo ofrezco datos sobre los centros vascos que participamos en el desarrollo del sistema.)
1.2 El Departamento de Cultura, como propietario de estos recursos, podría —y debería, en consonancia con las máximas de Open Data y Gobierno Abierto que propugna el gobierno de Patxi López— liberarlos cuanto antes en su portal http://OpenData.Euskadi.net. Lo mismo debería hacer con el Banco de Traducciones, el Banco de Terminología (Euskalterm), las bases de datos onomásticas y otros recursos lingüísticos (diccionarios, corpus, etc.) que son asimismo de su propiedad.
1.3 Las voces más críticas respecto a la propiedad proceden del grupo IXA de la Universidad del País Vasco, responsable junto a la empresa Eleka del desarrollo del sistema OpenTrad, competidor del financiado por el Gobierno Vasco. Pero dan consejos que para ellos no tienen: Sus propios recursos (bases de datos léxicas, lematizadores, gramáticas y corpus bilingües) no son públicos ni de libre acceso (en contrastada diferencia con los recursos de los otros pares de lengua en OpenTrad). Distribuyen con licencia de software libre una versión reducida de las bases de datos, convirtiendo su software de traducción en una herramienta solo útil a efectos lúdicos o formativos.
1.4 La liberación en Open Data Euskadi de todos los recursos lingüísticos disponibles supondría un excelente acicate para que grupos de investigación de todo el mundo experimentasen con la lengua vasca propiciando nuevas integraciones de recursos y algoritmos, el desarrollo de prototipos de traducción innovadores, o de otras aplicaciones lingüísticas beneficiosas para el desarrollo de contenidos en euskera.
La oportunidad
2.1 Karlos del Olmo, pionero en la incorporación y divulgación de nuevas tecnologías en la traductología vasca y miembro de una de las comisiones que intervinieron en la elaboración del pliego de licitación del traductor, ha destacado (en el foro Sustatu.com) que los técnicos del Gobierno Vasco ya fueron advertidos —por varios expertos, entre los que me encuentro— de que la tecnología no estaba madura y de que no era previsible obtener un sistema capaz de generar resultados aprovechables. Pero las advertencias resultaron baldías; la decisión de invertir en el traductor automático estaba tomada.
2.2 El Gobierno Vasco llevaba décadas soñando con un sistema de TA para el euskera; tanto se deseaba que las consejerías de Cultura e Industria rivalizaban entre ellas para promoverlo. Joseba Bilbao, director en la era Ibarretxe de la Oficina para la Modernización Administrativa, otorgó a los responsables del Departamento de Cultura (Lorea Bilbao, Patxi Goenaga, Patxi Bazterrika) el plácet para lanzar el proyecto. En Cultura envidiaban la experiencia de sus homólogos catalanes que tan buenos resultados habían obtenido en la traducción automática al catalán. Pero la lengua vasca no puede compararse con la catalana (en su relación con el castellano).
2.3 Karlos del Olmo y otros reclaman que podrían haberse hecho mejores inversiones. Tal vez, pero lo cierto es que en el desarrollo del traductor hemos participado una decena de lingüistas, lexicógrafos, traductores e informáticos adscritos a centros vascos (Universidad de Deusto, Centro de Terminología y Lexicografía UZEI y otras empresas; además de colaboradores vascos residentes en Barcelona). La formación y transferencia de conocimientos ha sido elevada y la colaboración entre los centros participantes se ha robustecido notablemente.
2.4 Asimismo debe quedar claro que la inversión en el traductor se destinó prácticamente en su integridad a costes laborales (395.000 euro dan para poco más de seis nóminas a tiempo completo, y entre 2008 y 2009 participamos más de diez personas con distintas dedicaciones en el desarrollo de los diversos módulos del sistema).
La calidad
3.1 El traductor del Gobierno Vasco no es bueno, pero es considerablemente mejor que los otros dos disponibles (OpenTrad y Google).
3.2 Costará años conseguir un traductor automático mejor —la tecnología actual todavía adolece de muchas limitaciones—; pero, en cualquier caso, si se utiliza de forma adecuada, puede llegar a ser una herramientas muy útil, como se ha demostrado sobradamente.
3.3 La diferencia estructural entre las lenguas vasca y española es tan grande que, salvo para frases cortas y de estructura simple, no es posible mecanizar de forma amplia y fiable la traducción entre ellas (a diferencia de otros pares de lenguas). En realidad soy un escéptico de la viabilidad de los sistemas basados en reglas (como Lucy) aplicados a pares tan distantes como el nuestro y me confieso el primer sorprendido al comprobar el elevado grado de aciertos.
3.4 Las mejoras en la tecnología pasan por disponer de más textos traducidos, tantos como sea posible, de los que puedan alimentarse los sistemas que aprenden automáticamente (como el de Google). Por este motivo el proyecto de creación de un Banco de Traducciones es tan necesario para avanzar en la automatización de la traducción al euskera.
3.5 Un truco que el jefe del desarrollo de Lucy, Juan Alberto Alonso, ha evitado intencionadamente —motivo por el que hemos discrepado— es añadir frases hechas (por miles, como yo recomendaba, incluso conteniendo errores ortográficos frecuentes). Y es que un porcentaje muy alto de los comentarios negativos respecto al traductor tienen que ver con fallos en la traducción de expresiones de este tipo (“horario de mañana y tarde”, “planta tercera” o “vete a la mierda”.)
3.6 Los avances en traducción automática discurren en la actualidad hacia la creación de sistemas híbridos, que básicamente combinan las dos tecnologías: la basada en reglas (Lucy) y el aprendizaje a partir de corpus (Google). El grupo IXA de la Universidad del País Vasco está realizando importantes avances en esta área (sobre la base de su sistema basado en reglas, Matxin) y pueden presumir de ser uno de los líderes mundiales en el ensayo experimental de sistemas híbridos.
Mi consejo es que el Gobierno Vasco siga invirtiendo en tecnologías de traducción y haga de su consumo un ejemplo de buenas prácticas, emulando —en la medida de sus posibilidades— a organismos como la Unión Europea [1],[2].
En Euskadi contamos con centros punteros que son proveedores de herramientas de traducción (destacan UZEI y Eleka) y con un equipo de investigación (IXA taldea) que realiza experimentos de relevancia internacional. Sorprende oír quejas de su parte, porque el apoyo que reciben de las administraciones vascas es extraordinario (y por añadidura se anuncia para este año la puesta en marcha de un cluster de industrias de la lengua que ellos han promovido). Estos apoyos no deben convertirse en mecenazgos ni monopolios excluyentes y es saludable que todavía quede margen para que grupos menores, o incluso externos, de vez en cuando tengamos ocasión de aportar piezas complementarias. En este contexto, la liberación de los recursos públicos redundará en beneficio de todos.