Mi compañera de Departamento, Carmen Isasi, me ha propuesto esta mañana un “desafío intelectual” que encaja directamente con un tema que me tiene ocupado desde hace un tiempo. Ella lo plantea como una tarea dentro de un proyecto de edición digital, relacionada con la indización de textos de un corpus anotado.
La idea entronca con un proyecto de búsqueda semántica en el que colaboré con las empresas de tecnología semántica (¿o lingüística?) EmergiaTech y Thera-Clic, y en el que tuvo un papel destacado Koldo Garai. Tiene que ver también con una consultoría que he realizado hace poco para la empresa Alianzo.
En el primer caso se utilizaba un reconocedor de entidades nombradas de Thera-Clic y la red léxica WordNet en español (también propiedad de esta empresa). En el segundo caso se utiliza la colección de herramientas lingüísticas FreeLing, a la que yo proponía añadir DBpedia, como base de datos (en realidad es una ontología) de entidades significativas precisamente para ampliar la cobertura del anotador.
Así que para el proyecto de Carmen se me ocurre que lo que hay que hacer es aplicar las metodologías de los sistemas de reconocimiento de entidades nombradas (o citadas). Posiblemente podamos recurrir a FreeLing, aunque inicialmente tal vez baste con unas primeras listas hechas a manos. ¿Dónde he visto yo una clasificación de entidades…?
Un segundo aspecto sobre el que Carmen me ha pedido colaboración es en la indización de los textos por campos semánticos, en concreto por política y religión. Esta cuestión tiene otro enfoque y resultará interesante consultar WordNet para estas temáticas, aunque posiblemente podamos crear nuestra propia red léxica a partir de los textos. En fin, que me estoy entreteniendo con la relectura de algunas referencias básicas.