devochdelia: el Diccionario Etimolójico de las Voces Chilenas Derivadas de Lenguas Indíjenas Americanas de Rodolfo Lenz en versión digital

Francisco Mondaca (f.mondaca@uni-koeln.de), Universität zu Köln, Germany

devochdelia es la versión digital y en línea 1 del Diccionario Etimolójico de las Voces Chilenas Derivadas de Lenguas Indíjenas Americanas (1905-1910) (Diccionario) compilado por el lingüista alemán-chileno Rodolfo Lenz. Esta obra ha sido fundamental en el desarrollo de la lexicografía chilena e hispanoamericana por su innovador y minucioso método de compilación. La digitalización de textos antiguos y valiosos como lo es el Diccionario presenta problemas engorrosos que dificultan el proceso en sí y el acceso a los datos obtenidos. En este proyecto se pueden apreciar soluciones accesibles a este tipo de dificultades facilitando tanto la digitalización de diccionarios impresos como su consulta en línea.

1. Acerca del diccionario impreso

La relevancia del Diccionario para lexicografía chilena radica en su enfoque descriptivo 2 , que lo distingue de los diccionarios publicados en Chile hasta ese entonces. Si bien ya se habían publicado obras de americanismos con esta perspectiva, tanto en España (De Alcedo 1789) como en Cuba (Pichardo 1836), el Diccionario presenta innovaciones que lo destacan a nivel mundial. Entre ellas cabe mencionar la clara y detallada descripción del método de compilación empleado y de la teoría subyacente; la coherencia en la estructura y tipografía de los artículos, así como en la clasificación geográfica del área de empleo de los vocablos (Lenz 1905-1910[1980]:16).

Como nunca antes en la lexicografía chilena, un autor realiza un trabajo tan exhaustivo al comparar la información recabada con diccionarios publicados en Chile e Hispanoamérica. Pero no se limita a eso, también organiza conferencias con colegas, estudiantes e interesados en el tema para verificar la información reunida y añadir a su manuscrito nuevas palabras de origen indígena (Lenz 1905-1910:22ff).

La entrada 'caleuche' en el Diccionario (Lenz 1905-1910:163)
Figure 1. La entrada 'caleuche' en el Diccionario (Lenz 1905-1910:163)

El Diccionario cuenta con 1665 entradas que se dividen en encabezado y cuerpo. En el primero se aprecia la voz indígena propiamente tal y en el segundo se tratan las palabras chilenas derivadas de ella. Como suele ser tradición en los diccionarios semasiológicos, luego del lema se aprecia la categoría gramatical y el significado. Siempre se encuentra la "etimología", pudiendo no estar presentes secciones como "variantes" o "derivados".

2. Acerca del diccionario digital 3

Un diccionario es un objeto cultural cuya función es aclarar dudas de carácter lingüístico. Por otra parte, el proceso de extracción de texto desde imágenes (OCR), es propenso a generar errores, lo que no se espera encontrar en ningún texto, menos en diccionarios. Las decisiones técnicas en este proyecto se tomaron bajo la premisa de poner en línea una versión digital del Diccionario con la menor cantidad posible de errores y, al mismo tiempo, acceder a todas las entradas del mismo. El formato elegido para la generación de texto en OCR fue Hypertext Markup Language (HTML), porque permite mantener cursivas y negritas, además de presentarse en un navegador de Internet sin problemas. Corregir todos los encabezados de las entradas, permitió la extracción de las 1665 entradas dentro de sus límites, e hizo posible buscar y encontrar las entradas mediante el número que Lenz les asignó o por el texto del encabezado. De los 1665 cuerpos, 1000 han sido corregidos.

La entrada 'caleuche' en
Figure 2. La entrada 'caleuche' en devochdelia

Una vez extraídas las entradas, se creó una aplicación web donde se pueden buscar y corregir las entradas, la cual está hecha con el framework Maalr (Neuefeind y Schwiebert 2013). En su versión básica, Maalr permite trabajar con entradas de diccionario en formato de texto simple. Como el fin de devochdelia es permitir que los usuarios ayuden a corregir las entradas, hubo que hacer dos modificaciones a Maalr:

a) que se pueda mostrar y editar texto en formato HTML,

b) que se puedan mostrar las imágenes correspondientes a cada entrada para que los usuarios vean la fuente impresa, y también editar las entradas de manera adecuada.

Cada entrada puede ser corregida y estas modificaciones ser vistas sin la necesidad de registrarse o iniciar sesión. Asimismo, cada corrección tiene que ser autoevaluada por el corrector, comunicando el nivel de la corrección a otros usuarios y a los editores.

Este proyecto muestra que, con pocos recursos, es posible digitalizar obras lexicográficas complejas haciendo partícipes en el proceso a quienes se interesan por ellas. Asimismo sirve de base para digitalizar diccionarios a otra escala.


Appendix A

Bibliografía
  1. De Alcedo , A. (1789). Diccionario geográfico-histórico de las Indias Occidentales ó América. Tomo V. Madrid: Imprenta de Manuel González.
  2. Lenz, R. (1905-1910). Diccionario Etimolójico de las Voces Chilenas Derivadas de Lenguas Indíjenas Americanas. Santiago: Imprenta Cervantes.
  3. Lenz, R. ([1905-1910] 1980). Diccionario Etimológico de las Voces Chilenas Derivadas de Lenguas Indígenas Americanas. Edición dirigida por Mario Ferreccio Podestá. Santiago: Universidad de Chile.
  4. Neuefeind, C. y Schwiebert S. (2013). Introducing Maalr: A Modern Approach to Aggregate Lexical Resources. Language Processing and Knowledge in the Web, the proceedings of the 25th Conference of the German Society for Computational Linguistics (GSCL 2013) , Darmstadt, Alemania, 25-27 febrero 2013. https://gscl2013.ukp.informatik.tu-darmstadt.de/fileadmin/user_upload/Group_UKP/conferences/gscl2013/demo_maalr-gscl2013.pdf ( consultado el 25 de abril de 2018 )
  5. Pichardo, E. (1836). Diccionario Provincial de Voces Cubanas. Matanzas: Imprenta de la Real Marina.
Notes
1.

http://devochdelia.cl

2.

"I la ciencia exije que no escluyamos nada, que no dejemos de apuntar ninguna palabra" (Lenz 1905-1910:20)

3.
Para más detalles, ver: http://www.devochdelia.cl/about