Wikipedia crea un sistema que multiplica la creación de artículos en las diversas lenguas

Informa a los editores de ausencias importantes que sí están en otros idiomas conocidos por ellos


Investigadores de Stanford (EE.UU.) y la Fundación Wikimedia han desarrollado un sistema automático que recomienda a los editores de las diversas ediciones de la Wikipedia artículos que faltan en sus propias lenguas, pero que están en lenguas que conocen y que por tanto pueden tomar como referencia. Con ese sistema se duplica o incluso triplica la velocidad de creación de artículos. Por Carlos Gómez Abajo.


20/04/2016

Cada día, gente de todo el mundo visita alguna de las cerca de 300 ediciones de Wikipedia, buscando a través de millones de artículos escritos por decenas de miles de editores voluntarios que construyen y mantienen esta enciclopedia libre.

La mayoría de los visitantes buscan artículos escritos en inglés o alguna de las otras lenguas habladas que dan cuenta de la gran mayoría de los 36 millones de entradas de Wikipedia. Pero dado que más de la mitad de la población mundial es monolingüe, existen lagunas en el conocimiento de una versión en idioma local a otra.

Para ayudar a los editores de diferentes comunidades lingüísticas a identificar importantes artículos que faltan, científicos de la computación de la Universidad Stanford (California, EE.UU.) y la Fundación Wikimedia han creado una herramienta de recomendación que identifica los artículos más importantes que aún no están disponibles en un determinado idioma.

Los editores pueden utilizar estas recomendaciones y, si son multilingües, buscar un artículo en una segunda lengua que les sea familiar u otro tipo de ayuda con el fin de traducir el artículo para los lectores locales de Wikipedia.

De este modo, el sistema primero identifica a un editor en Madagascar que se interesa por la climatología y lee y escribe en malgache y francés, y luego le recomienda trabajar en un artículo sobre El Niño, que está ausente de la Wikipedia malgache. De esta manera el editor puede crear un artículo para personas de este país insular que explica cómo puede influir El Niño en las precipitaciones, lo cual a su vez afecta a la agricultura y las inundaciones.

"Como investigadores universitarios, buscamos proyectos con impacto en el mundo real", dice Jure Leskovec, profesor asistente de ciencias de la computación en Stanford, en la información de ésta. "¿Qué podría tener más impacto que la democratización del acceso al conocimiento?"

Los científicos de la Fundación Wikimedia Ellery Wulczyn y Leila Zia y el estudiante de posgrado de Stanford Robert West completan el equipo de colaboradores.

"Wikipedia tiene enormes cantidades de datos sobre artículos en diferentes idiomas y las relaciones entre ellos", dijo West, doctorando en ciencias de la computación. "Nuestro objetivo era utilizar esos datos para diseñar un sistema que animara a los editores a crear los artículos más importantes que faltan."

El proceso

Los investigadores comenzaron mediante la creación de listas de todos los artículo de cada idioma, y ​​luego cruzaron estas listas para determinar cuáles son los artículos que faltaban en qué idiomas. Luego, los investigadores estimaron la importancia de cada artículo faltante basándose en la relevancia cultural y geográfica. La idea era clasificar el valor de la creación de cualquier artículo dado que falta en ese idioma en relación con todos los demás artículos que faltan.

"Tuvimos que crear un sistema de clasificación que fuera significativo para los editores de diferentes comunidades culturales y lingüísticas porque Wikipedia está conformada por las opciones de los editores", dice Zia.

Los investigadores plantearon la hipótesis de que un sistema que predijera con exactitud la popularidad de los artículos que faltan atraería a los editores sugiriéndoles que sus esfuerzos voluntarios podrían ofrecer mayor valor a sus comunidades lingüísticas y, presumiblemente, darles mayor satisfacción personal.

Para probar esta premisa, los investigadores diseñaron un complejo experimento. Comenzaron con los 4,9 millones de artículos que existían en la Wikipedia en inglés, y encontraron aquellos que faltaban con respecto a los 1,6 millones de artículos de la Wikipedia en francés.

Luego, los investigadores eligieron los 300.000 artículos más importantes que estaban en la inglesa y faltaban en la francesa. Estos artículos fueron divididos aleatoriamente en tres grupos de 100.000 artículos cada uno y distribuidos a los editores seleccionados.

El quid del experimento incluyó dos grupos de 6.000 editores que habían hecho al menos una edición en las Wikipedias inglesa y francesa en los 12 meses anteriores al experimento. El 25 de junio de 2015, cada uno de estos editores recibió un correo electrónico que le informaba de que faltaban cinco artículos importantes y le sugería que sería un servicio a la comunidad que tradujera uno del inglés al francés.

En un grupo, las cinco opciones fueron asignadas al azar de la lista maestra de artículos importantes que faltaban de la Wikipedia francesa.

Para el segundo grupo, las cinco opciones también fueron extraídas de una lista separada de importantes artículos que faltaban, pero también estaban en sintonía con los presuntos intereses de cada editor, basándose en los artículos que cada uno había editado en el pasado.

Un mes después de enviar sus mensajes de correo electrónico, los investigadores evaluaron la creación de artículos, y encontraron que simplemente podían duplicar la tasa de creación de artículos recomendando artículos al azar. En el segundo grupo se triplicó.

Sobre la base de estos resultados, la Fundación Wikimedia ha desarrollado una herramienta experimental donde los editores pueden encontrar lagunas en la Wikipedia de su idioma local y obtener referencias en otro idioma que les sea familiar.

Arte

Mientras, ha dado comienzo una competición para traducir y publicar artículos en Wikipedia sobre historia del arte europea, organizado por Europeana, la biblioteca digital europea de acceso libre.

Los Ministerios de Cultura de cada nación de la Unión Europea han seleccionado 10 obras de arte de gran valor de los museos de su país, informa la Fundación Wikimedia en su blog. Estas 300 obras van desde la escultura contemporánea irlandesa al arte de cueva español, pasando por pinturas de paisajes de Letonia y manuscritos iluminados de Bulgaria.

Referencia bibliográfica:

Ashwin Paranjape, Robert West, Leila Zia, Jure Leskovec: Improving Website Hyperlink Structure Using Server Logs. arXiv:1512.07258



Artículo leído 2242 veces



Más contenidos