Un algoritmo destapa la riqueza de vocabulario en la población

Foto: Gavilla

Investigadores del grupo VUM (Vernáculo Urbano Malagueño) de la Universidad de Málaga han hallado un método para estimar lo que denominan el tamaño virtual del vocabulario de un individuo.

Han utilizado un algoritmo de optimización que garantiza resultados “muy fiables”. El algoritmo permite conocer la diversidad léxica usada en el intercambio lingüístico y determinar cuándo la densidad del léxico aumenta y cuándo decrece en la conversación.

El algoritmo tiene en cuenta la edad, el género, la ocupación profesional, el nivel educativo y la clase social, entre otros aspectos. Ha utilizado un corpus lingüístico del español hablado en la ciudad de Málaga. Un material oral que fue obtenido tras más de 80 horas de grabación en los que, además, se trató de registrar mediante cuestionario las variables diastráticas de cada participante.

Entre los datos obtenidos, destaca que los individuos con educación superior y universitaria concentran el grueso de resultados
de mayor riqueza léxica, en concreto, un 40% más que en el de personas no escolarizadas o con pocos años de formación.

Empresarios y técnicos

También destaca que el mayor porcentaje (el 53%) de los textos más complejos fueron los registrados por empresarios y personas con profesiones técnicas, cargos medios y funcionarios.

Asimismo, que los hablantes con mayor contacto con la prensa escrita obtuvieron un 3,1% más de puntuación en textos de léxico más avanzado que los participantes del grupo con un contacto más restringido a la televisión.

Por último, la comparativa realizada por los investigadores en función de la clase social señala que de los registros extraídos de la clase media baja (la más alta estudiada) un 68% eran de mayor densidad léxica, frente a los aportados por la clase baja, cuyo porcentaje no superó el 27%.

Según los expertos, los diferentes estratos sociales usan distintos lexicones (conocimiento del vocabulario completo de determinada comunidad de habla), al menos desde el punto de vista cuantitativo. De hecho, en la muestra analizada el léxico fluctuó entre las 862 y las 3.055 palabras de media, según el grupo social al que pertenecían los hablantes.

Orígenes de la riqueza léxica

El doctor Antonio M. Ávila Muñoz, responsable de la investigación, explica en un comunicado que “la causa de tener un mayor o menor índice de riqueza léxica radica principalmente en el acceso a la educación formal y a la cultura, aunque la profesión y el rol desempeñado en esta parecen también jugar un papel clave”. En este sentido, “lo que también es cierto, añade, es el hecho de que tener más o menos léxico no parece influir en la eficacia de la comunicación, ya que el individuo suele adaptarlo a sus necesidades y objetivos”.

Tras analizar los datos obtenidos, Ávila Muñoz sostiene que las conclusiones y datos extraídos del trabajo se incorporan al debate sobre el lenguaje y con ello pueden servir para abrir nuevas perspectivas a futuras investigaciones: “Estoy seguro que para la sociedad en general los resultados del trabajo se pueden explotar de manera útil en ámbitos como los medios de comunicación, donde los profesionales pueden disponer de un modelo riguroso de representación de la riqueza léxica individual; en la educación, tanto en la enseñanza de la lengua materna como de una segunda lengua; así como otros campos como la política y la planificación lingüística, tan importantes en una comunidad de habla como la andaluza en la que conviven variedades lingüísticas en contacto que generan actitudes y creencias tanto dentro como fuera de nuestra región”.

En un artículo publicado en la revista Spanish in Context, los investigadores recogen el diseño de un modelo para el cálculo del número de vocablos utilizados por los hablantes compatible con el concepto tradicional de densidad léxica, usado con más frecuencia para medir la riqueza de los textos escritos.

Referencia

Can speakers’ virtual lexical richness be calculated? Spanish in Context, Volume 13, Issue 2, 2016, pages: 285 –307.

Un algoritmo destapa la riqueza de vocabulario en la población

Universitarios, empresarios y técnicos polarizan el mejor uso del lenguaje, en perjuicio de las personas sin estudios y de las que sólo ven TV

{{date}} {{title}}