Imagen: jill111. Fuente: Pixabay.
La ley de Zipf en su versión más sencilla, formulada en los años 30 por el lingüista estadounidense George Kingsley Zipf, determina que, de manera sorprendente, la palabra más frecuente de un texto aparece el doble de veces que la siguiente más frecuente, tres veces más que la tercera más frecuente, cuatro veces más que la cuarta más frecuente, y así sucesivamente.
La ley se puede aplicar en muchos otros campos, no sólo en la literatura, y se ha comprobado con más o menos rigor en grandes cantidades de datos, pero hasta ahora ha carecido de una comprobación con todo el rigor matemático y en una base de datos suficientemente grande como para dar validez estadística.
Investigadores del Centre de Recerca Matemàtica (CRM) -centro de la red CERCA de la Generalitat de Catalunya- adscritos al Departamento de Matemáticas de la Universidad Autónoma de Barcelona (UAB), han analizado por primera vez, con todo el rigor matemático y estadístico necesario, la validez de la ley de Zipf. Su estudio se enmarca dentro del proyecto "Investigación en Matemática Colaborativa", impulsado por la Obra Social "la Caixa".
Cómo se hizo
Para ello, los investigadores analizaron toda la colección de textos en lengua inglesa del proyecto Gutenberg, una base de datos pública y gratuita con más de 30.000 obras en esta lengua. Se trata de una tarea sin precedentes: en el ámbito de la lingüística. la ley nunca había sido comprobada en conjuntos de más de una docena de textos.
Según el análisis, si se ignoran las palabras más raras, aquellas que sólo salen una o dos veces en todo un libro, el 55% de los textos se ajustan perfectamente a la ley de Zipf (en su formulación más general). Si se tienen en cuenta todas las palabras, también las más raras, este porcentaje es del 40%.
"Es muy sorprendente que la frecuencia de aparición de las palabras esté determinada por una fórmula con un solo parámetro libre. La famosa campana de Gauss, por ejemplo, ya necesita dos, posición y anchura, para ajustarse a los datos reales" explica Álvaro Corral, investigador del CRM adscrito al Departamento de Matemáticas de la UAB y coordinador de la investigación. "Si descartásemos palabras que aparecen 3, 4 ó 5 veces en toda una obra, la proporción de libros que siguen la ley de Zipf podría llegar a porcentajes aún más altos".
La ley se puede aplicar en muchos otros campos, no sólo en la literatura, y se ha comprobado con más o menos rigor en grandes cantidades de datos, pero hasta ahora ha carecido de una comprobación con todo el rigor matemático y en una base de datos suficientemente grande como para dar validez estadística.
Investigadores del Centre de Recerca Matemàtica (CRM) -centro de la red CERCA de la Generalitat de Catalunya- adscritos al Departamento de Matemáticas de la Universidad Autónoma de Barcelona (UAB), han analizado por primera vez, con todo el rigor matemático y estadístico necesario, la validez de la ley de Zipf. Su estudio se enmarca dentro del proyecto "Investigación en Matemática Colaborativa", impulsado por la Obra Social "la Caixa".
Cómo se hizo
Para ello, los investigadores analizaron toda la colección de textos en lengua inglesa del proyecto Gutenberg, una base de datos pública y gratuita con más de 30.000 obras en esta lengua. Se trata de una tarea sin precedentes: en el ámbito de la lingüística. la ley nunca había sido comprobada en conjuntos de más de una docena de textos.
Según el análisis, si se ignoran las palabras más raras, aquellas que sólo salen una o dos veces en todo un libro, el 55% de los textos se ajustan perfectamente a la ley de Zipf (en su formulación más general). Si se tienen en cuenta todas las palabras, también las más raras, este porcentaje es del 40%.
"Es muy sorprendente que la frecuencia de aparición de las palabras esté determinada por una fórmula con un solo parámetro libre. La famosa campana de Gauss, por ejemplo, ya necesita dos, posición y anchura, para ajustarse a los datos reales" explica Álvaro Corral, investigador del CRM adscrito al Departamento de Matemáticas de la UAB y coordinador de la investigación. "Si descartásemos palabras que aparecen 3, 4 ó 5 veces en toda una obra, la proporción de libros que siguen la ley de Zipf podría llegar a porcentajes aún más altos".
¿Libertad creadora?
En términos matemáticos, la ley afirma que si se ordenan todas las palabras por frecuencia de uso, la segunda más frecuente aparece ½ veces el número de veces que aparece la más frecuente; la tercera, 1/3 veces y, en general, la que ocupa la posición n aparece 1/n veces la más frecuente.
En realidad, la formulación más general de la ley incluye un exponente “a”, de modo que la relación es 1/na. Aunque complica un poco la fórmula, la frecuencia se ajusta muchísimo para valores de "a" muy cercanos a 1 (es decir, como si no se hubiera añadido ningún exponente). Y todavía hay otras formulaciones matemáticamente más complejas de la ley, pero todas con un solo parámetro libre.
Los investigadores han estudiado la validez de las tres formulaciones más utilizadas de la ley de Zipf en todos los textos en lengua inglesa (31.075 libros) de la base de datos del Proyecto Gutenberg, y han observado que una de estas formulaciones ajusta, con resultados estadísticamente significativos (p>0,05), la frecuencia de aparición de todas las palabras de más del 40% de los libros de la colección, unos textos que contienen entre 100 y más de un millón de palabras.
"La ley de Zipf ha generado mucho debate, pero siempre basándose en su validez en algunos ejemplos particulares" afirma Álvaro Corral. "Parece evidente que, en la actual era del Big Data y de las computadoras de altas prestaciones, se deberá enfocar los esfuerzos en el análisis de la ley a gran escala, y estos resultados son un primer paso en esta dirección".
"Aunque la literatura se considera una de las expresiones por antonomasia de la libertad creadora, ni los más grandes autores como Shakespeare o Dickens escapan a la tiranía de la ley de Zipf", concluye Corral.
Hallazgo matemático del meta-libro
En 2009, un grupo de investigadores del Departamento de Física de la Universidad de Umeå (Suecia) analizó las obras de Thomas Hardy (autor de Jude el oscuro), D. H. Lawrence (El amante de Lady Chatterley) y Herman Melville (Moby-Dick) para desarrollar una formula estadística que permitiese encontrar las huellas literarias que los distinguen.
Utilizando la ley de Zipf hallaron que la aparición de nuevas palabras en los textos de estos tres autores decrecía a medida que sus libros eran más largos, y a pesar de que describieran nuevos escenarios o hubiera giros en el argumento. Además, descubrieron que la disminución de la tasa de palabras únicas variaba entre los diferentes autores, y lo que era más significativo, esto sucedía en las obras completas de cualquiera de los tres.
Dedujeron entonces, gracias a este estudio, que existe un meta-libro, un código para cada autor que podría representar toda su obra, completa o que tuviera en mente. "El concepto de meta-libro implica que la escritura de un texto puede considerarse como un proceso donde el autor extrae un fragmento de texto de un gran libro madre (el meta-libro) y lo pone en el papel", escribieron.
Este meta-libro sería un infinito libro imaginario que representaría las frecuencias de las palabras de todo lo que un determinado escritor podría pensar jamás en escribir.
La ley de Zipf, aplicada a otros campos, ha permitido descubrir también, por ejemplo, que existe un paralelismo notable entre la manera en que los humanos levantan sus ciudades y la manera en que se formaron las galaxias en el universo primitivo o que el misterioso manuscrito Voynich fue redactado en un lenguaje concreto, basado en alguna lengua natural.
En términos matemáticos, la ley afirma que si se ordenan todas las palabras por frecuencia de uso, la segunda más frecuente aparece ½ veces el número de veces que aparece la más frecuente; la tercera, 1/3 veces y, en general, la que ocupa la posición n aparece 1/n veces la más frecuente.
En realidad, la formulación más general de la ley incluye un exponente “a”, de modo que la relación es 1/na. Aunque complica un poco la fórmula, la frecuencia se ajusta muchísimo para valores de "a" muy cercanos a 1 (es decir, como si no se hubiera añadido ningún exponente). Y todavía hay otras formulaciones matemáticamente más complejas de la ley, pero todas con un solo parámetro libre.
Los investigadores han estudiado la validez de las tres formulaciones más utilizadas de la ley de Zipf en todos los textos en lengua inglesa (31.075 libros) de la base de datos del Proyecto Gutenberg, y han observado que una de estas formulaciones ajusta, con resultados estadísticamente significativos (p>0,05), la frecuencia de aparición de todas las palabras de más del 40% de los libros de la colección, unos textos que contienen entre 100 y más de un millón de palabras.
"La ley de Zipf ha generado mucho debate, pero siempre basándose en su validez en algunos ejemplos particulares" afirma Álvaro Corral. "Parece evidente que, en la actual era del Big Data y de las computadoras de altas prestaciones, se deberá enfocar los esfuerzos en el análisis de la ley a gran escala, y estos resultados son un primer paso en esta dirección".
"Aunque la literatura se considera una de las expresiones por antonomasia de la libertad creadora, ni los más grandes autores como Shakespeare o Dickens escapan a la tiranía de la ley de Zipf", concluye Corral.
Hallazgo matemático del meta-libro
En 2009, un grupo de investigadores del Departamento de Física de la Universidad de Umeå (Suecia) analizó las obras de Thomas Hardy (autor de Jude el oscuro), D. H. Lawrence (El amante de Lady Chatterley) y Herman Melville (Moby-Dick) para desarrollar una formula estadística que permitiese encontrar las huellas literarias que los distinguen.
Utilizando la ley de Zipf hallaron que la aparición de nuevas palabras en los textos de estos tres autores decrecía a medida que sus libros eran más largos, y a pesar de que describieran nuevos escenarios o hubiera giros en el argumento. Además, descubrieron que la disminución de la tasa de palabras únicas variaba entre los diferentes autores, y lo que era más significativo, esto sucedía en las obras completas de cualquiera de los tres.
Dedujeron entonces, gracias a este estudio, que existe un meta-libro, un código para cada autor que podría representar toda su obra, completa o que tuviera en mente. "El concepto de meta-libro implica que la escritura de un texto puede considerarse como un proceso donde el autor extrae un fragmento de texto de un gran libro madre (el meta-libro) y lo pone en el papel", escribieron.
Este meta-libro sería un infinito libro imaginario que representaría las frecuencias de las palabras de todo lo que un determinado escritor podría pensar jamás en escribir.
La ley de Zipf, aplicada a otros campos, ha permitido descubrir también, por ejemplo, que existe un paralelismo notable entre la manera en que los humanos levantan sus ciudades y la manera en que se formaron las galaxias en el universo primitivo o que el misterioso manuscrito Voynich fue redactado en un lenguaje concreto, basado en alguna lengua natural.