Científicos hindúes han desarrollado un algoritmo de aprendizaje profundo para ayudar a descifrar la escritura de la cultura del Valle del Indo, perteneciente a la Edad del Bronce, cuya lengua siegue siendo todavía un misterio.
La cultura del valle del Indo fue una civilización que se desarrolló desde c. 3300 a. C. hasta c. 1300 a. C. a lo largo del valle del Indo, en Afganistán, Pakistán y el noroeste de la India. Abarcaba cerca de un centenar de asentamientos y dos ciudades importantes: Harappa y Mohenjo-Daro, ambos en Pakistán.
Esta civilización se caracteriza por un alto grado de urbanización con sitios bien desarrollados y organizados siguiendo una planificación compleja, que integraba incluso la gestión de aguas residuales. Aunque fue descubierta en el siglo XIX, poco se sabe de esta civilización, particularmente porque los textos y símbolos de su cultura siguen siendo indescifrables.
Hasta ahora se han identificado 417 símbolos de esta lengua, pero no ha sido posible descifrar su significado porque todavía no se ha encontrado un texto bilingüe. En otros casos, un texto bilingüe ha ayudado a entender las escrituras antiguas, por ejemplo, la piedra de Rosetta.
Esta piedra es un fragmento de una antigua estela egipcia de granodiorita inscrita con un decreto publicado en Menfis en el año 196 a. C. en nombre del faraón Ptolomeo V. El decreto aparece en tres escrituras distintas: el texto superior en jeroglíficos egipcios, la parte intermedia en escritura demótica y la inferior en griego antiguo. Gracias a que presenta esencialmente el mismo contenido en las tres inscripciones, con diferencias menores entre ellas, esta piedra facilitó la clave para el entendimiento moderno de los jeroglíficos egipcios.
Sin embargo, debido a la ausencia de una "piedra de Rosetta" para la cultura de la civilización del Indo, su lengua sigue todavía sin poder ser interpretada.
La cultura del valle del Indo fue una civilización que se desarrolló desde c. 3300 a. C. hasta c. 1300 a. C. a lo largo del valle del Indo, en Afganistán, Pakistán y el noroeste de la India. Abarcaba cerca de un centenar de asentamientos y dos ciudades importantes: Harappa y Mohenjo-Daro, ambos en Pakistán.
Esta civilización se caracteriza por un alto grado de urbanización con sitios bien desarrollados y organizados siguiendo una planificación compleja, que integraba incluso la gestión de aguas residuales. Aunque fue descubierta en el siglo XIX, poco se sabe de esta civilización, particularmente porque los textos y símbolos de su cultura siguen siendo indescifrables.
Hasta ahora se han identificado 417 símbolos de esta lengua, pero no ha sido posible descifrar su significado porque todavía no se ha encontrado un texto bilingüe. En otros casos, un texto bilingüe ha ayudado a entender las escrituras antiguas, por ejemplo, la piedra de Rosetta.
Esta piedra es un fragmento de una antigua estela egipcia de granodiorita inscrita con un decreto publicado en Menfis en el año 196 a. C. en nombre del faraón Ptolomeo V. El decreto aparece en tres escrituras distintas: el texto superior en jeroglíficos egipcios, la parte intermedia en escritura demótica y la inferior en griego antiguo. Gracias a que presenta esencialmente el mismo contenido en las tres inscripciones, con diferencias menores entre ellas, esta piedra facilitó la clave para el entendimiento moderno de los jeroglíficos egipcios.
Sin embargo, debido a la ausencia de una "piedra de Rosetta" para la cultura de la civilización del Indo, su lengua sigue todavía sin poder ser interpretada.
Algoritmo de aprendizaje profundo
Ahora, científicos de Chennai, la capital de Tamil Nadu, Estado del sur de la India, han desarrollado un algoritmo que permitirá leer la escritura de esta civilización perdida a partir de sellos y cerámicas encontrados en registros arqueológicos.
Tal como informa el diario The Hindu, Se trata de un algoritmo de aprendizaje profundo que puede reconocer una imagen a partir de un objeto, así como la parte del objeto que contiene caracteres escritos. A continuación puede separarlos en grafemas individuales y después identificarlos a partir de un cuerpo de texto estándar. El clasificador puede identificar la presencia o ausencia del grafema Indo más frecuente, el signo "jar", con una precisión del 92%, según los investigadores.
Una grafema es la unidad de «mínima e indivisible» de una escritura. En lingüística el término corpus se utiliza para describir una gran colección de textos que, entre otras cosas, se utilizan para realizar análisis estadísticos de lenguas.
El algoritmo se basa en varios niveles de redes neuronales artificiales, que imitan el funcionamiento de las diferentes regiones del cerebro humano durante el proceso de lectura. Este proceso se desarrolla en tres fases.
En la primera, las partes de la imagen que contienen caracteres son cortadas y seleccionadas, para a continuación volver a ser troceadas hasta que cada una de ellas contenga un único grafema. A continuación, cada grafema es clasificado para buscar su correspondencia con uno de los 417 caracteres de la escritura de la civilización del Valle del Indo.
Esta operación permitirá crear de forma automática un corpus estandarizado de textos de la civilización del valle del Indo a partir del conjunto de objetos encontrados en excavaciones arqueológicas, tarea que sin el algoritmo supondría un esfuerzo humano considerable.
El corpus obtenido mediante este algoritmo representa un avance científico para esta investigación y podría terminar descifrando el misterio de la escritura del Valle del Indo.
Ahora, científicos de Chennai, la capital de Tamil Nadu, Estado del sur de la India, han desarrollado un algoritmo que permitirá leer la escritura de esta civilización perdida a partir de sellos y cerámicas encontrados en registros arqueológicos.
Tal como informa el diario The Hindu, Se trata de un algoritmo de aprendizaje profundo que puede reconocer una imagen a partir de un objeto, así como la parte del objeto que contiene caracteres escritos. A continuación puede separarlos en grafemas individuales y después identificarlos a partir de un cuerpo de texto estándar. El clasificador puede identificar la presencia o ausencia del grafema Indo más frecuente, el signo "jar", con una precisión del 92%, según los investigadores.
Una grafema es la unidad de «mínima e indivisible» de una escritura. En lingüística el término corpus se utiliza para describir una gran colección de textos que, entre otras cosas, se utilizan para realizar análisis estadísticos de lenguas.
El algoritmo se basa en varios niveles de redes neuronales artificiales, que imitan el funcionamiento de las diferentes regiones del cerebro humano durante el proceso de lectura. Este proceso se desarrolla en tres fases.
En la primera, las partes de la imagen que contienen caracteres son cortadas y seleccionadas, para a continuación volver a ser troceadas hasta que cada una de ellas contenga un único grafema. A continuación, cada grafema es clasificado para buscar su correspondencia con uno de los 417 caracteres de la escritura de la civilización del Valle del Indo.
Esta operación permitirá crear de forma automática un corpus estandarizado de textos de la civilización del valle del Indo a partir del conjunto de objetos encontrados en excavaciones arqueológicas, tarea que sin el algoritmo supondría un esfuerzo humano considerable.
El corpus obtenido mediante este algoritmo representa un avance científico para esta investigación y podría terminar descifrando el misterio de la escritura del Valle del Indo.
Referencia
Deep Learning the Indus Script. Satish Palaniappan, Ronojoy Adhikari. https://arxiv.org/abs/1702.00523
Deep Learning the Indus Script. Satish Palaniappan, Ronojoy Adhikari. https://arxiv.org/abs/1702.00523