El software sintetiza la información semántica en una nube de palabras. Fuente: Virginia Tech
En la era de la Comunicación 2.0. cualquier usuario pasa a convertirse en crítico e incluso en un miembro más del equipo de marketing de una empresa con sólo registrar su opinión al respecto. Ante tal amalgama de comentarios, ¿cómo puede el lector discernir lo bueno de lo malo?
Un equipo de estudiantes de Informática del Instituto Politécnico y Universidad Estatal de Virginia (Virginia Tech), en Estados Unidos, dirigidos por los profesores Christopher North y Naren Ramakrishnan, ha dado respuesta a esta pregunta, ganando además un concurso con ello. Entre los finalistas quedaron además equipos de la Universidad Carnegie Mellon, Stanford y la Universidad de California en Berkeley.
Según explica la universidad en un comunicado, se trata de una competición patrocinada por Yelp, el conocido portal web que permite a usuarios de las principales ciudades del mundo recomendar y dejar comentarios acerca de todo tipo de negocios y servicios, desde hoteles a talleres mecánicos pasando por clínicas dentales. La aplicación permite filtrar la búsqueda por tipo de actividad, pero los comentarios adjuntos con cada listado pueden alcanzar los cientos o incluso miles.
“El uso de los comentarios generados por los usuarios se han convertido en material de referencia fundamental en la toma de decisiones en relación a restaurantes, tiendas y lugares de entretenimiento”, asegura Ji Wang, uno de los autores del estudio. “Sin embargo, el gran número de opiniones hace que el proceso de lectura conlleve mucho tiempo”, añade.
Por tanto, Wang y sus compañeros decidieron buscar un método más adecuado para resumir texto a través de la minería de datos o la recuperación de palabras clave. El objetivo era ayudar a predecir la calificación final de una crítica completa con todos sus comentarios pero en una sola lectura.
Un equipo de estudiantes de Informática del Instituto Politécnico y Universidad Estatal de Virginia (Virginia Tech), en Estados Unidos, dirigidos por los profesores Christopher North y Naren Ramakrishnan, ha dado respuesta a esta pregunta, ganando además un concurso con ello. Entre los finalistas quedaron además equipos de la Universidad Carnegie Mellon, Stanford y la Universidad de California en Berkeley.
Según explica la universidad en un comunicado, se trata de una competición patrocinada por Yelp, el conocido portal web que permite a usuarios de las principales ciudades del mundo recomendar y dejar comentarios acerca de todo tipo de negocios y servicios, desde hoteles a talleres mecánicos pasando por clínicas dentales. La aplicación permite filtrar la búsqueda por tipo de actividad, pero los comentarios adjuntos con cada listado pueden alcanzar los cientos o incluso miles.
“El uso de los comentarios generados por los usuarios se han convertido en material de referencia fundamental en la toma de decisiones en relación a restaurantes, tiendas y lugares de entretenimiento”, asegura Ji Wang, uno de los autores del estudio. “Sin embargo, el gran número de opiniones hace que el proceso de lectura conlleve mucho tiempo”, añade.
Por tanto, Wang y sus compañeros decidieron buscar un método más adecuado para resumir texto a través de la minería de datos o la recuperación de palabras clave. El objetivo era ayudar a predecir la calificación final de una crítica completa con todos sus comentarios pero en una sola lectura.
Ejemplo de cómo todas las palabras de un comentario podrían reducirse a tres. Fuente: Virginia Tech
Nubes de palabras
Los resultados de búsqueda de Yelp, empresa fundada en San Francisco en 2004, se basan en un algoritmo diseñado para proporcionar los mejores resultados de acuerdo con varios factores, entre ellos el texto del comentario, las valoraciones y el número de opiniones registradas. Sin embargo, los “yelpers”, como se denomina a la comunidad de esta guía online, superan los 47 millones de reseñas ricas en contenido e información, lo que dificulta la búsqueda de aquel contenido más relevante.
La solución del equipo de Virginia Tech pasa por crear un programa informático que permite agrupar tipos específicos de palabras para resumir las opiniones de productos. La herramienta analiza las palabras contenidas en cada comentario de un negocio por parte de un cliente para crear relaciones de texto que permitan al resto de usuarios obtener una información más clara y pertinente.
Si por ejemplo uno de estos críticos habla largo y tendido sobre su experiencia en un restaurante, el software utiliza relaciones gramaticales como el sujeto y el verbo de una oración, y la relación entre palabras para dar forma a una gráfica que sintetiza la opinión. De esta forma, todas las palabras de su comentario podrían reducirse a tres: La-Baguettes, sándwiches, lo mejor; eliminando así otras como mostaza, variedad, cebolla, amigos o experiencia, que pueden resultar superfluas para el usuario que utiliza la herramienta para asesorarse en su elección.
El siguiente paso fue integrar la información semántica contenida en un gráfico gramatical en una nube de palabras. “Nuestra nube está diseñada para proporcionar una visión más clara sobre las opiniones generadas por los usuarios, creando para ello asociaciones basadas en la información semántica”, matiza Wang.
Las nubes de palabras, también llamadas nubes de etiquetas, son herramientas de visualización de texto muy populares, en las que el tamaño de fuente varía generalmente en función de la frecuencia, popularidad o importancia de cada una. En este caso, según explica el investigador chino, la nube “incrusta información semántica en forma de racimos de palabras para presentar el contenido de los comentarios”.
Los resultados de búsqueda de Yelp, empresa fundada en San Francisco en 2004, se basan en un algoritmo diseñado para proporcionar los mejores resultados de acuerdo con varios factores, entre ellos el texto del comentario, las valoraciones y el número de opiniones registradas. Sin embargo, los “yelpers”, como se denomina a la comunidad de esta guía online, superan los 47 millones de reseñas ricas en contenido e información, lo que dificulta la búsqueda de aquel contenido más relevante.
La solución del equipo de Virginia Tech pasa por crear un programa informático que permite agrupar tipos específicos de palabras para resumir las opiniones de productos. La herramienta analiza las palabras contenidas en cada comentario de un negocio por parte de un cliente para crear relaciones de texto que permitan al resto de usuarios obtener una información más clara y pertinente.
Si por ejemplo uno de estos críticos habla largo y tendido sobre su experiencia en un restaurante, el software utiliza relaciones gramaticales como el sujeto y el verbo de una oración, y la relación entre palabras para dar forma a una gráfica que sintetiza la opinión. De esta forma, todas las palabras de su comentario podrían reducirse a tres: La-Baguettes, sándwiches, lo mejor; eliminando así otras como mostaza, variedad, cebolla, amigos o experiencia, que pueden resultar superfluas para el usuario que utiliza la herramienta para asesorarse en su elección.
El siguiente paso fue integrar la información semántica contenida en un gráfico gramatical en una nube de palabras. “Nuestra nube está diseñada para proporcionar una visión más clara sobre las opiniones generadas por los usuarios, creando para ello asociaciones basadas en la información semántica”, matiza Wang.
Las nubes de palabras, también llamadas nubes de etiquetas, son herramientas de visualización de texto muy populares, en las que el tamaño de fuente varía generalmente en función de la frecuencia, popularidad o importancia de cada una. En este caso, según explica el investigador chino, la nube “incrusta información semántica en forma de racimos de palabras para presentar el contenido de los comentarios”.
Retos
North cree que el trabajo de sus alumnos representa el primer intento de utilizar comentarios reales para crear una nube de palabras. En ellos se podrá leer lo bueno, lo malo y lo que hay en medio de cualquier producto o servicio valorado en Yelp, pero de una forma atractiva y sencilla visualmente.
Pero la aplicación de esta herramienta no queda ahí. “En el futuro pretendemos añadir más información a la nube de palabras, como una serie temporal de los comentarios sobre restaurantes y algún análisis emocional de las críticas contenidas. También aplicaremos una técnica de procesamiento de lenguaje natural más avanzada para revisar los datos contenidos, y habilitaremos una función de búsqueda para encontrar palabras de forma más sencilla dentro de la nube de etiquetas", explica Wang en su estudio.
El equipo también espera añadir más interacciones a su técnica. De esta forma, el usuario podría modificar los resultados del procesamiento del lenguaje natural, los resultados de visualización e incluso los datos en bruto para adaptarse a sus necesidades. “Las reacciones de los usuarios conducirán al algoritmo a crear nubes de palabras más personalizadas”, vaticina el investigador.
North cree que el trabajo de sus alumnos representa el primer intento de utilizar comentarios reales para crear una nube de palabras. En ellos se podrá leer lo bueno, lo malo y lo que hay en medio de cualquier producto o servicio valorado en Yelp, pero de una forma atractiva y sencilla visualmente.
Pero la aplicación de esta herramienta no queda ahí. “En el futuro pretendemos añadir más información a la nube de palabras, como una serie temporal de los comentarios sobre restaurantes y algún análisis emocional de las críticas contenidas. También aplicaremos una técnica de procesamiento de lenguaje natural más avanzada para revisar los datos contenidos, y habilitaremos una función de búsqueda para encontrar palabras de forma más sencilla dentro de la nube de etiquetas", explica Wang en su estudio.
El equipo también espera añadir más interacciones a su técnica. De esta forma, el usuario podría modificar los resultados del procesamiento del lenguaje natural, los resultados de visualización e incluso los datos en bruto para adaptarse a sus necesidades. “Las reacciones de los usuarios conducirán al algoritmo a crear nubes de palabras más personalizadas”, vaticina el investigador.