Fuerte impulso a la Wikipedia semántica en español

La versión española de DBpedia pasa de tener sólo cuatro tipos de infoboxes transformados a más de 100, y de 20.000 páginas transformadas, a más de 400.000


DBpedia es un proyecto para la extracción de datos de Wikipedia y la construcción de una versión semántica de esta enciclopedia de Internet. Es un esfuerzo de la comunidad por extraer información estructurada de Wikipedia y por hacerla accesible desde la Web. En ese marco, los pasados 3 y 4 de noviembre, la Red Temática Española de Linked Data celebró en Madrid unas jornadas de creación de descripciones de correspondencias de datos de la Wikipedia en español, para permitir la generación de datos en la versión española de DBpedia. El resultado ha sido todo un éxito, ya que ha supuesto un aumento increíble de la información disponible en la versión española de DBpedia: de cuatro tipos de infoboxes transformados se ha pasado a más de 100, y de 20.000 páginas transformadas se ha llegado a las 400.000.


Redacción
15/11/2011

BDpedia. Fuente: Wikimedia Commons.
DBpedia es un proyecto para la extracción de datos de Wikipedia y la construcción de una versión semántica de esta enciclopedia de Internet. Es un esfuerzo de la comunidad por extraer información estructurada de Wikipedia y por hacerla accesible desde la Web. De ese modo, se consigue que el conocimiento recogido pueda ser aprovechado computacionalmente.

La DBpedia es una gran base de datos estructurada que se obtiene a partir de la información proporcionada por personas de todo el mundo en muchas de las páginas de Wikipedia, en lo que se denominan plantillas o infoboxes (cajas de información).

Estas infoboxes aparecen en un recuadro situado a la derecha de muchas de las páginas de Wikipedia. Por ejemplo, para la página en español correspondiente a la ciudad de Madrid, su infobox contiene la bandera, el escudo, algunas fotos de la Puerta de Alcalá, el Palacio Real, la Gran Vía, etc., e información sobre su población, alcalde, códigos postales, etc.

Esta información se genera mediante la ejecución de documentos de transformación, que permiten especificar cómo los datos del infobox se transforman al lenguaje RDF de acuerdo con vocabularios comúnmente utilizados por un gran número de organizaciones. El lenguaje RDF es un estándar del consorcio de la World Wide Web para la representación de datos en la Web, y es la base de la Web de Datos.

Reciente maratón

Los pasados 3 y 4 de noviembre, la Red Temática Española de Linked Data, que lidera Oscar Corcho, del Grupo de Ingeniería Ontológica de la Facultad de Informática de la Universidad Politécnica de Madrid (UPM), ha organizado unas jornadas de creación de descripciones de correspondencias de datos de la Wikipedia en español, para permitir la generación de datos en la versión española de DBpedia.

Según informa la UPM en un comunicado, las jornadas fueron además organizadas por Mariano Rico, responsable del idioma español en el comité de internacionalización de DBpedia.

Esta actividad forma parte de la "language race" mundial en la que se están creando versiones de DBpedia en diversos idiomas. En el evento participaron 15 personas de distintas instituciones públicas y privadas (Universidad Politécnica de Madrid, iSOCO, Universidad Autónoma de Madrid), así como personas interesadas a título particular.

El resultado ha sido todo un éxito, con un aumento increíble de la información disponible en la versión española de DBpedia, pasando de tener sólo cuatro tipos de infoboxes transformados a más de 100, y de 20.000 páginas transformadas a más de 400.000.

Los datos actualizados y la relación entre distintos idiomas, que se actualiza cada día, estan disponibles en Internet.

Avance de datos en español

El volumen de datos en español de la DBpedia ha avanzado nueve puestos (de 15), pasando de tener una representación muy pequeña a ser uno de los tres primeros idiomas en estos momentos, asumiendo así un puesto equivalente al que ocupa en la Wikipedia (en cuanto a número de entradas).

Gracias a este esfuerzo, toda la comunidad hispano-hablante se podrá beneficiar de esta gran base de datos en aplicaciones como las que se enuncian a continuación:

- Sem4Tags, herramienta que permite identificar a qué recurso de DBpedia se refiere una etiqueta realizada por un usuario en portales sociales como Flickr, Youtube, Facebook, etc.

- DBpedia Spotlight, en cuyo desarrollo también han participado miembros de la red, junto con miembros de la universidad FUB de Berlín, y cuya versión para el español está en preparación.

- Detección de temas en mensajes de Twitter

- Enseñanza en disciplinas científicas, donde los alumnos pueden obtener definiciones de esta base de datos para sus modelos sobre ecología, medio ambiente, etc.

Nuevos eventos

La red temática española de Linked Data continuará organizando en los próximos meses más actividades como ésta y otras similares por toda España.



Redacción
Artículo leído 4495 veces



Más contenidos