El proyecto Celeste automatizará la observación del cielo

Imagen de DeCAM, la Cámara de Energía Oscura, obtenida con el Telescopio Blanco. Fuente: Sondeo Celeste de Energía Oscura.

Una colaboración de astrofísicos, estadísticos y científicos de la computación con sede en el Laboratorio Nacional de Berkeley (California, EE.UU.) está tratando de cambiar profundamente la manera de mirar al cielo con Celeste, un nuevo modelo de análisis estadístico.

Los sondeos del cielo se utilizan para cartografiar y catalogar regiones del cielo, alimentar estudios estadísticos de un gran número de objetos y permitir que objetos interesantes o raros puedan ser estudiados con mayor detalle. Pero las formas en que se analizan los conjuntos de imágenes de estas encuestas están anticuadas, según la información del Berkeley Lab.

"Hay enfoques muy tradicionales que se remontan a la placa fotográfica ", dice David Schlegel, astrofísico del laboratorio. "Mucha de la terminología se remonta a entonces: Por ejemplo, todavía hablamos acerca de tener un placa y de comparar placas, cuando obviamente, nos hemos movido más allá de eso".

El primer sondeo electrónico, el Sloan Digital Sky Survey (SDSS), no comenzó a capturar datos hasta 1998. Y si bien hoy en día existen múltiples sondeos e instrumentos de alta resolución operando 24 horas al día/7 días a la semana en todo el mundo y recolectando cientos de terabytes de imágenes cada año, la capacidad de los científicos para acceder y compartir fácilmente estos datos sigue siendo difícil.

Además, las prácticas de hace cien años o más siguen prácticandose, como la costumbre de acercarse a cada análisis de imágenes como si fuera la primera vez que se mira el cielo, o terminología anticuada como el sistema de magnitud) para medir el brillo de los objetos, y el sistema de numeración sexagesimal.

"El sistema de magnitud no es un sistema lineal, sino una etiqueta arbitraria que se remonta a miles de años. Pero si se coge cualquier artículo de astronomía, todos utilizan el sistema de magnitud".

Imágenes

Cuando se trata de analizar las imágenes de sondeos del cielo, Schlegel está seguro de que ciertos métodos existentes pueden mejorarse, sobre todo de cara a los complejos desafíos computacionales que se espera que surjan en sondeos de próxima generación, y en instrumentos de mayor resolución como el Gran Telescopio Sinóptico para Sondeos (LSST).

"La forma en que tratamos el análisis de datos en astronomía es a través de la reducción de datos", dice. "Se toma una imagen, se le aplica un algoritmo de detección, se toman algunas medidas y luego se hace un catálogo de los objetos de esa imagen. Luego se toma otra imagen de la misma parte del cielo y se dice: "Oh, voy a fingir que no sé lo que está pasando aquí, así que voy a empezar por identificar los objetos, luego tomaré mediciones de esos objetos y luego haré un catálogo de esos objetos". Y esto se hace de forma independiente para cada imagen, sin volver a la imagen original".

Un modelo jerárquico

Estos desafíos llevaron a Schlegel a formar equipo con el proyecto Mantissa, dirigido por Prabhat, del Centro Nacional de Computación Científica e Investigación en Energía (NERSC). "Para hacer frente a este gran reto, hemos participado investigadores de la Universidad de Berkeley, Harvard, Carnegie Mellon y de Adobe Research", dice Prabhat.

El equipo pasó el pasado año desarrollando Celeste, un modelo jerárquico diseñado para catalogar estrellas, galaxias y otras fuentes de luz en el universo visible por medio de la próxima generación de telescopios, explica Jeff Regier, estudiante de doctorado en el Departamento de Estadística de Berkeley, y autor principal de un artículo sobre Celeste.

El nuevo modelo también permitirá a los astrónomos definir galaxias que pueden querer explorar más y ayudar a entender mejor la energía oscura y la geometría del universo, agrega.

Celeste, explica Schlegel, "será un modelo mucho mejor para la identificación de las fuentes de luz del cielo y de los parámetros de calibración de cada telescopio. Vamos a ser capaces de definir matemáticamente, de forma muy diferente al enfoque tradicional".

Además, Celeste tiene el potencial de reducir significativamente el tiempo y el esfuerzo que los astrónomos pasan trabajando actualmente con datos de imágenes, subraya Schlegel. "Hace diez o 15 años, se obtenía una imagen del cielo y ni siquiera se sabía exactamente a dónde señalaba. Así que había que hacer clic en cada estrella y tratar de identificarlas para averiguar exactamente dónde estabas. Y eso se hacía a mano para cada imagen".

Estadísticas aplicadas

Celeste utiliza técnicas analíticas comunes en el aprendizaje automático y en estadística aplicada, pero no tanto en la astronomía aplicada. El modelo está en un código llamado Tractor, desarrollado por Dustin Lang, cuando era becario posdoctoral en la Universidad de Princeton (Nueva Jersey).

"La mayoría de los métodos de análisis de imágenes astronómicas miran un montón de píxeles y ejecutan un algoritmo simple que básicamente hace aritmética con los valores de los píxeles", dice Lang, ahora en la Universidad de Toronto (Canadá) y miembro del equipo de Celeste. "Pero con Tractor, en lugar de ejecutar recetas bastante simples en cada píxel, creamos un modelo completo, descriptivo, que podemos comparar con las imágenes reales y luego ajustar para que coincida con las observaciones. Hace previsiones más concretas sobre cómo se verán los objetos".

El proyecto Celeste lleva este concepto un poco más allá, aplicando inferencia estadística para construir un modelo que localiza y caracteriza las fuentes de luz del cielo matemáticamente. Los modelos estadísticos suelen comenzar a partir de los datos y miran hacia atrás para determinar lo que llevó a esos datos, explica Jon McAuliffe, profesor de estadística en la Universidad de Berkeley y otro miembro del equipo Celeste. Pero en astronomía, el análisis de los datos de imagen típicamente comienza con lo que no se conoce: la ubicación y características de los objetos en el cielo.

"En la ciencia lo que hacemos mucho es tomar algo que es difícil y tratar de descomponerlo en partes más simples y luego poner las piezas de nuevo juntas", dice McAuliffe. "Eso es lo que está pasando en el modelo jerárquico. El truco es que hay unas cantidades asumidas o imaginadas y tenemos que razonar sobre ellas a pesar de que no hemos llegado a observarlas. Aquí es donde entra en juego la inferencia estadística. Nuestro trabajo es partir de las intensidades de los píxeles en las imágenes y trabajar hacia atrás, hasta dónde estaban las fuentes de luz y cuáles eran sus características".

Hasta ahora el grupo ha utilizado Celeste para analizar imágenes del sondeo SDSS en el superordenador Edison, dice McAuliffe. Estas pruebas iniciales han ayudado a refinar y mejorar el modelo y validar su capacidad para superar el rendimiento de los métodos actuales para la localización de los cuerpos celestes y la medición de sus colores.

"El objetivo final es tomar todos los datos fotométricos generados hasta ahora y generar más datos de forma permanente en una sola aplicación informática", explica.

El primer hito importante será ejecutar un análisis de todo el conjunto de datos de SDSS, todos a la vez. Los investigadores luego empezarán a añadir otros conjuntos de datos y comenzarán a construir el catálogo. En total, el equipo de Celeste espera que el catálogo recoja y procese unos 500 terabytes de datos, o alrededor de 1 billón de píxeles.

La próxima versión de Celeste incluirá cuásares, que tienen una firma espectral distinta que los hace más difíciles de distinguir de otras fuentes de luz. El modelado de los cuásares es importante para mejorar nuestra comprensión del universo temprano, pero presenta un gran reto: los objetos más importantes son los que están lejos, pero los objetos distantes son aquellos para los cuales tenemos la señal más débil.

Andrew Miller, de la Universidad de Harvard, está trabajando actualmente en este añadido al modelo, que acopla mediciones espectrales de alta fidelidad con datos de sondeos para mejorar nuestras estimaciones de los cuásares lejanos.

"Puede ser un poco sorprendente que hasta ahora la comunidad astronómica mundial no haya construido un catálogo de referencia único de todas las fuentes de luz que están siendo fotografiadas por muchos, muchos telescopios diferentes en todo el mundo en los últimos 15 años", dice McAuliffe. "Pero creemos que podemos ayudar con eso. Éste va a ser un catálogo muy valioso para los astrónomos y cosmólogos en el futuro".

Referencia bibliográfica:

Jeffrey Regier et al.: Celeste: Variational inference for a generative model of astronomical images. 32nd International Conference on Machine Learning.