Google entrena IA para escribir artículos

Google entrena IA para escribir artículos Inteligencia Artificial, Google noticias, inteligencia-artificial

Un equipo dentro de Google Brain, el laboratorio de investigación de aprendizaje de máquinas (IA) del gigante de la web, ha enseñado a un software generar artículos al estilo Wikipedia al resumir información en páginas web.

Como todos sabemos, Internet es una pila interminable de artículos, publicaciones en redes sociales, memes, alegría, odio y blogs. Es imposible leer y mantenerse al día con todo.

Un documento, publicado el mes pasado y recién aceptado para la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR) de este año en abril, describe cuán difícil es en realidad resumir el texto.

Algunas compañías lo han tenido. Salesforce formó una red neuronal recurrente con refuerzo aprendiendo a tomar información y volver a contarla en pocas palabras, y los resultados no fueron malos.

Sin embargo, las oraciones generadas por computadora son simples y cortas; carecían del estilo creativo y el ritmo del texto escrito por humanos. El último esfuerzo de Google Brain es ligeramente mejor: las oraciones son más largas y parecen más naturales.

El modelo de IA funciona tomando las diez mejores páginas web de un tema determinado, excluyendo la entrada de Wikipedia, o raspando información de los enlaces en la sección de referencias de un artículo de Wikipedia. La mayoría de las páginas seleccionadas se utilizan para capacitación, y algunas se guardan para desarrollar y probar el sistema.

Los párrafos de cada página se clasifican y el texto de todas las páginas se agrega para crear un documento largo. El texto está codificado y acortado, dividiéndolo en 32,000 palabras individuales y utilizado como entrada.

Esto se alimenta en un modelo abstracto, donde las oraciones largas en la entrada se acortan. Es un truco ingenioso utilizado para crear y resumir texto. Las oraciones generadas se toman de la fase de extracción anterior y no se construyen desde cero, lo que explica por qué la estructura es bastante repetitiva y rígida.

Mohammad Saleh, coautor del artículo y un ingeniero de software en el equipo de Google IA, dijo: “La fase de extracción es un cuello de botella que determina qué partes de la entrada serán alimentadas a la etapa de abstracción. Idealmente, nos gustaría pasar toda la información de los documentos de referencia. Diseñar modelos y hardware que puedan admitir secuencias de entrada más largas es actualmente un área activa de investigación que puede aliviar estas limitaciones“.

Todavía estamos muy lejos de la generación o resumen de texto efectivo. Y aunque el proyecto Google Brain es bastante interesante, probablemente sería imprudente usar un sistema como este para generar automáticamente entradas de Wikipedia.

Además, dado que depende de la popularidad de los primeros diez sitios web en Internet para cualquier tema en particular, si esos sitios no son particularmente creíbles, la obra resultante probablemente tampoco sea muy precisa.