GraphRAG 2.0 mejora los resultados de búsqueda con IA

  • Autor Autor Cristoff Manuel
  • Fecha de inicio Fecha de inicio
C

Cristoff Manuel

Invitado
GraphRAG 2.0 Improves AI Search Results


Microsoft anunció una actualización de GraphRAG que mejora la capacidad de los motores de búsqueda de IA para proporcionar respuestas específicas y completas utilizando menos recursos. Esta actualización acelera el procesamiento de LLM y aumenta la precisión.

Microsoft no le da a la versión actualizada de GraphRAG un número de versión como 2.0, pero la actualización es tan importante que resulta útil referirse a ella como 2.0 para distinguirla del GraphRAG original.

La diferencia entre RAG y GraphRAG
RAG (Retrieval Augmented Generation) combina un modelo de lenguaje grande (LLM) con un índice de búsqueda (o base de datos) para generar respuestas a las consultas de búsqueda. El índice de búsqueda fundamenta el modelo de lenguaje con datos nuevos y relevantes. Esto reduce la posibilidad de que el motor de búsqueda de IA proporcione respuestas obsoletas o alucinadas.

GraphRAG mejora RAG al utilizar un gráfico de conocimiento creado a partir de un índice de búsqueda para luego generar resúmenes denominados informes de la comunidad.

GraphRAG utiliza un proceso de dos pasos:
Paso 1: motor de indexación
El motor de indexación segmenta el índice de búsqueda en comunidades temáticas formadas en torno a temas relacionados. Estas comunidades están conectadas por entidades (por ejemplo, personas, lugares o conceptos) y las relaciones entre ellas, formando un gráfico de conocimiento jerárquico. Luego, el LLM crea un resumen para cada comunidad, denominado Informe de la comunidad. Este es el gráfico de conocimiento jerárquico que crea GraphRAG, donde cada nivel de la estructura jerárquica representa un resumen.

Existe la idea errónea de que GraphRAG utiliza gráficos de conocimiento. Si bien esto es parcialmente cierto, omite la parte más importante: GraphRAG crea gráficos de conocimiento a partir de datos no estructurados, como páginas web, en el paso del motor de indexación. Este proceso de transformación de datos sin procesar en conocimiento estructurado es lo que diferencia a GraphRAG de RAG, que se basa en recuperar y resumir información sin crear un gráfico jerárquico.

Paso 2: Paso de consulta
En el segundo paso, GraphRAG utiliza el gráfico de conocimiento que creó para proporcionar contexto al LLM de modo que pueda responder una pregunta con mayor precisión.

Microsoft explica que Retrieval Augmented Generation (RAG) tiene dificultades para recuperar información basada en un tema porque solo analiza las relaciones semánticas.

GraphRAG supera a RAG al transformar primero todos los documentos en su índice de búsqueda en un gráfico de conocimiento que organiza jerárquicamente los temas y subtemas (temas) en capas cada vez más específicas. Mientras que RAG se basa en relaciones semánticas para encontrar respuestas, GraphRAG utiliza similitud temática, lo que le permite localizar respuestas incluso cuando no hay palabras clave semánticamente relacionadas en el documento.

Así lo explica el anuncio original de GraphRAG:

“Baseline RAG tiene problemas con las consultas que requieren la agregación de información en todo el conjunto de datos para componer una respuesta. Las consultas como “¿Cuáles son los 5 temas principales en los datos?” funcionan terriblemente mal porque Baseline RAG se basa en una búsqueda vectorial de contenido de texto semánticamente similar dentro del conjunto de datos. No hay nada en la consulta que la dirija a la información correcta.

Sin embargo, con GraphRAG podemos responder a estas preguntas, porque la estructura del gráfico de conocimiento generado por LLM nos informa sobre la estructura (y, por lo tanto, los temas) del conjunto de datos en su totalidad. Esto permite que el conjunto de datos privado se organice en grupos semánticos significativos que se resumen previamente. LLM usa estos grupos para resumir estos temas al responder a una consulta de usuario”.

Actualización de GraphRAG
Para resumir, GraphRAG crea un gráfico de conocimiento a partir del índice de búsqueda. Una “comunidad” se refiere a un grupo de segmentos o documentos relacionados agrupados en función de la similitud temática, y un “informe de la comunidad” es el resumen generado por el LLM para cada comunidad.
 
Atrás
Arriba Pie