Bases de Datos Vectoriales y Recuperación Aumentada (RAG) con LLMs

Descripción del curso

Las bases de datos vectoriales son una pieza clave en el desarrollo de soluciones basadas en modelos de lenguaje (LLMs), ya que permiten realizar búsquedas semánticas eficientes sobre representaciones vectorizadas de texto, imágenes o código. Estas tecnologías son fundamentales para arquitecturas de recuperación aumentada (RAG), donde los modelos acceden a datos externos para generar respuestas más precisas y contextualizadas. Este curso ofrece una formación integral en las principales bases vectoriales del mercado (Pinecone, FAISS, pgvector, MongoDB, Elasticsearch) y su integración con LLMs para construir soluciones RAG reales.

Objetivos

Comprender los fundamentos de las bases de datos vectoriales y su papel en la IA moderna.
Generar representaciones vectoriales (embeddings) de texto utilizando APIs y modelos preentrenados.
Implementar consultas semánticas y búsquedas de similitud en bases de datos vectoriales.
Diseñar e implementar una arquitectura RAG que conecte un LLM con una fuente de conocimiento.
Integrar LLMs con bases vectoriales (como FAISS, Chroma, Pinecone o pgvector) mediante LangChain o LlamaIndex.
Evaluar el rendimiento, relevancia y coste de un sistema de recuperación aumentada.
Desplegar un prototipo funcional de asistente inteligente con memoria y conocimiento propio.

Metodología

Formación 100% práctica, basada en la construcción progresiva de un proyecto real de RAG.
Cada módulo incluye laboratorios con código Python, ejecución en entornos como Google Colab o VS Code, e integración con APIs de OpenAI, Hugging Face o Azure OpenAI.
El enfoque combina teoría aplicada y ejercicios de implementación guiados paso a paso.

Temario

1. Introducción a las bases de datos vectoriales y RAG

Concepto de embedding vectorial

Qué es la Recuperación Aumentada con Generación (RAG)

Ventajas frente al uso directo de LLMs

Casos de uso reales: chatbots empresariales, asistentes documentales, análisis de conocimiento

2. Representación vectorial y embeddings

Qué son los embeddings y cómo se generan

Espacios vectoriales y medidas de similitud (cosine, dot product, Euclidean)

Generación de embeddings con OpenAI, Hugging Face y SentenceTransformers

Ejemplo práctico: transformar documentos a vectores

3. Introducción a las bases de datos vectoriales

Concepto, arquitectura y funcionamiento

Tipos: FAISS, ChromaDB, Milvus, Pinecone, Weaviate, pgvector

Indexación y búsqueda eficiente de vectores

Ejercicio: creación de un índice FAISS y consulta semántica

4. Fundamentos de la arquitectura RAG

Flujo general de un sistema RAG

Componentes: indexador, retriever, generator

Conexión entre base vectorial y modelo generativo

Ejemplo práctico: RAG simple con LangChain

5. Implementación práctica con LangChain o LlamaIndex

Carga y fragmentación de documentos (chunking)

Construcción de pipelines de recuperación

Integración con modelos GPT / Azure OpenAI / Hugging Face

Ejercicio: asistente que responde preguntas sobre un corpus documental

6. Optimización, evaluación y escalabilidad

Evaluación de la relevancia y precisión de las respuestas

Estrategias de retrieval tuning

Uso de caches, pipelines paralelos y bases distribuidas

Buenas prácticas para despliegue productivo

Bases de Datos Vectoriales y Recuperación Aumentada (RAG) con LLMs

Descripción del curso

Objetivos

Metodología

Detalles del Curso

Requisitos

Temario

1. Introducción a las bases de datos vectoriales y RAG

2. Representación vectorial y embeddings

3. Introducción a las bases de datos vectoriales

4. Fundamentos de la arquitectura RAG

5. Implementación práctica con LangChain o LlamaIndex

6. Optimización, evaluación y escalabilidad

Alumnado