11.- Taller: Cómo Extraer Texto de PDFs e Imágenes con n8n, OpenAI y OCR Mistral

Este taller detalla cómo extraer texto y datos de PDFs escaneados e imágenes usando la automatización de n8n y modelos de IA. Se introduce el concepto de bases de datos vectoriales para consultas más rápidas y económicas. Se compara el uso de OCR Mistral con el modelo GPT-4 de OpenAI, destacando que Mistral es ideal para grandes volúmenes debido a su bajo costo ($1/1000 páginas) y su capacidad para procesar PDFs, mientras que GPT-4 se enfoca en el análisis contextual de imágenes. El objetivo es crear flujos de trabajo que clasifiquen, interpreten y permitan consultar información de documentos complejos a través de plataformas como Telegram o Google Drive.

Angel Sánchez · 19 noviembre, 2025

El taller está enfocado en la extracción de información de archivos no estructurados, como PDFs escaneados e imágenes, utilizando una combinación de herramientas de automatización e inteligencia artificial. El objetivo principal es ir más allá de la simple lectura de texto plano y lograr que los sistemas puedan interpretar y consultar la información contenida en documentos complejos, como libros completos, reportes financieros trimestrales o, en un caso de uso específico, expedientes judiciales. Esto se logra mediante la implementación de tecnología de Reconocimiento Óptico de Caracteres (OCR) y modelos de lenguaje avanzado.

Una parte clave de la solución propuesta es la transformación de los documentos en vectores para un almacenamiento eficiente y una consulta inteligente. A diferencia de las bases de datos tradicionales, que almacenan la información completa y requieren consultar todo el contenido, el enfoque vectorial crea puntos en un “espacio” donde la información relacionada se agrupa espacialmente. Al hacer una consulta, el sistema la convierte en un vector y busca el vector más cercano en la base de datos, lo que permite a la IA encontrar la información precisa sin leer el documento entero. Esto no solo hace que la consulta sea más rápida, sino que también reduce el costo de tokens de la IA.

El taller se basa en la integración de tres componentes principales a través de la plataforma de automatización n8n. Se comparan dos herramientas de OCR: Mistral y el modelo de OpenAI (GPT-4). Se explica que OCR Mistral es ideal para el procesamiento de grandes volúmenes de documentos (hasta 2,000 páginas por minuto) a un costo muy bajo ($1 por cada 1,000 páginas), ya que extrae el texto y la estructura (títulos, tablas). En cambio, el modelo de OpenAI es más costoso y se enfoca en el análisis visual completo de la imagen y el texto en su contexto, aunque actualmente solo funciona con imágenes y tiene limitaciones en la ventana de contexto para documentos muy extensos.

Se exploran diversos casos de uso y métodos de entrada de documentos, como la recepción de archivos vía Telegram (simulando un bot de WhatsApp), la carga a través de un formulario o desde una carpeta de Google Drive. Se presenta un desafío práctico: automatizar la cotización de paneles solares requiriendo y validando las imágenes del anverso y reverso de un recibo. El taller busca construir un flujo de trabajo que no solo use OCR para leer el documento (con Mistral u otra herramienta), sino que también aplique la IA para extraer la información relevante, clasificarla (creando carpetas por número de caso o juicio) y luego permitir al usuario realizar consultas informativas.

Sobre el instructor

Angel Sánchez

Fundador de Azul Web y Azul School amante de la tecnología, me gusta compartir mis conocimientos y apoyar a las demás personas que desean tener un mejor desarrollo profesional. Toda persona que tenga un sueño y este luchando por él tiene mi respeto y mi apoyo.

25 Cursos

No está inscrito
Curso nuevo

Curso Includes

  • 3 Lecciones

Respuestas