Tutorial · ocr
Cómo extraer texto de un PDF escaneado (OCR)
¿Recibiste un documento escaneado y no puedes copiar nada del contenido? OCR lo resuelve. Conviértelo a PDF buscable o texto plano en segundos.
Recibes un contrato escaneado e intentas seleccionar una cláusula para pegarla en un email — no pasa nada. El cursor pasa por encima del texto sin reaccionar. Eso es porque el "texto" del PDF es en realidad una imagen fotografiada de una hoja. Para cualquier programa, es como si hubieras seleccionado un JPG.
OCR (Optical Character Recognition) es la tecnología que hace que la máquina "lea" esas imágenes y las convierta en texto de verdad. El resultado: un documento que puedes buscar con Ctrl+F, copiar fragmentos, editar en Word, indexar en búsqueda, o alimentar a un LLM.
Cómo saber si un PDF está escaneado
Test rápido en 3 segundos: abre el PDF e intenta seleccionar una palabra con el mouse. Si la selecciona limpiamente (palabra por palabra resaltada en azul), el PDF tiene texto real y no necesita OCR. Si solo logras dibujar un rectángulo encima, es imagen — necesita OCR.
Otra señal: prueba Ctrl+F y busca una palabra que SABES que está en el documento. Si no la encuentra, es porque el contenido es imagen.
Cuándo OCR es la mejor solución
- Contratos antiguos digitalizados — para extraer cláusulas, fechas, valores
- Facturas escaneadas — para alimentar planillas de gastos
- Libros y artículos científicos — para citar fragmentos, traducir
- Documentos de RRHH — DNIs, comprobantes, recibos para registros
- Historia médica — para digitalizar historias clínicas antiguas
- Investigación de campo — formularios llenados a mano (parcialmente)
Paso a paso: extraer texto con OCR
1. Selecciona el archivo escaneado
Funciona con PDF, JPG, PNG y TIFF. Puedes subir documentos de varias páginas — el OCR procesa todo de una vez y mantiene el orden.
2. Elige el idioma del contenido
Soportamos español, inglés y portugués. El OCR usa modelos diferentes para cada idioma — elegir mal empeora la precisión. Si el documento tiene múltiples idiomas (un reporte bilingüe, por ejemplo), procesa cada parte por separado.
3. Elige el formato de salida
- PDF buscable — mantiene el visual original pero añade una capa de texto invisible encima. Puedes hacer Ctrl+F, copiar y pegar normalmente.
- Texto plano (.txt) — solo el contenido extraído, sin formato. Bueno para alimentar planillas, importar a sistemas, procesar con IA.
- Word (.docx) — convierte con formato básico preservado (párrafos, alineación). Bueno para editar.
4. Procesa y descarga
OCR es más lento que otras conversiones (cada página toma 2-10 segundos dependiendo de la resolución). Cuando termina, descargas el archivo en el formato elegido.
Cómo mejorar la calidad del OCR
La precisión del OCR depende mucho de la calidad de la imagen original. Algunos consejos:
- Escanea en al menos 300 DPI — debajo de eso las letras pequeñas se difuminan
- Garantiza que la página esté derecha — fotos torcidas y perspectivas diagonales confunden el reconocimiento
- Limpia suciedad y dobleces antes de escanear — manchas se vuelven caracteres aleatorios
- Prefiere fondo blanco y tinta negra — alto contraste = mejor lectura
- Evita capturas de pantalla — Moiré y pixelización dificultan
Bonus: OCR + otras herramientas
OCR libera varias posibilidades después:
- OCR + Compress — después del OCR, el PDF queda MUCHO más liviano (el texto pesa mucho menos que la imagen)
- OCR + Word — extrae a .docx para editar y revisar
- OCR + Excel — si el documento es tabla, OCR + conversor Excel separa en columnas
- OCR + ChatGPT — pega el texto extraído en la IA para resumir, traducir o analizar
Preguntas frecuentes
Otras guías
Más tutoriales que quizás te sirvan
Cómo comprimir un PDF gratis sin marca de agua
Muchos sitios cortan el tamaño del PDF pero dejan un sello sobre el documento. Aquí comprimes de verdad: calidad buena, peso bajo, cero marca.
4 min de lecturaCómo crear un enlace UTM para Google Ads
Sin UTMs no puedes saber de dónde vino cada conversión. Aquí aprendes la estructura correcta, con plantillas listas y la herramienta gratis.
5 min de lecturaCómo reducir el tamaño del PDF para enviar por correo
Gmail bloquea en 25 MB, Outlook en 20, algunos servidores corporativos en 10. Aquí aprendes cómo reducir un PDF hasta que entre, sin perder calidad.
4 min de lectura