Tutorial · ocr

Cómo extraer texto de un PDF escaneado (OCR)

¿Recibiste un documento escaneado y no puedes copiar nada del contenido? OCR lo resuelve. Conviértelo a PDF buscable o texto plano en segundos.

4 min de lecturaActualizado el 25 de abril de 2026

Recibes un contrato escaneado e intentas seleccionar una cláusula para pegarla en un email — no pasa nada. El cursor pasa por encima del texto sin reaccionar. Eso es porque el "texto" del PDF es en realidad una imagen fotografiada de una hoja. Para cualquier programa, es como si hubieras seleccionado un JPG.

OCR (Optical Character Recognition) es la tecnología que hace que la máquina "lea" esas imágenes y las convierta en texto de verdad. El resultado: un documento que puedes buscar con Ctrl+F, copiar fragmentos, editar en Word, indexar en búsqueda, o alimentar a un LLM.

Cómo saber si un PDF está escaneado

Test rápido en 3 segundos: abre el PDF e intenta seleccionar una palabra con el mouse. Si la selecciona limpiamente (palabra por palabra resaltada en azul), el PDF tiene texto real y no necesita OCR. Si solo logras dibujar un rectángulo encima, es imagen — necesita OCR.

Otra señal: prueba Ctrl+F y busca una palabra que SABES que está en el documento. Si no la encuentra, es porque el contenido es imagen.

Cuándo OCR es la mejor solución

  • Contratos antiguos digitalizados — para extraer cláusulas, fechas, valores
  • Facturas escaneadas — para alimentar planillas de gastos
  • Libros y artículos científicos — para citar fragmentos, traducir
  • Documentos de RRHH — DNIs, comprobantes, recibos para registros
  • Historia médica — para digitalizar historias clínicas antiguas
  • Investigación de campo — formularios llenados a mano (parcialmente)
Publicidade
Espacio publicitario

Paso a paso: extraer texto con OCR

1. Selecciona el archivo escaneado

Funciona con PDF, JPG, PNG y TIFF. Puedes subir documentos de varias páginas — el OCR procesa todo de una vez y mantiene el orden.

2. Elige el idioma del contenido

Soportamos español, inglés y portugués. El OCR usa modelos diferentes para cada idioma — elegir mal empeora la precisión. Si el documento tiene múltiples idiomas (un reporte bilingüe, por ejemplo), procesa cada parte por separado.

3. Elige el formato de salida

  • PDF buscable — mantiene el visual original pero añade una capa de texto invisible encima. Puedes hacer Ctrl+F, copiar y pegar normalmente.
  • Texto plano (.txt) — solo el contenido extraído, sin formato. Bueno para alimentar planillas, importar a sistemas, procesar con IA.
  • Word (.docx) — convierte con formato básico preservado (párrafos, alineación). Bueno para editar.

4. Procesa y descarga

OCR es más lento que otras conversiones (cada página toma 2-10 segundos dependiendo de la resolución). Cuando termina, descargas el archivo en el formato elegido.

Cómo mejorar la calidad del OCR

La precisión del OCR depende mucho de la calidad de la imagen original. Algunos consejos:

  • Escanea en al menos 300 DPI — debajo de eso las letras pequeñas se difuminan
  • Garantiza que la página esté derecha — fotos torcidas y perspectivas diagonales confunden el reconocimiento
  • Limpia suciedad y dobleces antes de escanear — manchas se vuelven caracteres aleatorios
  • Prefiere fondo blanco y tinta negra — alto contraste = mejor lectura
  • Evita capturas de pantalla — Moiré y pixelización dificultan
Publicidade
Espacio publicitario

Bonus: OCR + otras herramientas

OCR libera varias posibilidades después:

  • OCR + Compress — después del OCR, el PDF queda MUCHO más liviano (el texto pesa mucho menos que la imagen)
  • OCR + Word — extrae a .docx para editar y revisar
  • OCR + Excel — si el documento es tabla, OCR + conversor Excel separa en columnas
  • OCR + ChatGPT — pega el texto extraído en la IA para resumir, traducir o analizar

Preguntas frecuentes

En texto impreso, claro, con buena resolución: 98-99% de precisión. En manuscrito legible: 70-90%. En garabatos: 40-60%. Siempre revisa cuando la precisión importe (contratos, datos contables).