Extracción de texto de imágenes en archivos PDF usando OCR en Python
Vložit
- čas přidán 7. 04. 2024
- Este tutorial detalla cómo extraer texto de imágenes incrustadas en archivos PDF utilizando técnicas de Reconocimiento Óptico de Caracteres (OCR) en Python. Se exploran las bibliotecas PyPDF2, pdf2image y pytesseract para convertir el PDF en imágenes, aplicar OCR a las imágenes y luego proteger el archivo PDF resultante con una contraseña.
Links:
pdf2image: pypi.org/project/pdf2image/
PyPDF2: pypi.org/project/PyPDF2/
pytesseract: pypi.org/project/pytesseract/
pytesseract: github.com/tesseract-ocr/tess...
Hola, excelente aporte, muchísimas gracias!!
Buenísimo hermano. Estoy recién comenzando a programar y se me hizo muy útil.
Hola @CiberSegurito, me da mucho gusto saber que te ha sido útil, si tienes alguna pregunta o necesitas más ayuda, no dudes en preguntar. Saludos
Hola, cómo estás? me podrías dar una recomendación para pasar a texto imágenes y pdf pesados, de unas 100 páginas. Agradecería un consejo. Saludos y gracias por compartir tus conocimientos.
Hola @martinaquino8531, con gusto, como primer consejo te recomendaría adaptar tu código con el uso de generadores en lugar de listas, esto reducirá la carga de memoria, por otro lado, si el archivo es muy grande, es mejor dividirlo en partes pequeñas y procesarlas por separado, Saludos
No me deja hacer he visto varios video y nada
Saludos, que error te da al ejecutar el código?