Extracción de texto de imágenes en archivos PDF usando OCR en Python

Sdílet
Vložit
  • čas přidán 7. 04. 2024
  • Este tutorial detalla cómo extraer texto de imágenes incrustadas en archivos PDF utilizando técnicas de Reconocimiento Óptico de Caracteres (OCR) en Python. Se exploran las bibliotecas PyPDF2, pdf2image y pytesseract para convertir el PDF en imágenes, aplicar OCR a las imágenes y luego proteger el archivo PDF resultante con una contraseña.
    Links:
    pdf2image: pypi.org/project/pdf2image/
    PyPDF2: pypi.org/project/PyPDF2/
    pytesseract: pypi.org/project/pytesseract/
    pytesseract: github.com/tesseract-ocr/tess...

Komentáře • 7

  • @Sebastian-eq2cn
    @Sebastian-eq2cn Před měsícem +1

    Hola, excelente aporte, muchísimas gracias!!

  • @CiberSegurito
    @CiberSegurito Před 3 měsíci +1

    Buenísimo hermano. Estoy recién comenzando a programar y se me hizo muy útil.

    • @CodePyMaster
      @CodePyMaster  Před 3 měsíci

      Hola @CiberSegurito, me da mucho gusto saber que te ha sido útil, si tienes alguna pregunta o necesitas más ayuda, no dudes en preguntar. Saludos

  • @martinaquino8531
    @martinaquino8531 Před 2 měsíci +1

    Hola, cómo estás? me podrías dar una recomendación para pasar a texto imágenes y pdf pesados, de unas 100 páginas. Agradecería un consejo. Saludos y gracias por compartir tus conocimientos.

    • @CodePyMaster
      @CodePyMaster  Před 2 měsíci +1

      Hola @martinaquino8531, con gusto, como primer consejo te recomendaría adaptar tu código con el uso de generadores en lugar de listas, esto reducirá la carga de memoria, por otro lado, si el archivo es muy grande, es mejor dividirlo en partes pequeñas y procesarlas por separado, Saludos

  • @luisangelbarretosierra5702
    @luisangelbarretosierra5702 Před 2 měsíci

    No me deja hacer he visto varios video y nada

    • @CodePyMaster
      @CodePyMaster  Před 2 měsíci

      Saludos, que error te da al ejecutar el código?