Python Импорт данных №5. Импорт таблиц из PDF

Sdílet
Vložit
  • čas přidán 3. 03. 2021
  • Научимся импортировать нужные таблицы из PDF файлов, объединять их по вертикали в одну большую таблицу и записывать результат в CSV файл.
    Файлы для спонсоров Boosty: boosty.to/comrade-xl/posts/00...
    Файлы для спонсоров ВК: comrade.excel?w=wall-1...
    Файлы для спонсоров CZcams: • Post
    Индивидуальное обучение: comrade-xl.ru/pq-training/
    Страница: comrade-xl.ru/2021/03/04/py-i...

Komentáře • 21

  • @comrade_excel
    @comrade_excel  Před 3 lety +1

    Файлы для спонсоров Boosty: boosty.to/comrade-xl/posts/0031291f-9b4a-4b34-9d8f-b8c9a1fb8289?share=post_link
    Файлы для спонсоров ВК: vk.com/comrade.excel?w=wall-185123800_471
    Файлы для спонсоров CZcams: czcams.com/users/postUgzyAW2wyN1_wOHruit4AaABCQ
    Индивидуальное обучение: comrade-xl.ru/pq-training/
    Страница: comrade-xl.ru/2021/03/04/py-import-pdf/

  • @user-dv3nc7fb7o
    @user-dv3nc7fb7o Před 3 lety +2

    last checkpoint 21 час. Несколько часов труда, еще и видео ускоренное. Респект Тимур за труд.

  • @farinsaifutdinov5534
    @farinsaifutdinov5534 Před 3 lety +4

    Есть еще питоновские библиотеки для извлечения таблиц из PDF-файлов: Camelot, pdfplumber, pdftables, pdf-table-extract. При этом Camelot поддерживает CLI, т.е. для не очень сложных pdf файлов можно обходиться вовсе без программирования процесса извлечения.
    Также Camelot в большинстве случаев лучше остальных библиотек выполняет извлечение таблиц.

  • @user-js1kk8er1h
    @user-js1kk8er1h Před 3 lety +1

    Спасибо за видео! Мне как раз нужно сделать то же самое, а Excel на работе нет. Только Libre Office.

  • @user-xg4pd7en9d
    @user-xg4pd7en9d Před 2 lety

    Тимур, огромное спасибо за урок! Настало время переходить на Python! Просьба: можешь показывать уроки Python в VS Code?

  • @andreyhakobyan5427
    @andreyhakobyan5427 Před 2 lety +1

    Здравствуйте.
    tabula.read_pdf() выводит такую ошибку. можете помочь?
    Error from tabula-java:
    Error: Error: Header doesn't contain versioninfo

  • @OmenK0
    @OmenK0 Před 3 lety

    Спасибо за урок, но в какую папку вы складываете PDF файл, чтобы его нашли и отобразили, у меня не находит нужный PDF файл, хотя я все пытаюсь сделать как вы показываете. спасибо

    • @comrade_excel
      @comrade_excel  Před 3 lety

      Файл лежит там же, где и книга Jupyter.

  • @RunBull
    @RunBull Před 9 měsíci

    а если таблица разделена на несколько страниц это можно как то детектить ?

  • @user-zk5pw4hm1w
    @user-zk5pw4hm1w Před 2 lety

    В блоке №7 "отображения таблицы" выводится ошибка:
    File "", line 1
    for table in pdf_tables;
    ^
    SyntaxError: invalid syntax
    Что я делаю не так. Ошибки в коде точно нет, т.к. код копировался и сайта и из ролика в один в один.
    Подскажите пожалуйста.

    • @comrade_excel
      @comrade_excel  Před 2 lety

      По-моему, у вас точка с запятой в конце строки.

  • @user-mv6od3cg3m
    @user-mv6od3cg3m Před 3 lety

    Как быть, если в PDF есть столбцы объединены, Python разделяет заголовок, но вся таблица рушиться т.к. он переносит данные левее на 1 ячейку

  • @user-wr5rc5pp8r
    @user-wr5rc5pp8r Před rokem

    Тимур здравствуйте! Еще раз спасибо за Ваши потрясающие ролики, с удовольствием жду Ваших видео про sql, но вопрос у меня не об этом. Очень долгое время работает ELT процесс на основе tabula но с последними файлами pdf возникает ошибка it/s]Error from tabula-java:
    Exception in thread "main" java.lang.IllegalArgumentException: lines must be orthogonal, vertical and horizontal
    at technology.tabula.Ruling.intersectionPoint(Ruling.java:214). Вся соль в том, что со старыми файлами работает. Чат ГПТ говорит, что файл может быть защищён, Сталкивались ли Вы с подобного рода проблемой?

    • @user-wr5rc5pp8r
      @user-wr5rc5pp8r Před rokem

      Извините за беспокойство, нашёл причину, характеристика самих файлов поменялась, нужно понастроить

  • @user-wr5rc5pp8r
    @user-wr5rc5pp8r Před 2 lety

    Здравствутйе Тимур! Дошел до конца данного плей листа и нашел практически на каждый свой вопрос ответ! Единственное, что вызывает затруднение, что у меня dpf файлы всегда раных форматов (А4, А2 итд) поэтому частенько tabula путается, не могли бы Вы подсказать как в параметре area настроить координаты углов опеределения таблицы?

    • @comrade_excel
      @comrade_excel  Před 2 lety +1

      Здравствуйте!
      К сожалению, не могу ответить на данный вопрос.

    • @user-wr5rc5pp8r
      @user-wr5rc5pp8r Před rokem

      @@comrade_excel Как выяснилось, я ошибку в коде допускал.

  • @user-wr5rc5pp8r
    @user-wr5rc5pp8r Před 2 lety

    Здравствуйте Тимур. Прекрасное видео и замечательная подача, очень актуальный плейлист. Я поскорей хочу начать работать в этом направлении, но у меня вылетает какая-то странная ошибка. JavaNotFoundError: `java` command is not found from this Python process.Please ensure Java is installed and PATH is set for `java`
    Блин причем тут вообще Java и где она обитает. гуглю варианты, но выходит только англ форумы где не понятно ничего.

    • @comrade_excel
      @comrade_excel  Před 2 lety +1

      Здравствуйте!
      Попробуйте установить последнюю версию JAVA www.java.com/ru/download/manual.jsp
      Если не поможет, то выполните инструкции с этой страницы www.java.com/en/download/help/path.html

    • @user-wr5rc5pp8r
      @user-wr5rc5pp8r Před 2 lety +1

      @@comrade_excel все помогло! Спасибо.

  • @smetnoedelo
    @smetnoedelo Před 3 lety +3

    Ставь лайк, если купился на кликбейт с новой ведущей😄