Python Импорт данных №5. Импорт таблиц из PDF
Vložit
- čas přidán 3. 03. 2021
- Научимся импортировать нужные таблицы из PDF файлов, объединять их по вертикали в одну большую таблицу и записывать результат в CSV файл.
Файлы для спонсоров Boosty: boosty.to/comrade-xl/posts/00...
Файлы для спонсоров ВК: comrade.excel?w=wall-1...
Файлы для спонсоров CZcams: • Post
Индивидуальное обучение: comrade-xl.ru/pq-training/
Страница: comrade-xl.ru/2021/03/04/py-i...
Файлы для спонсоров Boosty: boosty.to/comrade-xl/posts/0031291f-9b4a-4b34-9d8f-b8c9a1fb8289?share=post_link
Файлы для спонсоров ВК: vk.com/comrade.excel?w=wall-185123800_471
Файлы для спонсоров CZcams: czcams.com/users/postUgzyAW2wyN1_wOHruit4AaABCQ
Индивидуальное обучение: comrade-xl.ru/pq-training/
Страница: comrade-xl.ru/2021/03/04/py-import-pdf/
last checkpoint 21 час. Несколько часов труда, еще и видео ускоренное. Респект Тимур за труд.
Есть еще питоновские библиотеки для извлечения таблиц из PDF-файлов: Camelot, pdfplumber, pdftables, pdf-table-extract. При этом Camelot поддерживает CLI, т.е. для не очень сложных pdf файлов можно обходиться вовсе без программирования процесса извлечения.
Также Camelot в большинстве случаев лучше остальных библиотек выполняет извлечение таблиц.
Спасибо за видео! Мне как раз нужно сделать то же самое, а Excel на работе нет. Только Libre Office.
Тимур, огромное спасибо за урок! Настало время переходить на Python! Просьба: можешь показывать уроки Python в VS Code?
Здравствуйте.
tabula.read_pdf() выводит такую ошибку. можете помочь?
Error from tabula-java:
Error: Error: Header doesn't contain versioninfo
Спасибо за урок, но в какую папку вы складываете PDF файл, чтобы его нашли и отобразили, у меня не находит нужный PDF файл, хотя я все пытаюсь сделать как вы показываете. спасибо
Файл лежит там же, где и книга Jupyter.
а если таблица разделена на несколько страниц это можно как то детектить ?
В блоке №7 "отображения таблицы" выводится ошибка:
File "", line 1
for table in pdf_tables;
^
SyntaxError: invalid syntax
Что я делаю не так. Ошибки в коде точно нет, т.к. код копировался и сайта и из ролика в один в один.
Подскажите пожалуйста.
По-моему, у вас точка с запятой в конце строки.
Как быть, если в PDF есть столбцы объединены, Python разделяет заголовок, но вся таблица рушиться т.к. он переносит данные левее на 1 ячейку
Тимур здравствуйте! Еще раз спасибо за Ваши потрясающие ролики, с удовольствием жду Ваших видео про sql, но вопрос у меня не об этом. Очень долгое время работает ELT процесс на основе tabula но с последними файлами pdf возникает ошибка it/s]Error from tabula-java:
Exception in thread "main" java.lang.IllegalArgumentException: lines must be orthogonal, vertical and horizontal
at technology.tabula.Ruling.intersectionPoint(Ruling.java:214). Вся соль в том, что со старыми файлами работает. Чат ГПТ говорит, что файл может быть защищён, Сталкивались ли Вы с подобного рода проблемой?
Извините за беспокойство, нашёл причину, характеристика самих файлов поменялась, нужно понастроить
Здравствутйе Тимур! Дошел до конца данного плей листа и нашел практически на каждый свой вопрос ответ! Единственное, что вызывает затруднение, что у меня dpf файлы всегда раных форматов (А4, А2 итд) поэтому частенько tabula путается, не могли бы Вы подсказать как в параметре area настроить координаты углов опеределения таблицы?
Здравствуйте!
К сожалению, не могу ответить на данный вопрос.
@@comrade_excel Как выяснилось, я ошибку в коде допускал.
Здравствуйте Тимур. Прекрасное видео и замечательная подача, очень актуальный плейлист. Я поскорей хочу начать работать в этом направлении, но у меня вылетает какая-то странная ошибка. JavaNotFoundError: `java` command is not found from this Python process.Please ensure Java is installed and PATH is set for `java`
Блин причем тут вообще Java и где она обитает. гуглю варианты, но выходит только англ форумы где не понятно ничего.
Здравствуйте!
Попробуйте установить последнюю версию JAVA www.java.com/ru/download/manual.jsp
Если не поможет, то выполните инструкции с этой страницы www.java.com/en/download/help/path.html
@@comrade_excel все помогло! Спасибо.
Ставь лайк, если купился на кликбейт с новой ведущей😄