OCRでPDFからデータを抽出 [Power Automate Desktop]
Vložit
- čas přidán 2. 08. 2024
- ■チャプター
00:00 オープニング
00:31 抽出元データの説明
01:13 まっすぐにスキャンされたPDFから抽出
01:51 少し斜めにスキャンされたPDFから抽出
02:27 さらに斜めにスキャンされたPDFから抽出
03:11 Tesseract OCRの言語パックのインストール
05:35 フローの新規作成
05:57 PDFの起動
06:49 OCRでテキストを抽出
12:02 メッセージボックスを表示
12:34 動作確認
13:12 テキストのトリミング
14:21 動作確認
14:41 OCRでテキストを抽出(日本語)
17:05 テキストのトリミング
17:25 メッセージボックスを表示
17:43 動作確認
18:11 まとめ
■動画の説明
OCRを使用して、PDFから数字や日本語を読み取る。
■関連動画
・OCRを使用せずにPDFからデータを抽出
• OCRを使用せずにPDFからデータを抽出 [...
・OCRで複数ページのPDFからExcelへデータ抽出
• OCRで複数ページのPDFからExcelへデ...
・OCRでPDFから明細行を抽出してExcelへ出力
• OCRでPDFから明細行を抽出してExcel...
・PDFから明細行を抽出(OCR不使用)
• 【新機能】PDFから明細行を抽出(OCR不使...
■ソフトバージョン
Power Automate Desktop:2.12.171.21216
Tesseract OCR:v5.0.0-alpha.20210811
■Tesseract OCRのダウンロード
github.com/UB-Mannheim/tesser...
■チャンネル説明
お悩み相談を受け付けております。
コメントやTwitterのDMへご連絡下さい。
現役ITエンジニアが以下のようなお悩みを解決します。
・パソコンの設定やトラブル
・Excel、Word等 Officeの使い方
・「Power Automate Desktop」の作成方法
・プログラミング等 システム開発関連
・etc…
■Twitter
/ info_must_it
■Instagram
/ info.must.it
#PowerAutomateDesktop #PAD #RPA #PowerAutomate #自動化 #OCR
2022/10/22
アカウント移行により私のコメントが全て消えてしまいました。
返信は100%しておりますので、お気軽に質問等コメント下さい!
わかりやすかったです。
ありがとうございます!
ただ操作を調べるだけなら他にいくらでもありますが、こうやって研究した結果をたっぷり見せてもらえる場所は珍しいです。
助かります!
すごく参考になりました。
この動画を参考にさせていただきながらフォルダに入っている複数のPDF ファイルからそれぞれOCRで明細を抽出し、その明細のファイル名にリネームするフローに挑戦してみます。
解説が分かりやすくて助かります。
明細が1行なんて実務ではまずありえないので、全ての明細データを取得する方法を知りたいです。
宜しくお願いいたします。
読み取った商品名や金額はのデータどこに保存されるのですか?または、保存用のファイルを用意しておいて、そこに保存する設定が必要なのですか?枚数が少ない時はいいのですが、多い時はテキストやExcelに保存したいです。
読み取ったデータはPAD内の変数に保存されるため、Excel等に書き出す処理が必要になります。
下記動画が参考になると思います。
■OCRで複数ページのPDFからExcelへデータ抽出
czcams.com/video/wPIszT-ZUiM/video.html
わかりやすくて良かったです。OCRで読みとった内容をメッセージ表示の代わりにExcelに転記でやってみたいです。
@@must_it PADのTesseractのアクションが削除されましたね。この動画のフローに影響ありますか?
@@must_it お返事ありがとうございます。影響ないとの事、良かったです。
画像記録がオフのままだと、アクションは普通に追加されます。
ご教授頂きありがとうございます!
また、デスクトップレコーダー以外だと、pdf画像を抽出することは難しいでしょうか。
@@must_it こちらこそご教授頂き誠にありがとうございます!
また、失礼いたしました、画像ではなく同じようにpdf文章等をエクセルに転記する他のやり方はございませんか。
@@must_it そうなんですね、組み合わせが必要なんですね!
髪媒体からのスキャンだとそれもかのうですか?
@@must_it やってみましたが、読み取りができませんでした。解像度を上げても難しそうでした😓
@@must_it ご返信遅くなり申し訳ございません。
そうですよね。色々ご教授ありがとうございました!!
他の動画も参考にさせて頂きます!
@@must_it 一点ご質問があります。
やりたい動作は
①画像をペイントに貼り付け
②画像をピクセル指定して縮小
③選択から四角形を選択
④マウスで指定した範囲まで選択し、(クリックしたまま)トリミング
という動作です。
③まではできましたが、デスクトップレコーダーを使用しても④ができません。
良い方法はございますでしょうか?
マストさん
RPAに挑戦しており、参考にさせていただいています!
途中まではうまくいっていたのですが、「メインウィンドウハンドルを取得できません」というエラーが出て進めなくなりました。
なにか解決方法があれば教えてください
ご視聴ありがとうございます!
PDFを表示しているアプリケーションは何でしょうか?
また、どのアクションでエラーが発生しておりますでしょうか?
PDFをAcrobatで表示している場合は、既にAcrobatが起動していると、「アプリケーションの実行」でエラーが発生します。
はじめまして。
マストさんの動画を参考にさせていただきながら、業務効率化に励んでいるところです。
今、PDFからExcelへ転記するPowerAutomateDesktopを作成しているのですが、チェックボックスの反映方法が分かりません。
いろいろ調べてみたのですが、解決方法が未だ見つかりません。
よろしければアドバイスいただけませんでしょうか?
お忙しいところ申し訳ございませんが、よろしくお願い致します。
ご視聴ありががとうございます!
あまり調べられておりませんが、Excel上のチェックボックスをPADから操作するのは難しいように思います。
UI要素で追加してもイメージとして認識されますし、キー操作でもどのチェックボックスを操作するのかの判定が難しいと思います。
一つのチェックボックスの操作であれば、特定の座標に対してマウスクリックなどは可能ですが…。
早速ご返信いただきまして、ありがとうございます。そうですよね、、ちょっと難しい気がしますよね。
そもそものフローをもっと抜本的に改善できればいいのですが……
ありがとうございました!
これからも頑張ってください。
テキスト抽出をしテキスト分割するとtxtlistができ #とアイテムと表示されますが アイテムから#の番号を逆引きで求めることはできますか?
可能です。
①Loop
開始値:0
終了:%TextList.Count - 1%
増分:1
②If
最初のオペランド:検索したい値
演算子:と等しい(=)
2番目のオペランド:%TextList[LoopIndex]%
③ループを抜ける
④End(If)
⑤End(Loop)
LoopIndexの値が求めたい番号になっているはずです。
とっても分かりやすいです。が、どうしてもocrを使ってテキストを抽出できませんと表示されます
方法はないでしょうか。。
ご視聴ありがとうございます!
まずは下記動画をご参考にして頂ければと思います。
■OCRのコツ
czcams.com/users/livePMtQZDLeur4
それでも上手くいかない場合は、私に対象のデータをお送り頂けるのであれば確認します。
ただ、おそらく機密情報で難しいですよね…。
@@must_it ご連絡ありがとうございます。動画確認しやってみました!何とか出来たので、フォルダーごと読み取ってループ機能とかを付け足していったら、また、同じ問題がでてきました。くやしいー。
一応出来たとの事よかったです!
あとは、拡大や縮小など色々試してみるしかないかと思います。
OCRは地道な調整が必要になるのです…。
読み取り元のデータにもよりますが、場合によっては、読み取れなかったら、少し調整して再度読み取りを実行するみたいな処理が必要かもしれません。
Power Automate Desktopをインストールしてフローを登録して終了して次に起動させると
コンピューターに設定するというのが表示されます
設定しようとすると有償版にするよう表示されます
無償版はこの設定はできないのでしょうか?
私の方では表示されたことがないのでわかりません。
予想ですが、クラウドからデスクトップ版のフローを呼び出す際にマシンの登録が必要なのですが、
それを設定しようとしているのかなと思われます。
これは有償版の機能のため、無償版はできないと思われます。
@@must_it 無償版をインストールしても同じで それが出るたびに再インストールをしています
マストさんがinstallしている無償版はでないとのことですがクラウドからデスクトップ版のフローを呼び出す設定はしていません
PCにフローは保存しているつもりなのですが 設定がひつようなのでしょうか
おそらく会社のMicrosoftアカウントでログインされていると思いますが、
別の無料のMicrosoftアカウントに切り替えてみてください。
「Power Automate Desktop」画面の右上の名前のところから、サインアウトすることができます。
金額の下の罫線が近すぎてうまく数字を認識できません。何かうまい回避方法はありませんでしょうか・・・?
書類によっては近かったり重なったりするものがありますよね…。
私も色々試したことがありますが、そういった場合はかなり厳しいです。
下記の動画でご紹介しているようにズームにして読み取れるか試すぐらいですね。
■OCRのコツ
czcams.com/users/livePMtQZDLeur4
あとは、OCRを使用せずに文字列を解析して読み取ることも書類によっては可能ですので、是非お試しください!
■OCRを使用せずにPDFからデータを抽出
czcams.com/video/ZLnirksItrc/video.html
ダウンロードは無料ですか?
ご返信ありがとうございます!
また、デスクトップレコーダーの画像記録で、pdfを読み取りをしようとすると、デスクトップレコーダーが閉じてしまいます。原因等は何が考えられますでしょうか。
@@must_it アンカー領域を指定した後です!
指定後閉じてしまい、最初からになってしまいます😓