OCRでPDFからデータを抽出 [Power Automate Desktop]

Sdílet
Vložit
  • čas přidán 2. 08. 2024
  • ■チャプター
    00:00 オープニング
    00:31 抽出元データの説明
    01:13 まっすぐにスキャンされたPDFから抽出
    01:51 少し斜めにスキャンされたPDFから抽出
    02:27 さらに斜めにスキャンされたPDFから抽出
    03:11 Tesseract OCRの言語パックのインストール
    05:35 フローの新規作成
    05:57 PDFの起動
    06:49 OCRでテキストを抽出
    12:02 メッセージボックスを表示
    12:34 動作確認
    13:12 テキストのトリミング
    14:21 動作確認
    14:41 OCRでテキストを抽出(日本語)
    17:05 テキストのトリミング
    17:25 メッセージボックスを表示
    17:43 動作確認
    18:11 まとめ
    ■動画の説明
    OCRを使用して、PDFから数字や日本語を読み取る。
    ■関連動画
    ・OCRを使用せずにPDFからデータを抽出
    • OCRを使用せずにPDFからデータを抽出 [...
    ・OCRで複数ページのPDFからExcelへデータ抽出
    • OCRで複数ページのPDFからExcelへデ...
    ・OCRでPDFから明細行を抽出してExcelへ出力
    • OCRでPDFから明細行を抽出してExcel...
    ・PDFから明細行を抽出(OCR不使用)
    • 【新機能】PDFから明細行を抽出(OCR不使...
    ■ソフトバージョン
    Power Automate Desktop:2.12.171.21216
    Tesseract OCR:v5.0.0-alpha.20210811
    ■Tesseract OCRのダウンロード
    github.com/UB-Mannheim/tesser...
    ■チャンネル説明
    お悩み相談を受け付けております。
    コメントやTwitterのDMへご連絡下さい。
    現役ITエンジニアが以下のようなお悩みを解決します。
    ・パソコンの設定やトラブル
    ・Excel、Word等 Officeの使い方
    ・「Power Automate Desktop」の作成方法
    ・プログラミング等 システム開発関連
    ・etc…
    ■Twitter
    / info_must_it
    ■Instagram
    / info.must.it
    #PowerAutomateDesktop #PAD #RPA #PowerAutomate #自動化 #OCR

Komentáře • 37

  • @must_it
    @must_it  Před rokem +1

    2022/10/22
    アカウント移行により私のコメントが全て消えてしまいました。
    返信は100%しておりますので、お気軽に質問等コメント下さい!

  • @user-nf9pm9hp8c
    @user-nf9pm9hp8c Před 2 lety +1

    わかりやすかったです。
    ありがとうございます!

  • @user-xi7us1dd3u
    @user-xi7us1dd3u Před 2 lety +2

    ただ操作を調べるだけなら他にいくらでもありますが、こうやって研究した結果をたっぷり見せてもらえる場所は珍しいです。
    助かります!

  • @user-hs1dd3vb2e
    @user-hs1dd3vb2e Před 2 lety

    すごく参考になりました。
    この動画を参考にさせていただきながらフォルダに入っている複数のPDF ファイルからそれぞれOCRで明細を抽出し、その明細のファイル名にリネームするフローに挑戦してみます。

  • @GG-fu8ws
    @GG-fu8ws Před 2 lety +2

    解説が分かりやすくて助かります。
    明細が1行なんて実務ではまずありえないので、全ての明細データを取得する方法を知りたいです。
    宜しくお願いいたします。

  • @user-yc7sw9hl6h
    @user-yc7sw9hl6h Před měsícem +1

    読み取った商品名や金額はのデータどこに保存されるのですか?または、保存用のファイルを用意しておいて、そこに保存する設定が必要なのですか?枚数が少ない時はいいのですが、多い時はテキストやExcelに保存したいです。

    • @must_it
      @must_it  Před měsícem

      読み取ったデータはPAD内の変数に保存されるため、Excel等に書き出す処理が必要になります。
      下記動画が参考になると思います。
      ■OCRで複数ページのPDFからExcelへデータ抽出
      czcams.com/video/wPIszT-ZUiM/video.html

  • @cocorolay484
    @cocorolay484 Před 2 lety

    わかりやすくて良かったです。OCRで読みとった内容をメッセージ表示の代わりにExcelに転記でやってみたいです。

    • @cocorolay484
      @cocorolay484 Před 2 lety +1

      @@must_it PADのTesseractのアクションが削除されましたね。この動画のフローに影響ありますか?

    • @cocorolay484
      @cocorolay484 Před 2 lety

      @@must_it お返事ありがとうございます。影響ないとの事、良かったです。

  • @user-kk4fb2fu6p
    @user-kk4fb2fu6p Před 2 lety

    画像記録がオフのままだと、アクションは普通に追加されます。
    ご教授頂きありがとうございます!
    また、デスクトップレコーダー以外だと、pdf画像を抽出することは難しいでしょうか。

    • @user-kk4fb2fu6p
      @user-kk4fb2fu6p Před 2 lety

      @@must_it こちらこそご教授頂き誠にありがとうございます!
      また、失礼いたしました、画像ではなく同じようにpdf文章等をエクセルに転記する他のやり方はございませんか。

    • @user-kk4fb2fu6p
      @user-kk4fb2fu6p Před 2 lety

      @@must_it そうなんですね、組み合わせが必要なんですね!
      髪媒体からのスキャンだとそれもかのうですか?

    • @user-kk4fb2fu6p
      @user-kk4fb2fu6p Před 2 lety

      @@must_it やってみましたが、読み取りができませんでした。解像度を上げても難しそうでした😓

    • @user-kk4fb2fu6p
      @user-kk4fb2fu6p Před 2 lety

      @@must_it ご返信遅くなり申し訳ございません。
      そうですよね。色々ご教授ありがとうございました!!
      他の動画も参考にさせて頂きます!

    • @user-kk4fb2fu6p
      @user-kk4fb2fu6p Před 2 lety

      @@must_it 一点ご質問があります。
      やりたい動作は
      ①画像をペイントに貼り付け
      ②画像をピクセル指定して縮小
      ③選択から四角形を選択
      ④マウスで指定した範囲まで選択し、(クリックしたまま)トリミング
      という動作です。
      ③まではできましたが、デスクトップレコーダーを使用しても④ができません。
      良い方法はございますでしょうか?

  • @user-kr7qn4hj6i
    @user-kr7qn4hj6i Před rokem

    マストさん
    RPAに挑戦しており、参考にさせていただいています!
    途中まではうまくいっていたのですが、「メインウィンドウハンドルを取得できません」というエラーが出て進めなくなりました。
    なにか解決方法があれば教えてください

    • @must_it
      @must_it  Před rokem

      ご視聴ありがとうございます!
      PDFを表示しているアプリケーションは何でしょうか?
      また、どのアクションでエラーが発生しておりますでしょうか?
      PDFをAcrobatで表示している場合は、既にAcrobatが起動していると、「アプリケーションの実行」でエラーが発生します。

  • @user-oh3zm3mn2e
    @user-oh3zm3mn2e Před 6 měsíci

    はじめまして。
    マストさんの動画を参考にさせていただきながら、業務効率化に励んでいるところです。
    今、PDFからExcelへ転記するPowerAutomateDesktopを作成しているのですが、チェックボックスの反映方法が分かりません。
    いろいろ調べてみたのですが、解決方法が未だ見つかりません。
    よろしければアドバイスいただけませんでしょうか?
    お忙しいところ申し訳ございませんが、よろしくお願い致します。

    • @must_it
      @must_it  Před 6 měsíci

      ご視聴ありががとうございます!
      あまり調べられておりませんが、Excel上のチェックボックスをPADから操作するのは難しいように思います。
      UI要素で追加してもイメージとして認識されますし、キー操作でもどのチェックボックスを操作するのかの判定が難しいと思います。
      一つのチェックボックスの操作であれば、特定の座標に対してマウスクリックなどは可能ですが…。

    • @user-oh3zm3mn2e
      @user-oh3zm3mn2e Před 6 měsíci

      早速ご返信いただきまして、ありがとうございます。そうですよね、、ちょっと難しい気がしますよね。
      そもそものフローをもっと抜本的に改善できればいいのですが……
      ありがとうございました!
      これからも頑張ってください。

  • @user-un2kz1zt1h
    @user-un2kz1zt1h Před rokem

    テキスト抽出をしテキスト分割するとtxtlistができ #とアイテムと表示されますが アイテムから#の番号を逆引きで求めることはできますか?

    • @must_it
      @must_it  Před rokem

      可能です。
      ①Loop
      開始値:0
      終了:%TextList.Count - 1%
      増分:1
        ②If
        最初のオペランド:検索したい値
        演算子:と等しい(=)
        2番目のオペランド:%TextList[LoopIndex]%
          ③ループを抜ける
        ④End(If)
      ⑤End(Loop)
      LoopIndexの値が求めたい番号になっているはずです。

  • @yokoinoue4023
    @yokoinoue4023 Před rokem

    とっても分かりやすいです。が、どうしてもocrを使ってテキストを抽出できませんと表示されます
    方法はないでしょうか。。

    • @must_it
      @must_it  Před rokem

      ご視聴ありがとうございます!
      まずは下記動画をご参考にして頂ければと思います。
      ■OCRのコツ
      czcams.com/users/livePMtQZDLeur4
      それでも上手くいかない場合は、私に対象のデータをお送り頂けるのであれば確認します。
      ただ、おそらく機密情報で難しいですよね…。

    • @yokoinoue4023
      @yokoinoue4023 Před rokem

      @@must_it ご連絡ありがとうございます。動画確認しやってみました!何とか出来たので、フォルダーごと読み取ってループ機能とかを付け足していったら、また、同じ問題がでてきました。くやしいー。

    • @must_it
      @must_it  Před rokem +1

      一応出来たとの事よかったです!
      あとは、拡大や縮小など色々試してみるしかないかと思います。
      OCRは地道な調整が必要になるのです…。
      読み取り元のデータにもよりますが、場合によっては、読み取れなかったら、少し調整して再度読み取りを実行するみたいな処理が必要かもしれません。

  • @user-un2kz1zt1h
    @user-un2kz1zt1h Před rokem

    Power Automate Desktopをインストールしてフローを登録して終了して次に起動させると
    コンピューターに設定するというのが表示されます
    設定しようとすると有償版にするよう表示されます
    無償版はこの設定はできないのでしょうか?

    • @must_it
      @must_it  Před rokem

      私の方では表示されたことがないのでわかりません。
      予想ですが、クラウドからデスクトップ版のフローを呼び出す際にマシンの登録が必要なのですが、
      それを設定しようとしているのかなと思われます。
      これは有償版の機能のため、無償版はできないと思われます。

    • @user-un2kz1zt1h
      @user-un2kz1zt1h Před rokem

      @@must_it 無償版をインストールしても同じで それが出るたびに再インストールをしています
      マストさんがinstallしている無償版はでないとのことですがクラウドからデスクトップ版のフローを呼び出す設定はしていません
      PCにフローは保存しているつもりなのですが 設定がひつようなのでしょうか

    • @must_it
      @must_it  Před rokem

      おそらく会社のMicrosoftアカウントでログインされていると思いますが、
      別の無料のMicrosoftアカウントに切り替えてみてください。
      「Power Automate Desktop」画面の右上の名前のところから、サインアウトすることができます。

  • @nakamura124
    @nakamura124 Před rokem

    金額の下の罫線が近すぎてうまく数字を認識できません。何かうまい回避方法はありませんでしょうか・・・?

    • @must_it
      @must_it  Před rokem

      書類によっては近かったり重なったりするものがありますよね…。
      私も色々試したことがありますが、そういった場合はかなり厳しいです。
      下記の動画でご紹介しているようにズームにして読み取れるか試すぐらいですね。
      ■OCRのコツ
      czcams.com/users/livePMtQZDLeur4
      あとは、OCRを使用せずに文字列を解析して読み取ることも書類によっては可能ですので、是非お試しください!
      ■OCRを使用せずにPDFからデータを抽出
      czcams.com/video/ZLnirksItrc/video.html

  • @user-kk4fb2fu6p
    @user-kk4fb2fu6p Před 2 lety

    ダウンロードは無料ですか?

    • @user-kk4fb2fu6p
      @user-kk4fb2fu6p Před 2 lety

      ご返信ありがとうございます!
      また、デスクトップレコーダーの画像記録で、pdfを読み取りをしようとすると、デスクトップレコーダーが閉じてしまいます。原因等は何が考えられますでしょうか。

    • @user-kk4fb2fu6p
      @user-kk4fb2fu6p Před 2 lety

      @@must_it アンカー領域を指定した後です!
      指定後閉じてしまい、最初からになってしまいます😓