多くのお客様から「請求書のPDFファイルが全顧客分まとまってしか出てこないのでお客さんごとのファイルに分割してほしい」というご要望をいただきます。
弊社ではPDFファイル内の文字列を参照して顧客単位に分割するWindowsアプリケーションを開発しています。
最近では請求書などをインターネット経由で電子で送るお客様が増えており、PDF分割アプリのお問い合わせが非常に多くなっています。
下図のように、販売管理システムなどから全てのお客様のページが連なった状態で出てくる場合に、
弊社の開発する分割アプリに取り込んでいただくと
お客様ごとのPDFファイルに分かれて出てくる、というものです。
弊社ではこれまでに、このPDF分割アプリを1500社様以上のお客様に納品させていただいております。
分割するためのキーになる文字列はPDF上に印字された”お客様コード:1300132″の値を全ページ読み取って、同じお客様コードのページを1つのPDFファイルとしてまとめて出力するといった処理をしています。
お客様コードが2ページ目には印字されていない、といったケースもあり、その場合はページ番号の値を見て分割するなど、色々な対応方法をこれまでの開発経験でノウハウとして蓄積してきましたので、ほとんどの帳票PDFをご要望どおりに分割することができます。
分割ができないケース
弊社のPDF分割アプリではPDF上に印字された”お客様コード:1300132″といった値を抽出しますが、この部分の文字をマウスでなぞってコピーして、メモ帳などのテキストエディタに貼り付けたときに同じ文字が表示されること、というのが開発をお請けする条件になってます。
この、マウスでなぞれる文字列は「透明テキスト」といいまして、PDF内の検索などに使われているテキスト情報です。
分割のキーとしたい箇所がこのようにマウスでなぞれない場合は開発をお請けできないことが多いです。
ただ、100%できないかといいますとそうではなく、①分割前にAcrobatなどのソフトを使って「テキスト認識」処理(いわゆるOCRです)をしていただいて文字列がコピー・ペーストできるようにしていただいたり、②分割アプリ自体にOCRのロジックを組み込んでテキスト認識しながら分割するという開発事例もあります。
OCRは誤認識の可能性を100%排除することは難しいため基本的におすすめをしていません。