PDFデータを表計算ソフトに抽出して評価する。ますます難しくなるデータソースを使用して、PDFファイルをExcelに変換する7つの方法の結果を比較します。
意思決定に使用する情報は、簡単にアクセスできることが理想的です。現代社会では、多くの重要な文書がPDF(Portable Document Format)で保存されています。PDFをExcelに変換するにはどうしたらよいのでしょうか。PDFからExcelへの変換ソフトはたくさんあります。
MicrosoftやAdobeのソフトウェアもありますし、PDFTablesやAmazonなどのクラウドサービスもあり、特定の作業に利用することができます。また、マイクロソフトやアドビなど他社製のソフトもあります。
どのようなPDF to Excel変換が "ベスト "なのか?この質問に対する答えは、最高のコンピュータのそれと似ています。それはすべてあなた次第です。
PDF変換ソフトを選択する際に考慮すべき重要な要素がたくさんあります。
PDFファイルの2種類があります。一つは、Microsoft Wordなどのプログラムを使用して作成されます。第二は、文書や画像ファイルのいずれかのスキャンから来る。あなたが持っているものを確認するには、ページ上のテキストを強調表示します。アプリを使ってテキストをハイライトできれば、PDFは作成されています。そうでない場合は、スキャンが必要な場合があります。スキャンしたPDFは、一部のPDF変換ソフトに対応していない場合があります。
1ページの表であれば、ほとんどのツールで対応可能です。複数ページにまたがる表や、ある表セルのデータを別の表セルと結合する場合は、より難しくなります。
アプリで生成されたPDFを最も多く生成するソリューションは、頻繁に変換を行うユーザーには向いていないかもしれません。
また、他のプログラムの選択と同様に、使い勝手や価格に対して性能がどの程度重要であるかを決定する必要があります。
あなたのニーズに合ったツールを選択するために、我々は4つのPDFファイルを使用して、7つのPDFからExcelへの変換プログラムをテストしました。それぞれのツールは異なる状況でテストされ、その長所と短所を学ぶことができます。
以下は、評価したツールです。リストは、トップパフォーマーから始まります。(「最高」という言葉は、それぞれのソース文書に部分的に依存することを忘れないでください)。これらのツールは、私たちが割り当てたタスクの少なくとも一部を見事に実行したことを意味する "Excellent to Good "からランク付けされています。
Adobe社は、Portable Document Format規格を開発した、PDF解析のリーダーです。フル機能のメンバーシップはかなり高価ですが、PDFからExcelへの変換が無制限にできる月額2ドルのオプションがあります(年間サブスクリプションが必要)。このユーティリティは、Microsoft Wordファイルの出力も可能です。
表とテキストの両方を含むページ内のすべてのテキストは、Excelファイルに変換されます。これは、文脈が重要である場合に有益であるか、またはデータが研究目的のために必要である場合に不利であることを証明することができます。
Textractのインターフェースは、特にAWSのサービスとしては非常にシンプルです。Textractは、AWSの複数ステップのセットアッププロセスを使用してセットアップすることができます。しかし、Amazonは、zip形式のCSVファイル形式で結果をダウンロードすることができるドラッグ&ドロップのウェブデモを提供しています。Amazon AWSの無料アカウントを作成するだけでよいのです。
Tabulaは、無料で使えるオープンソースのソフトウェアです。Tabulaのインストールと使用は、フリーのPython代替ソフトのいくつかよりもずっと簡単です。また、コマンドラインインターフェイスとブラウザインターフェイスの両方を備えています。そのため、バッチ変換やポイント・アンド・クリック操作に使いやすくなっています。
Tabulaは、複雑なPDFで問題があったにもかかわらず、低から中程度の複雑さのPDFを処理することができました。これは、多くの有償プラットフォームとは対照的です。Tabulaは、WindowsとLinuxで別途Javaのインストールが必要です。
このサービスは自動化することができ、これは重要な利点である。このサービスのAPIは非常によく文書化されており、Java、C++、PHPなどのさまざまなプログラミング言語をサポートするために使用することができます。
PDFTablesは、このアプリを使ってほとんどのPDFの表を作成することができました。さらに、1列よりも2列のヘッダー行の方が効率的であることも認識できました。大半の列は空白ですが、2行以上に及ぶセルには問題がありました。ホラーを含むPDFをスキャンするにもかかわらず、コストはかからなかった。
このフリーミアムプラットフォームは、有料の代替手段を提供しています。これは、PDFをスキャンするための唯一の選択肢であることが証明された。
このWebサイトベースのサービスは、多くのファイルタイプを変換することができます。Excel、Word、PowerPoint、AutoCADの変換が可能である。無料アカウントでは、1週間に5ファイル(各30MB)までの変換が可能です。有料会員は、毎日2GBのデータを無制限に利用できます。
コメットドックスは、公共サービスジャーナリズムの支援を行っている。彼らは、Investigative Editors and Reportersのメンバーにプレミアムアカウントを無料で提供している(開示:私は1つ持っている)。
Excelは、PDFのインポートオプションを提供しています。しかし、この機能は、Microsoft 365/Office 365を契約しているWindowsのすべてのユーザーが利用できるわけではありません。単純なファイルには便利ですが、PDFが複雑になるにつれて、この機能はあまり有効ではなくなりました。ExcelのPower Query / Transformのインターフェイスを知らない人には分かりにくいかもしれません。
あなたは、PDFファイルからExcelスプレッドシートをインポートするには、リボンツールバーのデータ>データを取得>ファイルから> PDFからと進みます。次に、使用するファイルを選択します。ほとんどの場合、あなたは単一のテーブルをインポートするための唯一の選択肢を持っています。クリックすると、テーブルのプレビューが表示され、データを読み込むか修正するかのオプションが表示されます。読み込みをクリックすると、Excelシートに表が表示されます。
1つのページから素早く簡単にテーブルを作成することができます。複数ページのPDFに複数の表がある場合、このオプションは非常に有効です。すべての表が1ページに配置されている限りは。しかし、複数のテーブルが数ページに渡って配置されている場合は、より複雑になり、Power Queryのテクニックを知る必要があります。
PDF to Excelコンバータからの出力は、Power Queryの操作を実行するためにExcelにインポートすることができますので、それは他のオプションとPower Queryを比較することは不公平です。