PDF から抽出

このアクションでは、選択したバイナリ変数内にバイナリ データとして含まれる PDF ドキュメントから、テキストおよび画像抽出します。

通常は、ターゲット抽出ステップを使用して、PDF ドキュメントをダウンロードして変数に入れます。[PDF から抽出] アクションから出力されるのは、PDF ドキュメントから抽出したテキストおよび画像を含む HTML ページです。これ以降の各ステップで、必要な情報をページから抽出できます。方法は他の HTML ページと同様です。

ただし、PDF ドキュメントには、テーブルやパラグラフなどの構造上の情報は含まれません。テキストやグラフィックの位置のみが、テーブルやパラグラフのように見えるように配置されている場合と、されていない場合とがあります。これにより、PDF ドキュメントから必要な情報を抽出するのが難しくなる場合があります。ただし、「PDF から抽出」ステップは、ヒューリスティックスを使用することで、利用可能な位置情報に基づき、テキストを HTML のパラグラフにグループ化します。

プロパティ

[PDF からテキスト抽出] アクションは、次の各プロパティを使用して設定できます。

PDF 変数

PDF ドキュメントをバイナリ データとして含むバイナリ変数。

画像を含める

埋め込まれた画像抽出するかを指定します。PDF ドキュメントからすべての画像やグラフィックを抽出できるとはかぎりません。元のドキュメントへの埋め込み方法によって異なります。

Form XObjects を含める

このオプションで、PDF から Form XObjects を抽出できます。Form XObjects は、PDF ファイル内のオブジェクトをグループ化します。オブジェクトには、テキスト、画像、ベクター要素などが含まれることがあります。Form XObjects は通常、ドキュメント内で複数回参照されるオブジェクトを保存するために使用します。

位置を含める

各テキストの位置を抽出するかを指定します。これらの各位置が、ドキュメントの構造を引き出すために有効な場合があります。

フォーマットを含める

テキストのフォーマット (フォントの名前、サイズなど) を抽出するかを指定します。各位置と同様に、フォーマットはドキュメントの構造を引き出すために有効な場合があります。

テキストのマージ

デフォルトで、PDF から HTML を生成したコンバータは、同一ラインにあるテキストを 1 つの HTML 要素にマージします。PDF ドキュメント内で異なるテキストとして表示される場合も同様です。この機能は通常は望ましいものですが、場合によっては別の作用を及ぼします。つまり、元は離れた場所にあったテキストがマージされてすぐ隣に表示されることがあります。この機能をオフしておくことが望ましい典型的な例は、ドキュメントに複数の列が含まれる場合です。この機能をオフにすると、列の構造を維持しようとします。