PDF

PDF ステップは、PDF ドキュメントからコンテンツを抽出するために役立ちます。

CentOS/Red Hat Enterprise Linux 7.x オペレーティング システムでは、PDF 抽出機能はサポートされていません。

[レコーダー ビュー] には、PDF ドキュメント ツリーの単一ページと抽出されたテキストが表示されます。ロボットは、[アプリケーション アクション] メニューで利用できる [次のページ]、[前のページ]、および [ページに移動] アクションを使用して、ドキュメント内を移動します。メニューは、[レコーダー ビュー] のアプリケーション タブを右クリックすると表示されます。

テキスト抽出の結果は、PDF データの内部データと構造に依存します。テキストは、PDF ドキュメントの書式設定およびデータの基になるアクセシビリティに基づいて分割され、ページ境界の外側にあるテキストや、重複する要素によって非表示になっているテキストが含まれる場合があります。必要なアクセシビリティ データが (通常は古い) PDF ドキュメントに含まれていない場合は、OCR を使用してテキストを抽出するために画像からテキスト抽出ステップを使用しなければならない場合があります。

[テキストを抽出] アプリケーション アクションおよび [テキストを抽出] コンポーネント アクションを使用して、ページの特定の領域から構造化テキストを抽出することができます。

プロパティ

アクション
PDF を使用して実行するアクションを選択します。
ドキュメント ソース
  • ローカル ファイル: [ファイル パス] フィールドでローカル ファイル システム内のファイルのパスを指定します。

  • ロボット ファイル システム: [ファイル パス] フィールドで、ロボット ファイル システム内のファイルのパスを指定します。

  • バイナリ: バイナリ形式の PDF ドキュメントを含む変数またはエクスプレッションを指定します。

ページ番号
必要に応じて、ドキュメントを開いた後に表示する物理ページを指定します。このプロパティが指定されていない場合は、最初のページが表示されます。

コンポーネント アクション

アクション

説明

テキストを抽出

PDF ドキュメントの選択した要素からテキストを抽出します。