HTML からのコンテンツの抽出

HTML ページ内のタグからコンテンツを抽出する方法として Design Studio には、次の 6 つのステップ アクションがあります:

  • 抽出アクションは、タグからテキスト コンテンツを抽出する場合に使用し、オプションで HTML タグも含めることができます。
  • URL 抽出アクションは、URL を含むタグ属性から URL を抽出し、その URL を完全なものにするために使用します。
  • タグ属性抽出アクションは、タグ属性の値を抽出するために使用します。
  • ターゲット抽出アクションは、画像や PDF ファイルなどのバイナリ データを抽出するために使用しますが、あらゆる種類のバイナリ データを処理します。
  • フォームパラメータを抽出アクションは、見つかったタグのフォーム URL からパラメータから抽出し、その値を変数に格納するために使用します。
  • 選択済みオプション抽出アクションは、選択済みオプションを <select> タグから抽出し、変数に格納するために使用します。

抽出したコンテンツを再度書式設定 (または正規化) するには、抽出とタグ属性抽出を用いて、データ コンバータのリストを設定します。

さまざまなバイナリ データ フォーマット (PDF や Flash など) からデータを抽出する方法として、2 つのアクションがあります。この 2 つのアクションは、データを抽出し、ロボットがデータへアクセスできるように構造化された形式のデータを含む HTML ページを生成するという点で、前述のアクションとは異なります。これらのアクションは、実際にデータを抽出する前の初期ステップで用いられ、生成された HTML をループしてテキストを抽出することができます。

  • PDF からのテキスト抽出アクションは、選択した属性のバイナリ データとして含まれる PDF ドキュメントからテキストを抽出するために使用します。
  • Flash からの抽出アクションは、見つかったタグの Flash オブジェクトからデータを抽出するために使用します。