ページ再描画

「ページ再描画」ステップ アクションは、現在のウィンドウにある HTML ページを取り込み、そのページの HTML コンテンツおよびそのページに存在する可能性のあるすべてのフレームを抽出し、さらに、他のページへのリンクおよびそのページが依存する画像、スタイル シート、その他のリソースの URL を出力します。後から、抽出時とまったく同じ状態のページをオフラインで表示することができます。

抽出された HTML は、既にページとページのフレームを読込、追加のコンテンツを生成する可能性のあるすべての JavaScript を実行したことによって取得された結果に相当するため、すべての JavaScript とイベント ハンドラーは抽出された HTML から除去されます。まず、ユーザー指定の変換に従ってページのすべての URL が書き換えられ、その後、書き換えられた URL が相対 URL に変換されます。インライン スタイル シート内の URL も書き換えられます。

含まれている URL がステップ アクションによって出力される外部スタイル シートは、同様の変換を適用し、スタイル シートで参照されるインポートされたスタイル シートと画像の URL を書き換える「CSS 再描画」ステップ アクションを使用して実行する必要があります。

「ページ再描画」ステップ アクションは、ロボット上で書き換えられるページ、スタイル シート、その他のリソースの URL をフィードする外部コントローラーを持つロボットで使用することを意図しています。

関連するステップ アクション

ページの簡易オフライン スナップショット生成には、「スナップショット生成」ステップ アクションを使用できます。このステップ アクションではロボットを外部アプリケーションで制御する必要はありませんが、1 つのステップで、必要なすべてのリソースをダウンロードしてファイル システムに保存し、完全なスタンドアロンのスナップショットを作成します。

「ページ再描画」ステップ アクションと異なり、「スナップショット生成」ステップ アクションでは、異なるスナップショット間のリンクを保持せず、スナップショット間の共有リソースを再利用しません。

このステップの実行はライセンス キーによって制御されます。

プロパティ

以下のプロパティを使用して「ページ再描画」ステップ アクションを設定できます。

元のページ URL

現在のウィンドウにあるページの元の URL が含まれた変数を指定します。これはページの読込に使用された URL です。リクエストされたページと異なるページへサーバーがリダイレクトした場合、ページの現在の URL は元の URL と異なる可能性があります。

データ コンバータ

ページの URL に対して実行する変換を指定するデータ コンバータ。これを使用して URL からファイル システム上の場所への変換を指定することができます。データ コンバータは、ステップ アクションが元のページ URL を基準とした相対 URL に自動的に変換する絶対 URL (ファイル URL である可能性もある) を出力する必要があります。高度な URL の書き換えには、[JavaScript を使用して変換] データ コンバータを推奨します。

抽出されたページ

抽出されたページの保存先となる変数。ステップ アクションは現在のウィンドウにあるページの HTML および個々のフレームの HTML を抽出します。抽出された HTML は、各ページの元の URL および書き換えられた URL の両方が含まれた JSON 形式で出力されます。ただし、メイン ページのみが指定された元の URL を持ちます。

JSON 出力値をウィンドウに読み込むには、JSON をコンテンツのソースとして含む変数の名前を指定して「ページ生成」ステップ アクションを使用します。ステップの [オプション] で、コンテンツ タイプが JSON であり、エンコーディングが UTF-8 であることを明示的に示す必要が生じるかもしれません。

URL

抽出された URL の保存先となる変数。ステップ アクションは、ページとページのフレームによって直接リンクされているすべてのページ、画像、スタイル シートおよびその他のリソースの URL を抽出します。リンクされているスタイル シートとページ自体にも URL が含まれている可能性がある点に注意してください。それらの URL はリストに含まれません。

URL は JSON 形式で出力され、元の URL と各 URL の書き換えられた絶対 URL の両方が提供されます。また、URL が出現するコンテキストによって決まる URL のタイプも提供されます。例えば、<IMG> タグ内のすべての URL はタイプ IMAGE でマークされます。

利用可能なタイプは以下の通りです。

PAGE

アンカー タグ内のリンク。ページがまだ読み込まれていないため、これは、そのページのコンテンツ タイプに関する情報を意味するものではない点に注意してください。

IMAGE

イメージ。

STYLESHEET

外部 CSS スタイル シート。

RESOURCE

例えばフレーム内の PDF または Flash オブジェクトなどのバイナリ リソース。

JSON 出力値をウィンドウに読み込むには、JSON をコンテンツのソースとして含む変数の名前を指定して「ページ生成」ステップ アクションを使用します。ステップの [オプション] で、コンテンツ タイプが JSON であり、エンコーディングが UTF-8 であることを明示的に示す必要が生じるかもしれません。