一般的なタスクの実行

テキストの一部のみを抽出

タグ内のテキストを一部のみ抽出するには、タグ内のテキストにパターンを使用します。たとえば、次のテキストから名前 "Bob Smith" を抽出するとします: "The article is written by Bob Smith."抽出するには、抽出データ コンバータ (抽出ステップ アクションと混同しないでください) を使用します。抽出データ コンバータは、このトピックで説明しているとおりに設定する必要があります。

この例では、使用されているパターンは ".*by\s(.*)\." です。これは、"by" とピリオドの間のテキストは、サブパターンによって照合されることを意味します。詳細については、パターンを参照してください。

  1. 抽出設定を開き、[基本] タブを選択します。
  2. [パターン] フィールドに、抽出するテキスト パターンを入力します。

    パターン プロパティを、かっこでくくられているサブパターンで抽出対象のテキストを照合し、テキスト全体に対して照合するように設定します。

コンテンツの変換

コンテンツを正規化するには、テキストを別のテキストに置換するなど、変換を使用します。たとえば、「US」から「United States」に正規化するなど、国コードを自然言語の説明に正規化します。

  • プレーン テキスト変換の場合は、[リストを使用して変換] データ コンバータを使用します。

  • パターンまたはエクスプレッションに基づいた変換の場合は、[If Then] データ コンバータを使用します。

番号の抽出と書式設定

  1. コンテンツから番号を抽出するには、[数値を抽出] データ コンバータを追加します。
  2. 番号の追加の書式設定を実行するには、[数値の書式設定] データ コンバータを使用します。

テキストから日付抽出

日付抽出は、番号の抽出と同じように実行する必要があります。

  1. テキストから日付抽出するには、ロボットに [日付抽出] データ コンバータを追加します。

    日付抽出では、パターンを使用して日付抽出します。パターンは、テキスト全体ではなく、日付のみに一致する必要があります。抽出された日付は、標準の日付書式に変換されます。

  2. 追加の日付書式設定を実行するには、日付の書式設定データ コンバータを使用します。

見つかったタグ内のタグのサブセットを抽出

単一のタグではなく、タグの範囲から抽出する必要がある場合があります。

たとえば、記事の本文を抽出する場合について考えてみます。この本文は独自のタグ内にある個々のセクションで構成され、記事のタイトルと作成者についての情報は他のタグに含まれています。記事のタイトルと作成者なしに、本文のみを抽出するには、抽出アクションを使用してテキストを抽出し、本文に適用されているタグの範囲のみが抽出されるように抽出アクションを設定します。

  1. [アクション] タブで、[抽出] を選択します。
  2. 範囲の最初のタグを指定します。
  3. 範囲の最後のタグを指定します。