画像からテキスト抽出

このステップは、選択した OCR エンジンを使用して画像からテキストを抽出するのに役立ちます。Tesseract エンジン (デフォルト) または OmniPage エンジンを選択して、画像からテキストをキャプチャできます。Tesseract の場合は、英語のみがインストールに含まれています。OmniPage には、インストールでサポートされるすべての言語が含まれています。バージョン 11.1 より前の Kofax RPA で作成されたロボットは、Tesseract エンジンを使用します。詳細については、Desktop Automation のデフォルトの OCR 言語の変更を参照してください。

組み込みブラウザで操作する場合のように、Desktop Automation サービスを使用しないでこのステップを使う場合は、ocr.cfg ファイルの OCR 設定を変更します。詳細については、拡張 OCR 設定を参照してください。

表のセル エレメントからテキストを抽出することはできません。

プロパティ

名前
ステップの名前。
変数
抽出されたテキストを保存する変数を指定します。
テキストのフォント サイズ
  • 小:12 ピクセル未満のフォント。
  • 中 (デフォルト): 12 ピクセルから 24 ピクセルまでのフォント サイズ。
  • 大:24 ピクセルを超えるフォント。

フォント サイズの選択は、テキスト分析および認識の速度に影響します。たとえば、大きい画像を分析する場合、[大] を選択すると、[中] と比べて分析が 2 倍または 3 倍加速します。[小] を選択すると、[中] と比べて認識速度が 2 倍または 3 倍低下します。さまざまな設定を試してみて、速度と認識結果が最適になるものを選択してください。

画像の二値化
  • 自動:Tesseract アルゴリズムが画像のテキスト認識準備に使用されます。
  • カスタム:Kofax RPA アルゴリズムが画像のテキスト認識準備に使用されます。詳細については、テキスト認識の微調整を参照してください。
    閾値デルタ
    なし
    Positive
    • Small
    • Medium
    • Large
    Negative
    • Small
    • Medium
    • Large

テキスト認識の微調整

以下の情報は Tesseract エンジンにのみ適用されます。

デフォルトで、Kofax RPA では、ほとんどの場合許容可能な結果を生成する Tesseract アルゴリズムが OCR に使用されます。テキストが識別される前、アルゴリズムによって画像が黒白画像に変換され、テキストが認識されるようにその他の調整が行われます。認識可能なテキストが背景に紛れ、認識結果がよくない場合、[画像の二値化] オプションで [カスタム] に変更し、許容可能な結果が生成されるように [閾値デルタ] オプションを調整できます。

以下は、認識のために画面からコピーされた画像です。
OCR のグレイテキスト

以下は、テキスト認識のための Kofax RPA アルゴリズムからの内部画像調整結果です。各画像に一連の [閾値デルタ] オプションでラベルが付けてあります。複雑な場合、別のオプションを試してみて、認識結果が最適になるものを選択してください。

閾値デルタ:なし

閾値デルタ - なし
閾値デルタ:Positive Medium

OCR の二値化 positive medium
閾値デルタ:Negative Medium

Negative Medium 二値化オプション

拡張 OCR 設定は、ocr.cfg ファイルで編集できます。詳細については、拡張 OCR 設定を参照してください。