画像からテキスト抽出ステップ

このステップでは、テキストを画像から抽出します。Kofax RPA では、Tesseract OCR エンジンを使用して、テキストをイメージからキャプチャします。英語はインストールに含まれています。詳細については、デフォルトの OCR 言語の変更を参照してください。

注表のセルエレメントからテキストを抽出することはできません。

プロパティ

名前

ステップの名前。

変数

抽出されたテキストを保存する変数を指定します。

テキストのフォントサイズ

小：12 ピクセル未満のフォント。
中 (デフォルト): 12 ピクセルから 24 ピクセルまでのフォントサイズ。
大：24 ピクセルを超えるフォント。

フォントサイズの選択は、テキスト分析および認識の速度に影響します。たとえば、大きい画像を分析する場合、[大] を選択すると、[中] と比べて分析が 2 倍または 3 倍加速します。[小] を選択すると、[中] と比べて認識速度が 2 倍または 3 倍低下します。さまざまな設定を試してみて、速度と認識結果が最適になるものを選択してください。

画像の二値化

自動：Tesseract アルゴリズムが画像のテキスト認識準備に使用されます。
カスタム：Kofax RPA アルゴリズムが画像のテキスト認識準備に使用されます。詳細については、テキスト認識の微調整を参照してください。
閾値デルタ
なし
Positive
- Small
- Medium
- Large
Negative
- Small
- Medium
- Large

テキスト認識の微調整

デフォルトで、Kofax RPA では、ほとんどの場合許容可能な結果を生成する Tesseract アルゴリズムが OCR に使用されます。テキストが識別される前、アルゴリズムによって画像が黒白画像に変換され、テキストが認識されるようにその他の調整が行われます。認識可能なテキストが背景に紛れ、認識結果がよくない場合、[画像の二値化] オプションで [カスタム] に変更し、許容可能な結果が生成されるように [閾値デルタ] オプションを調整できます。

以下は、認識のために画面からコピーされた画像です。
OCR のグレイテキスト

以下は、テキスト認識のための Kofax RPA アルゴリズムからの内部画像調整結果です。各画像に一連の [閾値デルタ] オプションでラベルが付けてあります。複雑な場合、別のオプションを試してみて、認識結果が最適になるものを選択してください。

閾値デルタ：なし
閾値デルタ：Positive Medium
閾値デルタ：Negative Medium

拡張 OCR 設定は、ocr.cfg ファイルで編集できます。詳細については、拡張 OCR 設定を参照してください。

{searchVal} の検索で {total} 件の結果が返されました。

画像からテキスト抽出ステップ

プロパティ

テキスト認識の微調整