画像からテキスト抽出ステップ

このステップでは、テキストを画像から抽出します。Kofax RPA では、Tesseract OCR エンジンを使用して、テキストをイメージからキャプチャします。英語はインストールに含まれています。詳細については、デフォルトの OCR 言語の変更を参照してください。

表のセル エレメントからテキストを抽出することはできません。

画像からのテキスト抽出ステップ

プロパティ

名前
ステップの名前。
変数
抽出されたテキストを保存する変数を指定します。
テキストのフォント サイズ
  • 小:12 ピクセル未満のフォント。
  • 中 (デフォルト): 12 ピクセルから 24 ピクセルまでのフォント サイズ。
  • 大:24 ピクセルを超えるフォント。

フォント サイズの選択は、テキスト分析および認識の速度に影響します。たとえば、大きい画像を分析する場合、[大] を選択すると、[中] と比べて分析が 2 倍または 3 倍加速します。[小] を選択すると、[中] と比べて認識速度が 2 倍または 3 倍低下します。さまざまな設定を試してみて、速度と認識結果が最適になるものを選択してください。

画像の二値化
  • 自動:Tesseract アルゴリズムが画像のテキスト認識準備に使用されます。
  • カスタム:Kofax RPA アルゴリズムが画像のテキスト認識準備に使用されます。詳細については、テキスト認識の微調整を参照してください。
    閾値デルタ
    なし
    Positive
    • Small
    • Medium
    • Large
    Negative
    • Small
    • Medium
    • Large

テキスト認識の微調整

デフォルトで、Kofax RPA では、ほとんどの場合許容可能な結果を生成する Tesseract アルゴリズムが OCR に使用されます。テキストが識別される前、アルゴリズムによって画像が黒白画像に変換され、テキストが認識されるようにその他の調整が行われます。認識可能なテキストが背景に紛れ、認識結果がよくない場合、[画像の二値化] オプションで [カスタム] に変更し、許容可能な結果が生成されるように [閾値デルタ] オプションを調整できます。

以下は、認識のために画面からコピーされた画像です。
OCR のグレイテキスト

以下は、テキスト認識のための Kofax RPA アルゴリズムからの内部画像調整結果です。各画像に一連の [閾値デルタ] オプションでラベルが付けてあります。複雑な場合、別のオプションを試してみて、認識結果が最適になるものを選択してください。

閾値デルタ:なし

閾値デルタ - なし
閾値デルタ:Positive Medium

OCR の二値化 positive medium
閾値デルタ:Negative Medium

Negative Medium 二値化オプション

拡張 OCR 設定は、ocr.cfg ファイルで編集できます。詳細については、拡張 OCR 設定を参照してください。