abbyy finereader 12.とはどのように機能しますか:FineReader

今回は紙の文書をに変える方法をお教えします 電子ビュー PDF形式、およびテキストを変更するために紙の文書をコンピューターに転送する方法。 それでは、始めましょう。
手元に紙の書類があります。

PDFにスキャン

タスク:このドキュメントをコンピューターに転送します(電子フォームに変換します)。 また、今後変更されないように、この形式で行う必要があります(大まかに言えば、ドキュメントの写真を撮る必要があります)。 次に、この電子文書を電子メールアドレスに郵送する必要があります。 さらに、クライアントは正確に pdf形式.

段階別:
1)ドキュメントをスキャナーに通します
2)結果の印刷物をPDF形式でコンピューターに保存します
3)受信したファイルをメールで送信します
私の仕事では、この問題を解決するために2つのプログラムを使用しています。
FoxitPhantomまたは ABBYY FineReader..。 わかりやすくするために、スクリーンショットを添付します。
Foxit Phantomで、スキャナーをオンにした状態で、メインメニューから[ファイル]-[PDFを作成]-[スキャナーから...]を選択します。
スキャンし、ファイルを保存するように求められます。 場所を選択し、ファイルの名前を書き込んで保存します。

ABBYY FineReaderには、ツールバーに巨大なボタンがあります。 それらの1つはSCANtoPDFと呼ばれます。 使用しています。

複数ページのドキュメントをスキャンする必要がある場合は、段階的に次のようにします。
1)番号1SCANの下のボタンを押します

スキャンしたドキュメントを受け取ります

また、もう1ページをスキャンします(番号1のスキャンの下にあるボタンをもう一度押します)。
2)PDFに保存



その結果、PDFファイルの形式で完成した複数ページのドキュメントが得られます。

このファイルメールで送信できます。

テキスト認識

タスク:紙の文書を電子形式に(コンピューターに)変換する

段階別:
1)スキャン(SCANボタン1)

2)認識(すべて認識ボタン2)

認識は、写真(写真)をテキスト(文字、数字、記号)に翻訳するプロセスとして理解する必要があります。 テキストページを撮影した場合、認識後、紙のテキストの99%が電子テキストに変わります。 電子テキストは、コンピュータ上で必要に応じてすでに変更(編集)できます。

3)保存先 テキストエディタ(ボタン4保存)
[すべてのページを転送する]を選択することをお勧めします-MICROSOFTWORD

我々が得る

指摘したいのですが 重要なポイント RECOGNITION手順中。 作業には微妙な違いがあります。
認識後すぐに結果を確認することをお勧めします。 特にFineReaderによって作成されたブロックの場合。

これらは、長方形のフレームでマークされた領域です。 これらのフレームは異なる色です。 赤の場合、このブロックはPICTUREとして認識されます。 黒の場合は、テキスト。 ブロックは 他の種類..。 ブロックタイプは、マウスの右ボタンでブロックをクリックし、[ブロックタイプの変更]を選択することで確認できます。

ちょっとしたコツ:任意の領域を選択して、任意のタイプでブロックにマークを付けることができます。 たとえば、マウスの左ボタンを使用して、認識されにくいテキストの部分を選択します(押したままドラッグすると、フレームのサイズが変わります)。

その結果、Wordのドキュメントにはテキストブロックと画像ブロックが含まれます。 画像ブロックの外観は完全に変更されません。 この方法アザラシを保存するときに使用しますが、 カスタムフォント、写真、写真。

PS:PDFを操作し、ドキュメントをスキャンして認識する知識と能力は、事務作業に役立つことがよくあります。 知識-時間を節約できます!

ドキュメント構造の定義

ABBYY FineReaderは、ドキュメント認識に革新的な新しいアプローチを導入します。 これで、ドキュメントはページごとではなく、全体として分析および処理されるようになりました。これにより、FineReaderは、トップや フッター、脚注、写真や図のキャプション、スタイル、フォントなど。 元のドキュメントの要素は、結果のドキュメントに復元されます。 たとえば、ヘッダーとフッターをWordに保存すると、脚注は対応するオブジェクトとしてWordに複製されます。

優れた認識品質と正確なデザイン保存

光学式認識システムABBYYFineReaderは、ドキュメントの元のデザインを可能な限り正確に認識して保存します(画像の背景にテキスト、色付きの背景に色付きのテキスト、画像を折り返すテキストなど)。

多言語文書の認識

ABBYY FineReaderは、ロシア語、英語、ドイツ語、フランス語、スペイン語、イタリア語、スウェーデン語、フィンランド語、ブルガリア語、ハンガリー語、スロバキア語、チェコ語、バシキール語、ベラルーシ語、カザフ語、中国語、ウクライナ語など、188の言語のドキュメントを認識します。ドキュメントのテキスト2つ以上の言語でコンパイルできます。 ユーザーは、タイプのブロックごと、またはテーブル内のセルごとに、独自の認識言語を指定できます。

PDFドキュメントのインテリジェント認識

ご存知のように、一部のPDFファイルにはいわゆるテキストレイヤーが含まれており、その内容が画面に表示されるドキュメントに完全に対応していない場合があります。 FineReaderはファイルの内容を事前に分析し、テキストのブロックごとに決定を下します。それを認識するか、テキストレイヤーから対応するテキストを抽出します。 これにより、認識品質を向上させ、処理時間を短縮することが可能である。

文書のデジタル写真の認識

認識のために、コンピューターにスキャナーを装備する必要はありません。 ABBYY FineReaderを使用すると、デジタルカメラで撮影したドキュメントの写真を認識できます(マトリックス解像度が4メガピクセル以上のデジタルカメラを使用することをお勧めします)。

スキャナーよりもカメラを使って画像を取得する方が便利な場合が多いです。 たとえば、オフィスの外での商談中、看板や通知を認識するとき、図書館で、特に厚い本や古い本を扱うとき。 デジタルカメラがどのスキャナーよりも数倍速く動作するという事実は言うまでもありません。

ハイパーリンク認識

このようなドキュメントは、Microsoft Word、PDF、およびHTML形式で保存できます。 さらに、認識されたテキストに独自のハイパーリンクを追加できます。

PDFファイルを認識すると、外部リンクに加えて、内部リンクも(同じドキュメントの他のページに)復元されます。

スクリーンショットの認識

システム配信セットには、ABBYYスクリーンショットリーダーが含まれています。 シンプルで 便利なアプリケーション画面の任意の領域からのテキストを認識するように設計されています。 ABBYYスクリーンショットリーダーは、コピーできないテキストを編集可能な形式に変換します 通常の方法で-システムメッセージ、Flashムービーの碑文など。 認識されたテキストとスクリーンショットの両方をファイルとして保存するか、クリップボードに転送することができます。

バーコード認識

ABBYY FineReaderは、2次元タイプのPDF-417を含むバーコード認識をサポートしています。

AbbyyFineReaderの歴史は20年以上前にさかのぼります。 同社は2013年のジュビリーを祝い、本格的な(2009年のExpress Editionと比較して)Abbyy FineReader Pro for Macをリリースし、数か月後の2014年2月に「ギフト」を受け取りました。 Windowsユーザー--Abbyy FineReader 12ProfessionalおよびCorporate。 前のバージョンは2011年に登場しましたが、2年半は長い年月です。変更の重要性を理解しましょう。

一般情報

新しいバージョンのシステム要件はまったく変更されていません。 プラットフォームはWindowsまたは Windows ServerそれぞれXPと2003から始まります。 今日のハードウェア要求はさらに控えめです。周波数が1GHzの任意のビット容量のプロセッサ、 ランダム・アクセス・メモリ少なくとも1GBと各コンピューティングコアに512MBなど。ディスクスペースの必要性だけがわずかに増加しました。現在、インストールには700ではなく850 MBが必要です(さらに、以前と同様に、作業ファイル用にさらに700 MB)。

当然、私たちは話している 最小要件; Abbyy FineReader 12 Professionalの全機能は、比較的最新のシステムでのみ公開されます。 特に、このプログラムは個々のページの処理を効果的に並列化し、すべてのプロセッサコアを使用し、すべてのプロセッサをほぼ100%ロードできることを思い出してください。 しかし、それは実際にはRAMに貪欲ではなく、32ビットのままです。

インストール手順も変更されていません。最小限の質問とオプションです。 Abbyy FineReader 12 Professionalには引き続きAbbyyスクリーンショットリーダーが付属しており、ユーザー登録後にのみ操作可能になります。

その後、テクニカルサポートへのアクセスも開始されます。

この控えめな情報に基づいても、これは進化の結果であると推測できます。 したがって、将来的には、 前のバージョン、条件付きで2つの主要なグループに分けることができます:プログラムの操作(インターフェース、 補助ツール、ユーザビリティ)およびOCR(実際の認識の品質とパフォーマンス)。

プログラムでの作業

Abbyy FineReader 12 Professionalは、ユーザーインターフェイスの一部でいくつかの改善を示しています。 これは、プログラムの起動時にデフォルトで開く[タスク]ウィンドウですぐにわかります。 これは明らかにWindows8.xのタイルの概念を模倣しており、特にプログラムがスクロールやズームなどの基本的なジェスチャもサポートしているため、指での制御に適しています。 実際、変更は「ファサード」にのみ影響し、それでも部分的には、タイルの横に通常のコントロールがあり、シナリオを設定する過程で、標準のダイアログボックスを処理する必要があります。 指でそれらを操作することは、特にWindowsタブレットで人気が高まっている8〜10インチの画面では非常に問題があります。

カメラを搭載したこのようなタブレットのユーザーが、外出先で印刷されたドキュメントをすばやく入力したいと思うことは容易に想像できます。 その間、すべて Windowsの歴史、Tablet PCの初版から、標準のデスクトップインターフェイスをタッチコントロールに適合させることの無意味さを確認します。 どうやら、これらの目的のために、すべてのメトロカノンを満たすが同じ「エンジン」を使用する特別なシェルを作成する方がはるかに正しいです。 このようなソリューションの例は、Windows8.xのInternetExplorerです。 さらに、Abbyyには、同社のクラウドサービスを使用するWindows8用のAbbyyFineReaderTouchの形でいくつかの基礎があります。

タッチ入力から逸脱しても、このクラスにはまだ変更があります-ドキュメントを開いたり保存したりするためのウィンドウの非常に期待される更新から、とりわけ、簡単にアクセスできるようになります クラウドストレージ(システム内に対応するエージェントとそのフォルダーがある場合)、いくつかのより重要で有用なものに。

Abbyy FineReader 12Professionalでのページ処理がバックグラウンドで実行されるようになりました。 これは前者の不在を意味します モーダルウィンドウ操作のステータス(現在、この役割は画面下部のステータスバーによって再生されます)と、それに応じて、インターフェイスへのアクセスの可用性を示します。 したがって、ユーザーは、認識プロセスと並行してプログラムを操作する機会があります(もちろん、十分な長さである場合)。たとえば、受信したテキストのフラグメントをコピーしたり、ページのレイアウトを修正したりすることができます。後者はキューに入れられ、再度処理されます。

以前のバージョンとは異なり、自動認識が無効になっている場合は、認識されたとき、またはドキュメントが最初に読み込まれたときにページがめくられません。 Abbyy FineReader 12 Professionalでは、ドキュメントはほぼ瞬時に読み込まれ、ページ付けされます。サムネイルは、左側のパネルを手動でスクロールしたときにのみ作成されます。 とりわけ、これはコンピューティングリソースを節約し、さらに、大きな複数ページのドキュメントで非常に目立ちます。

このクラスの残りの変更はそれほど興味深いものではありませんが、一部のシナリオでは役立つ可能性があるため、簡単に説明します。

ドキュメント全体を処理する必要はなく、個々のパッセージのみを引用する場合は、すべての自動操作をオフにして、任意のタイプの必要なフラグメントを選択し、すぐにクリップボードにコピーできます-分析と認識はで実行されますはえ。

元の構造よりも単純な構造で結果を得るには、ヘッダー、フッター、脚注、およびその他のレイアウト要素の再作成をオフにすることができます。 これは、たとえば、電子書籍を準備するときに役立ちます。

電子書籍の継続-EPUB2.0.1および3.0は、Abbyy FineReader 12Professionalでサポートされています。

たとえば、XLSXへの拡張変換オプションにより、書式設定をクリアしたり、画像を保存したりできるようになりました。

結果のドキュメントをテキストレイヤー付きのPDFとして保存するときに、元のページ画像の文字をスムージングする新しいAbbyy PreciseScanテクノロジーを利用できるようになりました。 ちなみに、カラーモードでのみご利用いただけます。

彼女の作品の効果は非常に顕著ですが、常にではありませんが、「アカデミック」としましょう。 ただし、アンチエイリアス文字の読みやすさは、どのような場合でも高くする必要があります。 この例オリジナルは本当に非常に低品質です。


OCR

それでは、実際の認識のメカニズムにどのような改善が見られたかを見てみましょう。

開発者は、ADRTテクノロジを改善する次の段階について報告します。これは、注意として、ドキュメントの論理構造を分析して再作成します。 彼女は、特に表、リスト、図を使って、はるかに正確に作業を始めたと宣言されています。 適切な例でこれを示すのはそれほど簡単ではありませんが、不可能ではありません。 たとえば、Abbyy FineReader 11 Professional(上)とAbbyy FineReader 12 Professional(下)の同じページの認識結果(デフォルト設定)は次のとおりです。


古いバージョンは、残りの要素が「ごみ」であることを考慮して、おそらく元の品質が低いために、メインテキストブロックのみを選択して処理しました。 一方、新しいリストはリストを正しく識別し、再作成しようとしました。 ただし、結果は理想的ではありません。すべてのマーカーが認識されなかったという事実は、やはり画質に起因する可能性がありますが、プログラムは、明らかに、その前にコンテンツがあることをまだ理解していませんでした。数字を文字として解釈しないでください。 それにもかかわらず、進歩は明らかであり、より高品質のオリジナルでは、そのような主張はおそらくそうではなかったでしょう。

そして、これが行を分割しない「暗黙の」テーブルがどのように処理されるかです-Abbyy FineReader 11 Professional(上)とAbbyy FineReader 12 Professional(下)。


古いバージョンは、新しいバージョンとは異なり、ここではテーブル構造がまったく表示されず、無関係なテキストブロックのセットに制限されていたことがはっきりとわかります。 画像をクリックして認識結果を比較するのを怠らないでください-AbbyyFineReader 12Professionalでは理想に近いです。

残念ながら、これは常に当てはまるわけではなく、すでに隣接するページでAbbyy FineReader 12ProfessionalはAbbyyFineReader 11Professionalと同様の結果を示しています。 同じ「ヘッダー」を追跡し、その前に一種の流れるテーブルがあることを理解する必要があるのはADRTですが。

しかし、更新されたアルゴリズムが以前よりも詳細に注意を払っていることは、依然として非常に注目に値します。 Abbyy FineReader 12 Professionalをテストする過程で、たとえば、テキスト情報が順番に配置された画像を表として解釈しようとする試みさえも観察しました。 多くの場合、新しいバージョンでは、さまざまな図や図に基づいて再作成しようとします。 背景画像、および個別のグラフィックブロックとテキストブロックからではありません。

Abbyy FineReader 12Professionalの認識品質を向上させるために設計されたノベルティがさらにいくつかあります。 ご存知のように、これの前提条件の1つは、特にスキャナーではなくカメラを使用して取得した場合のオリジナルの品質です。 そのため、やがてFineReaderはオリジナルを前処理する手段を導入しました。 新しいバージョンでは、リストが拡張され、ページの端がトリミングされ、背景の明るさが明るくなり、水平になり、色付きの要素が削除されました。 後者は、たとえば、シールやスタンプが付いたドキュメントの処理に役立ちます。 さらに、ユーザーは接続できるようになりました さまざまな方法個別に。

言語サポートも改善されました。 第一に、アクセントのあるロシア語のアルファベットが登場し、第二に、中国語、日本語、韓国語(最大20%)、アラビア語(最大60%)、ヘブライ語(最大10%)の認識品質の向上が宣言されています-これは、明らかに、分類器の改善と追加のトレーニングによって達成されました。

そして最後に、多くの読者にとって最も熱心な質問の1つは、プログラムの速度が向上したかどうかです。 引数、特に数字でこの質問に答えるのはそれほど簡単ではありません。言語が多すぎて、それぞれに独自のニュアンスがあります。 オリジナルの種類が多すぎます。 アルゴリズムの操作に影響を与える未知の要因が多すぎます。 したがって、開発者自身でさえ、Abbyy FineReader 12 Professionalの生産性の10〜15%の向上について話すことはかなり制限されています。

このような数値は通常、かなり大量のドキュメントを処理した結果から得られるため、「病院の平均気温」のようなものを表しています。 したがって、たとえば次の2つのような、いくつかの例示的な特殊なケースをより詳細に調査することは有用です。

  • 300dpiの解像度でカラーでスキャンしたフルカラーA4ブックレットの10ページ。 品質は良く、言語はロシア語と英語で、レイアウトは複雑です。
  • 少量のカラーと白黒のイラスト、いくつかの表を含む、本の138ページのグラフィック画像を含むPDF。 品質は低く(明らかに、紙の本の「ブラインド」印刷から始まります)、言語はウクライナ語とロシア語であり、レイアウトは単純です。

両方のドキュメントはカラーモードで認識され、2番目のドキュメントも白黒で認識されました。これは準備プロセスをシミュレートすることを目的としています。 電子書籍..。 言語のセットとそれに応じたオペレーティングモードを除いて、すべてのデフォルト設定は変更されませんでした。 テストグラウンドとして、i5-3450プロセッサと8GBのメモリを搭載したPCを使用しました。 結果を次の表に示します。

ご覧のとおり、PDFの場合、スピードアップは約束された15%を超えています。おそらく、これは認識アルゴリズムの最新の最適化に適した特殊なケースの1つにすぎません。 プログラムは、一般的に言えば、異なる量の作業を行っていることに留意する必要があります。 テーブル処理については上の図を見てください。どちらのバージョンがより難しいかはわかりません。

エラーの数については、両方のバージョンで実質的に同じでしたが、フラグメントやシンボルが異なると疑わしい場合があることに気づきました。これは、明らかに、アルゴリズムのトレーニングの証拠です。 いずれにせよ、不確実に認識された文字のほとんどは辞書を使用して完全に正しく識別され、「グロス」エラー(特別な装飾文字の誤った解釈、グラフィック上のテキストなど)が一致しました。 したがって、違いは完全に消えたと見なすことができます。

もう1つの質問は、そのようなパフォーマンスの向上はどの程度重要であるかということです。 どうやら、まだチェックする必要があり、おそらく調整する必要がある138ページでの30分の勝利はあまり価値がありません。 テストタスクのような作業が時々実行されることになっている場合は、パフォーマンスについて心配する必要はありません。 もう1つは、大量のドキュメントのオフライン処理に関してです。これは、Abbyy FineReader 12Corporateで利用できます。 この場合、時間の15%を節約することは、すでにかなり具体的です。

概要

新しいAbbyyFineReader 12 Professionalは革新的なものを約束していないという事実にもかかわらず、少なくともいくつかの変更はすべての賞賛に値します。 まず第一に、これらは表、図、および一般的な認識の観点からのADRTテクノロジーの改善です。 論理構造場合によっては劇的に優れた結果を得ることができるページと、大きなドキュメントを操作するインタラクティブな作業の新しい可能性を開くバックグラウンド処理モード。

それほど重要ではありませんが、他にも多くの変更があります。 タッチコントロールのサポートに向けた動きは確かに今日正当化されていますが、選択されたパスは悪質です。1つのインターフェイスでマウスと指を使って同じように便利な操作を提供することはほとんど不可能です。 ただし、Windowsタブレットが市場に参入しようとしている間、Abbyyの開発者にはまだ時間があります。

Abbyy FineReader 12 Professionalの価格:

  • 箱入りバージョン:4990ルーブル;
  • ダウンロードバージョン:4490ルーブル;
  • 更新:2690摩擦。

いつものように、「変更する価値はありますか?」という質問に対する答えは 古いバージョン新しいものに?」 状況によって異なります。 いずれにせよ、FineReaderのライフサイクルは非常に長いことを覚えておく必要があります。説明されている改善のいずれかが重要な役割を果たす場合、2〜3年で更新のコストは確実に報われます。経済的にではなく、道徳的に。 最終的に、この質問を自分で解決するのに役立ちます。

こんにちは。 今日は、Abbyy FineReaderを使用して、スキャンの結果として受け取った可能性のある画像からテキストを認識する方法を説明します。 スキャンしたテキストは完全にMicrosoftWord文書になり、この認識されたテキストは編集できます。 Abbyy Finereaderでテキストを認識することは、テキストや翻訳を勉強したり、作業したりする人に役立ちます。 残念ながら、このプログラムは有料です。 どういうわけか私は同様のプログラムの無料の変種の1つを試す機会がありましたが、スキャンされたテキストは非常によく認識されています...そしてAbbyy FineReaderでのテキストの認識は非常に高品質です! 次に、AbbyyFineReaderを使用して画像からテキストをすばやく認識する方法を説明します。

ABBYYFineReaderには 体験版最大100ページを認識し、ドキュメントから3ページ以内を保存する機能を備えた30日間。 それらの。 この間、プログラムの機能を確認し、十分な情報に基づいて決定を下すことができます。必要かどうか、購入する価値があるかどうかなどです。

Abbyy FineReaderのインストール方法!

Abbyy Finereaderを使用する前に、インストールする必要があります。 このプログラムのインストールプロセスを考えてみましょう...

まず、プログラムの言語を選択します。 「OK」をクリックします。

使用許諾契約の条項に同意します(必要に応じて、使用許諾契約の内容に興味がある場合は、使用許諾契約を読むことができます)。 「次へ」をクリックします。

次に、インストールモードを選択する必要があります。 通常モードでは、プログラムはユーザーに要求せず、プログラムにデフォルトで設定されているもの、つまりすべてのコンポーネントをインストールします。OCR用のAbbyy Finereaderプログラム自体、プログラム用のコンポーネントです。 マイクロソフトオフィスおよびWindowsエクスプローラーのコンポーネント(別のプログラムを開かなくても画像をすばやく認識できるようにします)。 カスタムインストールを確認して、必要に応じてカスタマイズすることをお勧めします。 また、15分もかかりません:)以下はプログラムがインストールされるフォルダです。 後でプログラムを使用するときに問題が発生しないように、デフォルトの選択のままにしておくことをお勧めします。 「次へ」をクリックします。

プログラムのコンポーネント。 このウィンドウは、「カスタム」インストールタイプを選択した場合にのみ表示されます。 コンポーネントは、プログラムのヘルパーアプリケーションのようなものです。 最初のコンポーネント「統合 マイクロソフトプログラムオフィスと ウィンドウズ・エクスプローラ"。 このコンポーネントは、Microsoft Officeメニューに表示され、コンピューター上の画像をクリックすると表示されます。 右クリックマウスを押すと、このプログラムのアイテムが表示されます。 これは、このコンポーネントを追加した後のMicrosoftOfficeでのメニューの外観です。

画像を右クリックすると、次のようになります。

それらの。 結果をWord、Excel、またはPDFに送信してすばやくOCRを作成できるメニューが表示されます。

2番目のコンポーネントを使用すると、コンピューター画面からテキストを認識できます。 これは、スクリーンショットを撮り、テキストを認識することができることを意味します。 これらのコンポーネントのいずれかをインストールしない場合、または両方をまったくインストールしない場合は、下矢印をクリックして[このコンポーネントは使用できなくなります]を選択する必要があります。 その後、コンポーネントはインストールされません。 私は両方を残しました。

それから4つのポイントがあります。 1つ目は、AbbyyFinereaderの使用方法に関する情報が開発者に転送されることを意味します。 このアイテムにマークを付けないことをお勧めします。そうすることで、プログラムがその操作に関する情報を送信するために再びオンラインにならないようにすることができます。 さらに、他にどのような情報が送信されるかはわかりません:) 2番目の項目は、デスクトップ上のプログラムへのショートカットを作成します。 3つ目は、コンピューターの電源を入れたときにプログラムが起動し、4つ目はプログラムの更新を確認することを意味します。 2番目だけを残し、その前にチェックマークを残します。 インストーラーで必要なため、すべてのMicrosoft Officeアプリケーションを閉じて、[インストール]をクリックします。

プログラムがロードされるまで数分待ってから、[次へ]をクリックする必要があります。

以上で、インストールは完了です。 「完了」をクリックします。

Abbyy Finereaderを使用して、スキャンした画像やその他の画像からテキストを認識するにはどうすればよいですか?

プログラムの使い方を考えてみましょう。 たとえば、スキャンしたテキストがあるとします。 ここで、Abbyy FineReaderのテキストを認識するために、プログラムを開きます。 「開く」をクリックします。

必要な画像を選択し、[開く]をクリックします。

必要なドキュメントを開くと、AbbyyFinereaderがテキストの認識を開始します。 ドキュメントが大きいほど、認識に時間がかかります。 1ページを認識するまでに数秒かかる場合があります。

テキストが認識されたら、結果をに保存する必要があります Microsoftドキュメント後で何でも編集できるようにするためのWord。 これを行うには、上の[保存]ボタンをクリックします トップパネルツールを選択し、保存するフォルダを選択します Word文書そして、どのような名前で。

コンピューターにスキャナーが接続されている場合は、プログラムから直接スキャンを開始できます。その後、スキャンされたドキュメントがすぐに認識されます。 これを行うには、上部のツールバーで[スキャン]ボタンをクリックします。 次の手順は、プリンタのドライバソフトウェアによって異なります。 スキャンウィザードの指示に従うだけです。

ご覧のとおり、すべてが非常にシンプルで高速です。 これで、AbbyyFineReaderを使用して画像から画像をOCRする方法がわかりました。 この情報が大いに役立つことを願っています:)頑張ってください!

過去50年間に人工知能(AI)が進歩しても、スマートマシンが人間の認知能力に1イオタ近づくことはありませんが、この方向への進歩を完全に否定することは不公平です。 最も明白で印象的な例はチェスです(より単純なゲームは言うまでもありません)。 コンピュータはまだ私たちの思考を模倣することはできませんが、大量の特殊なメモリとブルートフォース速度でこのギャップを補うことができます。 ウラジーミル・クラムニクは、2006年に彼を獲得したディープフリッツプログラムのパフォーマンスを、確立された(人間の)戦略と戦術のルールとしばしば矛盾するという意味で「非人間的」であると説明しました。

そして1年以上前、かつてコンピューターの勝利のチェスの勝利(有名なディープブルー)の基礎を築いたIBMの別の発案者であるワトソンは、人気のあるアメリカのジェパディクイズの2人のチャンピオンを打ち負かし、新たな突破口を開きました。大幅に。 ただし、ワトソンが独自に回答を表明したにもかかわらず、質問がテキスト形式で彼に送信されたことは重要です。 これは、AIアプリケーションの多くの分野(音声と画像の認識、機械翻訳)での成功はかなり控えめなものであることを示唆していますが、これは今日の実践を妨げるものではありません。 最大の成功は、おそらく、ほとんどすべてのPCユーザーが何らかの形で精通している光学式文字認識システム(OCR、光学式文字認識)によって実証されています。 さらに、この分野でのロシアの開発は、世界で価値のある場所を占めています。つまり、ABBYYFineReaderです。

ちょっとした歴史

ABBYY FineReaderの現在のバージョンは11番です。つまり、アプリケーションは長い道のりを歩んできました。このプロセスの歴史でさえ、興味深いものです。 徹底的な記録のふりをすることなく、私は過去10年間の主要なマイルストーンのみを示します。その間、私は多かれ少なかれFineReaderをフォローしました。

バージョン主な機能
2003 7.0 認識精度が最大25%向上します。 これは、色付きのセルや隠し仕切りなどを備えたテーブル、特に複雑なテーブルに最もよく反映されていました。
2005 8.0 主にドキュメントスキャンではなくデジタル写真での作業を目的とした、認識アルゴリズムのさらなる最適化。 このため、原稿を作成するための追加機能(歪みの除去、線の整列など)が登場しました。
2007 9.0 処理された(複数ページの)ドキュメント全体の論理構造を考慮し、繰り返し要素(ヘッダーとフッター)を強調表示したり、「流れる」オブジェクト(テーブル)を接続したりできるADRTテクノロジーの出現。
2009 10.0 ADRTと認識アルゴリズムがさらに改善され、低解像度でオリジナルを処理する精度が最大30%向上します。
2011 11.0 プログラムの速度に主な注意が払われています。 白黒モードの「再臨」、オリジナルでは 良品質最大30%の追加の加速を提供します。

当然のことながら、同時に、FineReaderはドキュメント形式のサポートを拡張し、組み込みツールとインターフェイスを改善し、オリジナルの構造の再構築を改善しました。次の「突破口」の後、一定期間の「落ち着き」が必要になります。新しいアルゴリズムの改善のため。 それらはあらゆるOCRプログラムの主な価値であり、したがって何らかの形で 詳細な情報ユーザーに届くことはめったにありません。 ただし、ABBYYは秘密のベールを開くことに親切に同意しており、今日はFineReaderの内部の聖域を調べる機会があります。

基本理念

したがって、OCRはAIの分野に属しているため、開発者が少なくともある程度は私たちの脳の活動を模倣しようとすることは非常に論理的です。 もちろん、私たちの視覚系の構造は信じられないほど複雑ですが、その機能の基本的な「大ブロック」の原理は十分に研究されており、通常は次の3つがあります。

  1. 威厳-オブジェクトは、そのパーツのセット、および(ビジュアルイメージの場合)それらの間の空間的関係と見なされます。 同様に、パーツはオブジェクト全体の一部としてのみ解釈されます。 この原則は、仮説を立てて洗練するのに役立ち、ありそうもない仮説をすばやく拒否します。
  2. 目的性-データの解釈は特定の目標を追求するため、認識とは、オブジェクトに関する仮説を提示し、それらを意図的にテストするプロセスです。 この原則に従って動作するシステムは、計算能力をより経済的に使用するだけでなく、ミスを犯しにくくなります。
  3. 適応性-システムは、作業の過程で蓄積された情報を保存し、それを繰り返し使用します。つまり、システムはそれ自体を学習します。 この原則により、新しい知識を作成して蓄積し、同じ問題の繰り返しの解決を回避できます。

FineReaderは、ドキュメント処理のすべての段階で上記の原則に従って動作する世界で唯一のOCRシステムです。 対応する技術はと呼ばれます IPA-英語の用語の最初の文字で。 たとえば、整合性の原則によれば、画像のフラグメントは、類似したオブジェクトのすべての構造部分が含まれ、それらが特定の関係にある場合にのみ、シンボルとして解釈されます。 これは、(多かれ少なかれ適切なパターンを探して)多数のパターンの列挙を、妥当な数の仮説の意図的なテストに置き換え、認識されたドキュメントで可能な文字スタイルに関する以前に蓄積された情報に依存するのに役立ちます。

ただし、IPAの原則は、(おそらく)個々の文字に対応するフラグメントだけでなく、元のページ画像全体にも適用されます。 ほとんどのOCRシステムは、ドキュメントの階層構造の認識に基づいています。つまり、ページは、テーブル、画像、テキストのブロックなどの基本的な構造要素に分割され、次に、他の特徴的なオブジェクトに分割されます。セル、段落など、個々の文字に至るまで。

このような分析は、2つの主な方法で実行できます。上から下、つまり構成要素から個々のシンボルへ、または逆に下から上へです。 それらの1つが最も頻繁に使用されますが、ABBYYは特別なアルゴリズムを開発しました MDA(マルチレベルドキュメント分析)両方を組み合わせます。 つまり、ページの構造はトップダウン方式で分析され、認識終了時の電子文書の再構築はボトムアップで行われますが、すべてのレベルで追加の機能があります。フィードバックメカニズム。 その結果、高レベルのオブジェクトの誤った認識に関連する重大なエラーの可能性が大幅に減少します。

ADRT

歴史的に、OCRシステムは個々の文字を認識することから進化してきました。 このタスクは依然として最も重要で最も難しいタスクであり、最も複雑なアルゴリズムが関連付けられています。 ただし、高レベルの情報(たとえば、ドキュメントの言語や認識された単語の正しいスペルなど)が問題の解決に役立つことがすぐに明らかになりました。これが、コンテキストチェックと辞書チェックの表示方法です。 次に、フォーマットを保持し、ドキュメントの物理構造(つまり、さまざまなオブジェクトの相対位置)を再作成したいという要望から、ページ全体の詳細な分析が必要になりました。 これは、複数列のレイアウト、テーブル、およびその他の「非線形」テキストレイアウトの手法を正しく処理するのに役立つため、認識の全体的な品質にも著しく影響することは明らかです。

最新のOCRのほとんどは、文字、単語、ページの3つのレベルで正確に動作し、すでに述べたように、トップダウンまたはボトムアップのアプローチを実践しています。 ただし、ABBYYは、IPAの原則に従って、FineReaderに別のレベル(複数ページのドキュメント全体)を導入しました。 まず第一に、これは、現代の文書でますます複雑になっている論理構造を正しく再現するために必要でした。 ただし、追加のボーナスがあります。繰り返しオブジェクトの精度の向上と処理の高速化、ページからページへと「流れる」オブジェクトのより正確な識別(したがって認識)です。

これはまさに開発されたものです ADRT(Adaptive Document Recognition Technology)は、論理レベルでドキュメントを分析および合成するためのテクノロジーです。 最終的には、FineReaderの結果を可能な限り元の結果と同じように機能させるのに役立ちます。 これを行うために、ドキュメント全体の画像が分析され、認識された単語がページ上のスタイル、環境、および場所に応じてグループ(クラスター)に結合されます。 したがって、プログラムは、いわば、ドキュメントのマークアップの「ロジック」を認識し、将来的には結果のデザインを統合することができます。

ADRTのおかげで、バージョン9.0以降のFineReaderは、ドキュメントの次の構造部分とフォーマット要素を検出、認識、および再現することを学びました。

  • 本文;
  • ヘッダーとフッター。
  • ページ番号;
  • 同じレベルの見出し。
  • 目次;
  • テキスト挿入;
  • 図のキャプション;
  • テーブル;
  • 脚注;
  • 署名/シールエリア;
  • フォントとスタイル。

認識プロセス

MDAアルゴリズムによれば、実際の認識はページレベルから上から下に始まります。 このプロセスの初期段階で誤った決定が下されるほど、次の段階でより多くの決定が下されることは明らかです。 そのため、認識精度は原稿の品質に大きく依存しますが、前処理のアルゴリズムが不可欠な場合があります。 したがって、カラードキュメントの人気が高まるにつれ、FineReaderは適応型2値化を導入しました( AB)。 透かしがあるか、テキストがテクスチャまたは色付きの素材に配置されている白黒モードでドキュメントを一度にスキャンすると、画像は常に「ゴミ」として表示され、「ゴミ」から分離するのは非常に困難になります。便利な」画像(彼に関する元の情報はすでに失われているため)。 そのため、FineReaderは、カラーまたはグレースケールの画像を個別に白黒に変換して処理することを好みます(このプロセスは2値化と呼ばれます)。 しかし、それだけではありません。 テキストと背景の色はページ内や個々の行内でも異なる可能性があるため、ABはほぼ同じ特性を持つ単語を強調表示し、認識品質の観点から最適な2値化パラメーターをそれぞれ選択します。 これはまさにアルゴリズムの適応性であり、したがって、MDAでのフィードバックの使用例です。 ABの有効性が元のドキュメントのデザインに強く依存していることは明らかです。ABBYYテストベースでは、このアルゴリズムによって認識精度が14.5%向上しました。

しかし、もちろん、最も興味深いのは、認識プロセスが最低レベルに下がったときに始まります。 いわゆる線形除算手順は、行を単語に分割し、単語を個々の文字に分割します。 次に、IPAの原則に従って、一連の仮説を形成します(つまり、 可能なオプションそれがどのような文字であるか、単語がどの文字に分割されるかなど)、それぞれに確率の推定値を提供した後、それを文字認識メカニズムの入力に送信します。 後者は、いくつかのいわゆる 分類子、それぞれが一連の仮説を形成し、想定される可能性の程度に従ってランク付けされます。 分類器の最も重要な特性は、正しい仮説の平均位置です。 それが高いほど、後続のアルゴリズム(たとえば、辞書チェック)の作業が少なくなることは明らかです。 しかし、十分に機能する分類器の場合、最も頻繁に評価される特性は、最初の3つの仮説による、または最初の仮説のみによる認識精度です。つまり、大まかに言えば、3回または1回の試行から正解を推測する能力です。 ABBYYは、そのシステムで次のタイプの分類子を使用します:ラスター、特徴、特徴の差異、輪郭、構造および構造の差異-2つの論理レベルでグループ化されます。

動作原理 RK、またはラスター分類子は、シンボル画像と標準のピクセルごとの比較に基づいています。 後者は、トレーニングサンプルからの画像を平均化した結果として形成され、特定の標準形式に縮小されます。 したがって、認識された画像の場合、要素のサイズ、厚さ、および勾配も事前に正規化されます。 この分類器は、実装の単純さ、操作の速度、画像の欠陥に対する耐性によって区別されますが、精度が比較的低いため、仮説のリストをすばやく生成するために最初の段階で使用されます。

特徴分類器( PC)は、その名前が示すように、画像内の特定の記号の兆候の存在に基づいています。 合計でN個のそのような兆候がある場合、各仮説はN次元空間内の点で表すことができます。 したがって、仮説の精度は、仮説から標準に対応する点までの距離によって推定されます(これはトレーニングサンプルにも蓄積されます)。 特徴の種類と数が認識の質を大きく左右することは明らかであるため、通常は多くの特徴があります。 この分類器も比較的高速で単純ですが、さまざまな画像の欠陥に対してあまり耐性がありません。 さらに、PCは元の画像ではなく、特定のモデル、抽象化で動作します。つまり、一部の情報は考慮されません。たとえば、いくつかの重要な要素が存在するという事実自体は、彼らの相対的な位置については何でも。 このため、代わりにPCを使用するのではなく、RKと一緒に使用します。

輪郭分類器( QC)はPCの特殊なケースであり、元の画像から抽出された目的のシンボルの輪郭を分析するという点で異なります。 一般的に、その精度は本格的なPCよりも低くなります。

特徴微分分類器( MPC)もPCに似ていますが、「m」や「rn」などの類似したオブジェクトを区別するためにのみ使用されます。 したがって、差異が隠されている領域のみを分析し、元の画像だけでなく、認識の初期段階で形成された仮説も入力として提供されます。 ただし、動作原理はパソコンとは多少異なります。 N次元空間でのトレーニングの段階で、2つのオプションのそれぞれに対して可能な値の2つの「雲」(点のグループ)が形成され、次に「雲」を互いに分離する超平面が構築され、それらからほぼ等距離です。 認識結果は、元の画像に対応する点がどの半空間に入るのかによって異なります。

MPC自体は仮説を提示せず、既存の仮説を明確にするだけであり(一般的な場合、そのリストはバブル法でソートされます)、その有効性の直接評価は実行されませんが、間接的に、OCR認識の第1レベル全体の特性と同等です。 ただし、選択した機能の正確さと標準のサンプルの代表性に依存することは明らかであり、その提供はかなり骨の折れる作業です。

構造微分分類器( KFOR)はもともと手書きのテキストを処理するために使用されていました。 そのタスクは、「C」と「G」などの類似したオブジェクトを区別することです。 したがって、SDCはシンボルの各ペアに特徴的な機能に基づいており、学習プロセスはMPCよりもさらに複雑であり、作業速度は以前のすべての分類器よりも低速です。

構造分類器( SC)はABBYYの誇りの源であり、もともとはいわゆる手書きのテキストを認識するために開発されました。つまり、人が「ブロック」文字で書いたときに、後で印刷に使用されました。 これは認識の最終段階で使用され、非常にまれに、つまり、十分に高い確率で少なくとも2つの仮説が到達した場合にのみ有効になります。

すべての分類器の定性的特性を次の表に要約します。 ただし、これらは絶対的なものではなく、特定のテストサンプルの処理に基づいて取得されるため、アルゴリズムの相互の効率を評価することしかできません。 認識の最終段階では、苦労は文字通り数パーセントであるという印象を受けるかもしれませんが、実際には、各分類子は認識精度の向上に大きく貢献しています。たとえば、ICはエラーの数を次のように減らします。顕著な20%。

RKPCQCMPC *SDK **SK **
最初の3つのオプションの精度、%99,29 99,81 99,30 99,87 99,88 -
最初のオプションによる精度、%97,57 99,13 95,10 99,26 99,69 99,73

* ABBYYOCRアルゴリズムの第1レベル全体の評価
**適切な分類子を追加した後のアルゴリズム全体の推定

ただし、かなり高い精度にもかかわらず、認識アルゴリズム自体が最終的な決定を下さないのは不思議です。 MDAの原則に従って、仮説はすべての論理レベルで提示され、その数は指数関数的に増加する可能性があります。 したがって、すべての仮説の逐次テストが効果的である可能性は低いため、ABBYY OCRシステムは、仮説を構造化する方法、つまり特定のモデルを参照する方法を使用します。 後者は数十ありますが、ここにそれらのタイプのほんの一部があります:辞書の単語、非辞書の単語、アラビア数字、ローマ数字、URL、 正規表現-そして、それぞれに多くの特定のモデルを含めることができます(たとえば、 有名な言語、ラテン語、キリル文字など)。

すべての最終アクションは、モデルに基づく仮説を使用して実行されます。 たとえば、コンテキストチェックはドキュメントの言語を決定し、誤ったアルファベットを使用するモデルの可能性を即座に大幅に減らします。辞書チェックは、一部の文字の不確実な認識におけるエラーを補正します。たとえば、「ターン」という単語は英語の辞書-「tum」とは異なり(とにかく、人気のある辞書には含まれていません)。 辞書の優先度はどの分類子の優先度よりも高いですが、それは必ずしも最後の手段ではなく、一般的な場合はそれ以上のチェックを停止しません。まず、前述のように、非辞書の単語のモデルがあります。第二に、辞書の特別な編成により、確率の高い割合で、未知の単語が特定の言語を参照できるかどうかを推測できます。 それにもかかわらず、辞書チェック(および辞書の完全性)は認識結果に大きな影響を与え、ABBYY自体のテストでは、エラーの数を実質的に半分にします。

OCRだけでなく

印刷された文書は、デジタル化と自動処理の点で唯一の関心事ではありません。 多くの場合、フォーム、つまり、手動で入力されるが比較的きれいに入力される事前定義された固定フィールドを持つドキュメント(いわゆる手書き文字)を操作する必要があります。例としては、さまざまなアンケートがあります。 それらの処理の技術には別の名前があります- ICR(インテリジェント文字認識)-そしてOCRとはかなり大きく異なります。 したがって、この場合のタスクはドキュメント全体を再作成することではなく、ドキュメントから特定のデータを抽出することであるため、必須フィールドの検索と実際のコンテンツの認識という2つの主要なサブタスクに分けられます。

これはかなり特殊な領域であり、ABBYYは完全に別個のソフトウェア製品であるABBYYFlexiCaptureを提供しています。 自動および半自動システムを作成するように設計されており、特別なテンプレートが作成される特定の種類のドキュメントのカスタマイズを前提としており、ページ上のさまざまなフィールドをインテリジェントに検索してデータを検証することができます。ただし、基本は基本です。 FineReaderで使用されているものと同様の文字認識アルゴリズムについて 一般的なスキーム似ている:

ただし、依然として重要な違いがあります。構造分類子はプロセスの必須の参加者です。これは、手書きの文字の詳細によるものです。 さらに、ICRには、文字が取り消し線であるかどうか、認識された文字が実際に日付を形成しているかどうかなど、多数の特定の追加チェックが含まれます。

トピックの続き:
アンドロイド

ウクライナ人は、マイダン当局によってブロックされたロシアのソーシャルネットワークVKontakteの類似物を作成できませんでした。 これは、著者の1人によってFacebookで報告されました...