Ввести со сканера текст в компьютер –
задача не слишком трудная. Однако работать с таким текстом невозможно:
как и любое сканированное изображение, страница с текстом представляет
собой графический файл – обычную картинку. Отсюда возникают проблемы:
во-первых, в графическом формате страница занимает слишком много места,
и, скажем, отсканированная книга не на каждый жесткий диск поместится. И
вторая, самая главная проблема: сканированный текст можно будет только
читать, но не редактировать и не вставлять его фрагменты в создаваемый
вами документ. Ведь сам сканер распознавать буквы именно как буквы не
умеет: они для него – всего лишь пятна и точки черного цвета. К
счастью, на свете существуют программы, способные перевести
сканированный текст из графического в текстовый формат – программы
распознавания текста или OCR. Современная
OCR должна уметь многое: распознавать тексты, набранные не только
определенными шрифтами (именно так работали распознавалки первого
поколения), но и самыми экзотическими, вплоть до рукописных. Уметь
корректно работать с текстами, содержащими слова на нескольких языках,
корректно распознавать таблицы. И самое главное – корректно распознавать
не только четко набранные тексты, но и такие, качество которых, мягко
говоря, далеко от идеала. Например, текст с пожелтевшей газетной вырезки
или третьей машинописной копии. Само собой, распознать текст – это еще
полдела. Не менее важно обеспечить возможность сохранения результата в
файле популярного текстового (или табличного) формата – скажем, формата
Microsoft Word или Excel. Как видим, для
того чтобы получить электронную, готовую к редактированию копию любого
печатного текста, программе OCR необходимо выполнить «цепочку» из
множества отдельных операций: Сканирование.
За эту работу отвечает, собственно, не программа OCR, а встроенное в
систему программное обеспечение вашего сканера. Именно с его помощью вы
можете задать нужные вам параметры сканирования – например, разрешение
(рекомендуется 300 dpi), цветовой режим (для простых текстов достаточно
черно-белого или LineArt) – и выделить ту область документа, которую вам
необходимо «скопировать» в компьютер. Сегментация.
Полученную со сканера «картинку» подхватывает OCR-программа. Но до
распознавания еще далеко – сначала надо отделить текстовые элементы от
графики, да и текст в ряде случаев разбить на отдельные куски (например,
при многоколоночной верстке). Распознавание. На этом этапе текст переводится из графической формы в обычную текстовую. Проверка орфографии и правка.
Встроенная система проверки орфографии «проходится» по тексту, проверяя
и корректируя последствия работы системы распознавания. Спорные слова и
символы выделяются особым предупреждающим цветом. Потом наступает
очередь пользователя, который также может внести свою лепту в этот
ответственный процесс. Сохранение.
Для дальнейшей обработки документ должен быть передан «на поруки»
соответствующей программе – как правило, одному из продуктов семейства
Microsoft Office. Или сохранен в формате, соответствующем его
содержанию: текст – в DOC или RTF, таблица – в XLS... Да и встроенную
графику желательно в документе оставить... Все
эти операции в большинстве программ OCR могут выполняться как в
автоматическом, с помощью программы-мастера, так и в ручном режиме, по
отдельности. С двумя первыми и последней операциями с легкостью
справится любая программа распознавания. А вот весь процесс целиком по
зубам, увы, только нескольким продуктам, разработанным в нашей стране.
Тут надо сделать небольшую поправку: на самом деле корректно работать с
русским языком умеют практически все современные «распознавалки», вне
зависимости от того, где они были разработаны. Более того, в состав
Microsoft Office-2003 уже включена абсолютно бесплатная программа
распознавания Microsoft Office Document Scanning! Однако для российских
пользователей само понятие «программа распознавания текста» чаще всего
неразрывно связано с программой FineReader. Ибо компания ABBYY смогла не
просто создать удобный для пользователя и качественный продукт, но и,
самое главное, удачно «раскрутить» его. Одним
из козырей FineReader является поддержка неимоверного количества языков
распознавания – 176, в числе которых вы найдете экзотические и древние
языки, и даже популярные языки программирования (Basic, С/C++, COBOL,
Fortran, Java, Pascal)! Так что FineReader сможет без запинки справиться
с древнегреческим свитком или с бледными распечатками исходных текстов
программ, сделанных вашими предками лет 30 назад. Как ни странно,
большинство пользователей на деле интересуется совсем другим. Офисных
работников интересует распознавание типовых форм документов, студентов –
возможность быстро «передрать» для реферата многостраничный текст из
учебника, сканируя и распознавая книжный разворот целиком, бухгалтеров –
возможность автоматического распознавания таблиц и документов на
бланках... Все это и многое другое FineReader умеет... или не все, а
только частично, в зависимости от модификации продукта. Далеко не все
возможности из нашего перечня включены в самую простую модификацию
программы, которую вы можете получить бесплатно вместе со сканером.
Пакетное сканирование, грамотная обработка таблиц и изображений – для
всего этого стоит приобрести профессиональную версию программы –
FineReader Pro. Заодно она умеет безукоризненно читать штрихкоды,
позволяет добавлять в базу данных новые языки. А самая мощная (и
дорогостоящая) версия – FineReader Office – без труда справится и с
распознаванием любых бланков и форм! Все версии FineReader, от самой
простой до самой мощной, объединяет, на мой взгляд, главное достоинство
программы – интерфейс. Для запуска процесса распознавания вам достаточно
просто положить документ в сканер и нажать единственную кнопку (мастер
Scan & Read) на панели инструментов программы. Все дальнейшие
операции – сканирование, разбивку изображения на «блоки» и, наконец,
собственно распознавание программа выполнит автоматически. Пользователю
останется только установить нужные параметры сканирования –
рекомендуется разрешение в 300 dpi и режим черно-белого изображения или
LineArt. Впрочем, текст можно отсканировать и в цветном режиме: в этом
случае FineReader сможет грамотно распознать цветовое выделение шрифтов и
сохранить его в готовом документе. После
завершения распознавания страницы FineReader предложит пользователю
выбор: сканировать и распознавать дальше (для многостраничного
документа) или сохранить полученный текст в одном из множества
популярных форматов – от документов Microsoft Office до HTML или PDF.
Можно, впрочем, сразу же перебросить документ в Word или Excel и уже там
исправить все огрехи распознавания (без них обойтись просто
невозможно). При этом FineReader полностью сохраняет все особенности
форматирования документов и графическое оформление.
|