Читать «Программа обработки текста после сканирования AfterScan» онлайн

Cadet Bigler

Программа обработки текста после сканирования AfterScan

В прошлой главе, рассматривая работу программы оптического распознавания текста FineReader, мы увидели, что текст после сканирования и распознавания нуждается в корректировке, и чем сложнее форматирование текста и чем больше его объем, тем больше усилий придется затратить, чтобы привести его к приемлемому для дальнейшей работы виду.

Программа FineReader и текстовый процессор Word предоставляют мощные и разнообразные средства для решения этой задачи, но изрядную часть работы все-таки приходится делать вручную. Существует не очень известная в России программа AfterScan, которая в ряде случаев способна выполнить корректировку отсканированного текста автоматически. Эта программа может использоваться для обработки и правки текстов больших объемов, введенных с клавиатуры или полученных при помощи программ оптического распознавания текстов, причем для эффективной работы программы важно знать, каким именно способом получен текст.

Авторы программы утверждают, что в ее основе лежат алгоритмы, позволяющие анализировать и исправлять ошибки и опечатки практически любых типов, причем в отличие от программы проверки грамматики Word, программа AfterScan может исправлять ошибки и опечатки самостоятельно.

Рассмотрим эту программу более подробно.

Программа AfterScan выпускается в четырех версиях

AfterScan Express - shareware-версия для домашнего пользования;

AfterScan Professional - для издательств и компаний;

AfterScan Antique - для обработки текстов в старорусской орфографии и перевода его в современную орфографию;

AfterScan Webmaster - для пакетной обработки большого числа документов, например, для обработки текстов, размещаемых на Web-сайтах.

Различия между функциональными возможностями различных версий программ видны из таблицы:

Обработка текстов Express Professional Antique Webmaster
Обработка ошибок OCR
Обработка ошибок ручного ввода
Обработка старорусских текстов
Перевод старорусских текстов в современную орфографию
Чистка пунктуации
Чистка отступов и пробелов
Обработка латинских букв в русских словах
Восстановление специальных символов других языков
Восстановление римских цифр
Обнаружение сокращений и аббревиатур
Обнаружение математических и химических формул
Обнаружение HTML-тегов и скриптов
Склейка слов с переносами
Склейка слов с отбивкой пробелами
Поиск новых слов в нескольких файлах
Прочие функции
Функция переформатирования текстов
Улучшенный диалог поиска и замены
Поддержка словаря пользователя и редактор
Ручная защита фрагментов текста от изменений
Сохранение Журнала вместе с документом
Пакетная обработка большого числа файлов
Пакетная конверсия формата файлов
Цена (на момент написания книги, для граждан СНГ, рублей) 300 800 1500 2100