Программа обработки текста после сканирования AfterScan
В прошлой главе, рассматривая работу программы оптического распознавания текста FineReader, мы увидели, что текст после сканирования и распознавания нуждается в корректировке, и чем сложнее форматирование текста и чем больше его объем, тем больше усилий придется затратить, чтобы привести его к приемлемому для дальнейшей работы виду.
Программа FineReader и текстовый процессор Word предоставляют мощные и разнообразные средства для решения этой задачи, но изрядную часть работы все-таки приходится делать вручную. Существует не очень известная в России программа AfterScan, которая в ряде случаев способна выполнить корректировку отсканированного текста автоматически. Эта программа может использоваться для обработки и правки текстов больших объемов, введенных с клавиатуры или полученных при помощи программ оптического распознавания текстов, причем для эффективной работы программы важно знать, каким именно способом получен текст.
Авторы программы утверждают, что в ее основе лежат алгоритмы, позволяющие анализировать и исправлять ошибки и опечатки практически любых типов, причем в отличие от программы проверки грамматики Word, программа AfterScan может исправлять ошибки и опечатки самостоятельно.
Рассмотрим эту программу более подробно.
Программа AfterScan выпускается в четырех версиях
AfterScan Express - shareware-версия для домашнего пользования;
AfterScan Professional - для издательств и компаний;
AfterScan Antique - для обработки текстов в старорусской орфографии и перевода его в современную орфографию;
AfterScan Webmaster - для пакетной обработки большого числа документов, например, для обработки текстов, размещаемых на Web-сайтах.
Различия между функциональными возможностями различных версий программ видны из таблицы:
| Обработка текстов | Express | Professional | Antique | Webmaster |
| Обработка ошибок OCR | ♦ | ♦ | ♦ | ♦ |
| Обработка ошибок ручного ввода | ♦ | ♦ | ♦ | |
| Обработка старорусских текстов | ♦ | |||
| Перевод старорусских текстов в современную орфографию | ♦ | |||
| Чистка пунктуации | ♦ | ♦ | ♦ | ♦ |
| Чистка отступов и пробелов | ♦ | ♦ | ♦ | ♦ |
| Обработка латинских букв в русских словах | ♦ | ♦ | ♦ | ♦ |
| Восстановление специальных символов других языков | ♦ | ♦ | ♦ | ♦ |
| Восстановление римских цифр | ♦ | ♦ | ♦ | ♦ |
| Обнаружение сокращений и аббревиатур | ♦ | ♦ | ♦ | ♦ |
| Обнаружение математических и химических формул | ♦ | ♦ | ♦ | ♦ |
| Обнаружение HTML-тегов и скриптов | ♦ | |||
| Склейка слов с переносами | ♦ | ♦ | ♦ | |
| Склейка слов с отбивкой пробелами | ♦ | ♦ | ♦ | |
| Поиск новых слов в нескольких файлах | ♦ | |||
| Прочие функции | ||||
| Функция переформатирования текстов | ♦ | ♦ | ♦ | ♦ |
| Улучшенный диалог поиска и замены | ♦ | ♦ | ♦ | ♦ |
| Поддержка словаря пользователя и редактор | ♦ | ♦ | ♦ | |
| Ручная защита фрагментов текста от изменений | ♦ | ♦ | ♦ | |
| Сохранение Журнала вместе с документом | ♦ | ♦ | ♦ | |
| Пакетная обработка большого числа файлов | ♦ | |||
| Пакетная конверсия формата файлов | ♦ | |||
| Цена (на момент написания книги, для граждан СНГ, рублей) | 300 | 800 | 1500 | 2100 |
Программа AfterScan Express - условно бесплатная[1], ее оценочную версию, которая будет работать в течение 30 дней, можно загрузить с сайта программы по адресу: http://http://www.futura.ru/hg/ase51en.exe[2] (для английских текстов), размер файла - 2,9 Мб. На момент написания книги на сайте разработчиков была выложена сборка программы за номером 023.