Что лучше распознает PDF?

Какой из способов распознавания текст из изображений и PDF лучше – ABBYY Fine Reader, MS Office 2013 (Word) или Диск Google (OCR)? Рассмотрим каждый способ по-отдельности, преимущества и недостатки, и как использовать. Об оптическом распознавании MS Office 2013 и Google Drive более подробно – не каждый знает, что такое вообще есть. В конце сравним результаты перевода трех программ и подведем итоги.
Пожалуй, ABBYY Fine Reader самый распространенный и рекомендуемый в сети способ распознавания текста, но он имеет свои недостатки. Относительно недавно ряды конкурентов пополнили MS Office 2013 и облако Google. О том, что последние два распознают текст PDF даже не каждый знает. Так что рассмотрим особенности работы каждого из способов подробно. Вконце статьи сравним результаты распознавания.
ABBYY Fine Reader
Преимущества:
1. Одно из самых лучших приложений для распознавания текста изображений и PDF. Качество распознавание высокое.
2. Будет уперто обрабатывать самые расплывчатые тексты, даже если в результате выдаст непонятные иероглифы.
3. Переводит не только PDF, но и DJVU, и изображения любых форматов.
Недостатки:
1. ABBYY Fine Reader платный продукт. Так что или придется заплатить, или искать «крякнутые» версии и ключи. Так как работники ABBYY довольно тщательно следят за ссылками на пиратские версии, найти приложение с «таблеткой» не всегда легко.
2. Fine Reader – это мощная, поэтому тяжеловесная система оптического распознавания. Его возможности довольно велики.Но зачастую пользователю нужны всего 1-2 функции, например, перевести изображение в MS Word. Для машин со средними характеристиками (около 2 Гб ОЗУ) работа ABBYY Fine Reader на фоне вполне ощутимая.
Как использовать?
1. Установите ABBYY Fine Reader.
2. Запустите и сразу увидите опции распознавания.
3. Когда перевод закончится, сохраняйте в нужном формате.
MS Office 2013
Преимущества:
1. Качество извлечения текста на высоте. Некоторые элементы переводит лучше, чем ABBYY Fine Reader.
2. Быстрый и удобный в работе. Все, что нужно сделать, - это нажать правой кнопкой мышки на PDF-файл и выбрать «Открыть с помощью/Word». Несмотря на то, что MS Office 2013 мощный офисный процессор, запускается он быстро и использует относительно немного ОЗУ.
Недостатки:
1. Microsoft Office 2013 – платный офисный пакет.
2. Не распознает DJVU и изображения.
3. Когда MS Office конвертирует PDF, все другие открытые документы в Word зависают – ждут пока процесс завершится.
Как использовать?
1. Установить MS Word 2013;
2. Правой кнопкой на файле PDF, «Открыть с помощью», выбираем “Word”;
3. Сначала файл откроется в безопасном режиме, то есть редактировать вы его не сможете. Но вверху будет кнопка, которая предложит конвертировать PDF в Word.
В облаке Google эта опция называется OCR – оптическое распознавание символов в Google Документах.
Преимущества:
1. Google Drive – бесплатный сервис, не требует дополнительного ПО на компьютере - только интернет и браузер.
2. Диск Google кроме того, что выдаст вам редактируемый текст, еще и сохранить для вас рисунок этой страницы. То есть вдокументе вы получаете изменяемый текст и фотографию страницы в оригинале. Таким образом удобно исправлять неточности распознавания.
Недостатки:
3. Размер изображений и PDF для перевода ограничен – всего 2 Мб. Если PDF-файл большой, то сервис обработает только первые 10 страниц.
4. Необходим доступ к интернету.
5. Не распознает DJVU.
6. OCR-алгоритм на этапе разработки и тестирования, поэтому распознает текст не очень хорошо. Пока в первую очередь предназначен для работы с латиницей. Тексты на кириллице распознает тоже, но допускает много ошибок.
7. Если текст непонятный, то просто оставит его как картинку.
Как использовать?
8. Создайте аккаунт Google, то есть зарегистрируйтесь на Gmail.
9. Зайдите в браузер, а там на Google Drive.
10. В «облаке» нажимайте на кнопку «Настройки» (справа сверху), пункт «Настройки загрузки», выбирайте «Извлечь текст из загруженных изображений и PDF» (название может выглядеть немного иначе).
11. Загрузите нужную картинку/PDF-файл. Начнется загрузка и конвертация. Когда процесс закончится, можете открыть файл в «облаке» и посмотреть, что получилось.
Что лучше распознает?
ABBYY Fine Reader и MS Office 2013 извлекают текст из PDF в одинаково хорошем качестве. По собственному опыту могу сказать, что MS Office лучше распознает формулы, а Fine Reader – таблицы. Хотите, поэкспериментируйте сами. Google Drive пока в хвосте – во-первых, слишком много ограничений; во-вторых, много не распознает.
Для примера рассмотрим один и тот же файл, переведенный в текст разными способами: Fine Reader, MS Office 2013 и ДискGoogle. Первые три файла – результат перевода текста и формул, следующие три – таблицы.
С текстом хорошо справились MS Office и Fine Reader. Google Drive – тоже неплохо. А вот формулы лучше всего отобразил MS Office – видимо, большой набор распознаваемых символов.
Таблицы лучше всех отобразил продукт ABBYY. В случае с MS Office 2013 некоторые таблицы съехали. Но, по крайней мере, они есть – их просто нужно подтянуть вручную. Google Drive таблиц не увидел вообще - только текст.
Итоги
Лучшие системы оптического распознавания текста – ABBYY Fine Reader и MS Office 2013. Каждый имеет свои сильные и слабые стороны. ABBYY переводит разные форматы: PDF, DJVU, PNG, GIF, JPG. MS Office 2013 зато шустрее и проще.
Нельзя сказать, что Google Диск совсем уж плох. Он, во-первых, новенький (только тестируется), во-вторых – предназначен для других целей, как и указано на официальном сайте. OCR от Google в первую очередь служит для распознавания небольших только-что сделанных фотографий текста. Удобный для моментальной обработки на мобильных устройствах – планшетах и смартфонах.