PDF OCR превращает PDF-документы в текст
Иногда бывает, что текст в PDF-документе не может быть выделен в PDF-ридере, таком как Adobe Reader или Foxit Reader. Обычно это происходит с отсканированными документами, которые были встроены в файл pdf.
Один из вариантов работы с текстом в этих PDF-документах — использовать технологию OCR для преобразования информации в текст, с которым вы можете работать.
OCR означает оптическое распознавание символов, которое использует алгоритм для идентификации символов, отображаемых в файле PDF, для их экспорта в текстовый документ или другой поддерживаемый формат файла.
PDF OCR — это бесплатное программное обеспечение для операционной системы Windows, которое может преобразовывать документы PDF в редактируемый текст.
Обновить : Самая последняя бесплатная версия PDF OCR сильно ограничена. Инструмент PDF OCR может обрабатывать только три страницы, а инструмент преобразования изображения в PDF отображает большой водяной знак в итоговом документе PDF. Это делает бесплатную версию программы непригодной для большинства задач.
Интерфейс разделен на две независимые друг от друга области. Первое окно загружает PDF-документ и отображает его содержимое в своем интерфейсе. Все страницы отображаются слева, а PDF-файл можно читать прямо на экране.
Кнопка Start OCR отображает окно конфигурации для процесса OCR. Можно OCR всех страниц, выбранных страниц или только текущей страницы.
Прогресс и статус отображаются прямо в окне, а затем все обработанные страницы отображаются во втором окне.
PDF OCR Editor — это простой текстовый редактор, который теоретически можно использовать для редактирования текста прямо сейчас. Естественно, что процесс OCR неверно интерпретирует некоторые символы, которые впоследствии необходимо отредактировать.
Текстовый редактор может экспортировать преобразованный текст как текст или документ, что указывает на вторую возможность редактирования текста.
Обычно имеет смысл сохранить обработанный PDF-файл как документ и загрузить его в приложение для обработки текста, такое как Microsoft Word, которое предлагает проверку орфографии и грамматики.
PDF OCR — удобная программа, которая предлагает своим пользователям быстрый и простой способ преобразования PDF-документов в текст. Программа поддерживает десять различных языков и совместима со всеми 32-битными и 64-битными версиями операционной системы Microsoft Windows.
Альтернативой является Бесплатное распознавание текста который представляет собой онлайн-сервис, который может обрабатывать, среди прочего, файлы PDF.