Используйте OCR-технологии с элементами искусственного интеллекта

ContentReader Engine. Многофункциональный OCR SDK для разработчиков

ContentReader Engine SDK

Многофункциональный инструментарий разработчика, который позволяет встраивать в приложения интеллектуальные технологии распознавания данных. С помощью OCR на основе технологий искусственного интеллекта вы можете создавать приложения с функциями качественного распознавания информации из документов, изображений, фотографий, скриншотов, мониторов и дисплеев, определения типа документа, конвертации сканированных документов в файлы форматов Word, Excel и PDF с возможностью поиска.
  • файнридер энджин

    Быстрый вывод продуктов на рынок

    Получите конкурентное преимущество и быстро выводите новые решения на рынок с лучшими OCR-технологиями, которые легко встроить благодаря подробной сопроводительной документации, предварительно настроенным инструментам, параметрам, примерам кода и прочих компонентам.
  • ContentReader Engine

    Новые возможности ваших приложений

    Добавляйте новые возможности при помощи ContentReader Engine, например, конвертацию TIFF-файлов в PDF, PDF/A, Word и другие форматы и максимально точно распознавайте информацию из определенных областей документа. Инструменты подходят для разработки приложений на Windows, Linux или Mac OS для развертывания в облаке и на виртуальных машинах.

  • Высокая точность распознавания
    Ваши клиенты смогут легко и точно распознавать данные с с помощью ContentReader Engine. Нашим OCR-технологиям доверяют ведущие поставщики ECM-систем, решений по оцифровке документов, RPA-решений, производители сканеров и многофункциональных устройств.

Сценарии применения

Организация электронного архива, СЭД, сервисы по обработке информации

Конвертируйте документы в сжатые PDF или PDF/А с возможностью поиска, чтобы пользователи могли быстро и удобно находить нужную информацию.


Предотвращение утечек данных

Расширьте возможности DLP за счет автоматического распознавания сканов документов, фотографий и изображений, чтобы выявлять возможные случаи нарушений политики информационной безопасности.


Машинное зрение и автоматическое тестирование

Расширьте возможности системы машинного зрения. Распознавайте тексты на фотографиях, экранах, дисплеях, сенсорных устройствах и в информационно-развлекательных системах. Автоматизируйте тестирование и контроль качества.


Поиск, электронное обнаружение информации eDiscovery и анализ данных

Конвертируйте документы в электронные файлы с возможностью поиска и находите нужную информацию с помощью инструментов анализа данных.


Технологии для людей с ограниченными возможностями

Помогите людям с нарушением зрения и детям с трудностями в обучении находить информацию в документах, листовках, учебниках или на экранах при помощи функции зачитывания текста с устройства.

Возможности
ContentReader Engine — это передовые возможности для разработки приложений для Windows и Linux.
  • Полный спектр технологий распознавания

    SDK позволяет использовать отмеченные многими наградами технологии полнотекстового и зонального распознавания печатного (OCR) и рукопечатного (ICR) текстов, а также распознавать штрихкоды (OBR).

  • Эффективные инструменты обработки PDF

    Конвертируйте документы в PDF и PDF/A с возможностью поиска. При импортировании PDF можно добавлять текстовый слой с сохранением настроек файла. Извлекайте XML-данные из импортированных файлов в формате PDF/A-3 и добавляйте их при сохранении файлов в формате PDF/A-3.

  • Искусственный интеллект и машинное обучение

    Эффективные технологии с элементами искусственного интеллекта и машинного обучения в сочетании с ADRT-технологиями позволяют определять логическую структуру и форматирование документа, например, таблицы, колонтитулы и шрифты, чтобы с высокой точностью воссоздать исходный документ.
  • Многоядерные процессоры и параллельная обработка

    Воспользуйтесь гибкой и масштабируемой архитектурой ContentReader Engine для обработки большого числа страниц, например, при распознавании большого потока документов, книг или архивов. Распознавание проходит значительно быстрее за счет поддержки многоядерных процессоров и параллельной обработки в нескольких потоках.
  • Поддержка облачных технологий и виртуальной среды

    Развернуть приложения можно не только на компьютере, но и в виртуальной среде или на облачной платформе, например, Microsoft Azure или Amazon Web Services.

  • Передовые возможности предобработки изображений

    Точность распознавания можно повысить за счет предобработки и оптимизации изображений перед началом OCR-процесса. Выравнивание, изменение поворота, коррекция искажения, выпрямление строк, разделение на страницы, адаптивная бинаризация, шумопонижение и не только — все это позволяет распознавать изображения даже низкого качества.

  • Профили распознавания для быстрого внедрения

    В предопределенных профилях обработки содержатся необходимые параметры, позволяющие быстро и точно распознавать текст в рамках определенных повторяющихся задач. Они также помогают ускорить процесс разработки и исключить необходимость настраивать систему вручную.

  • Готовое решение для распознавания визитных карточек и MRZ

    BCR API и MRZ API позволяют распознавать визитные карточки и машинно-считываемых зоны (MRZ) в документах, удостоверяющих личность, загранпаспортах или визах. Они обеспечивают доступ к значениям отдельных полей с минимальными затратами на программирование.

  • Классификация документов с помощью технологий машинного обучения и обработки естественного языка

    В передовых алгоритмах классификации ContentReader Engine используются технологии машинного обучения, оптического распознавания символов и обработки естественного языка, что позволяет качественно определять типы документов.
  • Компоненты пользовательского интерфейса

    Используйте визуальные компоненты на базе ActiveX, чтобы свободно интегрировать пользовательский интерфейс в приложения, например, ERP, ECM, и предоставьте пользователям возможность проверять документы, просматривать результаты распознавания и редактировать текст прямо в приложении.

  • Библиотека примеров кода

    Обширный набор примеров кода содержит инструкции по применению OCR SDK, примеры работы технологии и может быть использован для разработки решений. В каждом разделе библиотеки содержатся фрагменты кода и руководство по выполнению определенных задач.

  • Подробная документация и поддержка

    Подробная документация помогает оптимизировать процесс интеграции. Есть вопросы?

    На протяжении всего срока действия пробной версии пользователи могут свободно обращаться в техническую поддержку.

  • Сравнение документов

    ContentReader Engine позволяет сравнить две версии одного документа и найти в них различия. При этом документы могут быть в различных форматах, например, Microsoft Word, PDF, TIFF, JPEG и других.

* Некоторые возможности могут быть недоступны в зависимости от операционной системы.



Как работает OCR

Оптическое распознавание символов проходит в несколько этапов — от импортирования изображений до получения результатов распознавания.

1
Импортирование изображений

Изображения можно загружать в OCR SDK из различных источников. Тексты в виде изображений в форматах TIFF, JPEG, и документы в формате PDF и т. д. можно импортировать, а сфотографированный текст или отсканированные документы могут быть обработаны прямо из памяти.

2

Предварительная обработка

На этапе предварительной обработки происходит улучшение изображения. Для повышения качества распознавания OCR SDK применяет ряд функций, среди которых поворот, бинаризация, выравнивание и многие другие.

3
Анализ документа

В OCR SDK используются алгоритмы на основе искусственного интеллекта и технологии адаптивного распознавания документов ADRT®, что позволяет анализировать оформление каждой страницы и структуру документа в целом. В ходе этого процесса определяются блоки для распознавания текста, а информация об оформлении и форматировании отправляется на итоговую стадию воссоздания документа.

4
Распознавание

ContentReader Engine максимально точно распознает печатный (OCR) и рукопечатный текст (ICR), метки (OMR) и штрихкоды (OBR). Дополнительно повысить точность распознавания разных языков, нетипичных символов и шрифтов можно за счет создания словарей и шаблонов.

5
Воссоздание документа и экспорт результатов

OCR SDK предлагает разные уровни воссоздания документа и различные способы экспорта результатов распознавания. Благодаря OCR SDK вы можете сохранять документы в следующих форматах: текстовый, XML, PDF и PDF/A, документы Microsoft® Office с возможностью редактирования и многих других.

Спецификация

ContentReader Engine 12 доступен в двух версиях:

для Windows и для Linux

Системные требования

Форматы и языки
Закажите эффективное решение
Заполните форму и получите консультацию, как наиболее эффективно использовать наши решения для задач вашего бизнеса.

С апреля 2022 года техническую поддержу продуктов ABBYY на территории России оказывает компания Content AI (ООО «Контент ИИ»).