Коротко о CuneiForm OpenOCR (Cognitive Technologies)
CuneiForm OpenOCR — настольная OCR-программа для Windows, которая превращает сканы и изображения документов в редактируемый текст. В повседневной работе это выглядит так: вы загружаете страницу (из файла или напрямую со сканера), запускаете распознавание текста, проверяете результат и сохраняете в удобный формат (чаще всего — RTF, чтобы сразу открыть в Microsoft Word и быстро довести документ до идеала).
У CuneiForm сильная «прикладная» сторона: программа умеет анализировать разметку страницы, отделять текстовые блоки от таблиц и картинок, работать с типичными проблемами сканов (перекос, слабый контраст, «грязный» фон). В интерфейсе много настроек, но ключевые сценарии закрываются буквально через Recognition Wizard — пошаговый мастер распознавания, который ведёт пользователя от выбора источника до готового результата.

Версии, лицензия и платформа
CuneiForm в распространённой сборке OpenOCR работает как классическая программа под Windows и остаётся удобным вариантом, когда нужен офлайн-OCR без подписок. Встречается версия ветки CuneiForm/OpenOCR, которую обычно ставят одним установщиком, а после установки в меню «Пуск» появляются ярлыки:
- OCR CuneiForm — основной интерфейс для распознавания «одного документа за раз»;
- Batch Recognition — отдельный режим для пакетного распознавания, когда нужно прогнать папку сканов или серию страниц.
Главный плюс такого подхода — вы выбираете: работать «вручную» и аккуратно, или запускать batch OCR на потоке документов.
Установка и первый запуск
Установка проходит как у большинства десктопных программ:
- Запускаете установщик (обычно это один
.exe-файл). - Проходите мастер установки: подтверждение лицензии, выбор папки, установка ярлыков.
- После завершения — в меню «Пуск» появляется папка CuneiForm, внутри — ярлыки OCR CuneiForm и Batch Recognition.
При первом запуске логика простая: вы либо сразу идёте в Recognition Wizard, либо открываете изображение/скан и настраиваете распознавание через General settings.
Интерфейс: как устроено рабочее окно
Основное окно CuneiForm сделано по классической схеме «документ + панели»:
- Верхнее меню:
File,Recognition,Window,Help. - Панель инструментов с быстрыми кнопками для открытия, сканирования, запуска распознавания и операций со страницей.
- Рабочая область:
- слева/в центре — просмотр исходной страницы (скан/изображение);
- внизу — зона результата (предпросмотр распознанного текста, чтобы быстро оценить качество);
- по контуру страницы — цветные рамки блоков разметки (это видно сразу после анализа структуры).
Ниже — пример того, как выглядит главное окно во время работы (страница с выделенными блоками и предпросмотром текста).
Что важно понять про логику интерфейса
CuneiForm работает в два шага:
- Разметка (layout analysis): программа определяет, где текст, где таблица, где картинка, где колонки.
- Распознавание (OCR): из текстовых областей извлекается текст с учётом выбранного языка и режимов (обычный, факс, матричный принтер и т. п.).
Для быстрых задач предусмотрен мастер, чтобы не «проваливаться» в настройки каждый раз.

Быстрый старт через Recognition Wizard
Recognition Wizard — это самый прямой путь «скан → текст». Он состоит минимум из двух ключевых шагов: выбор источника и базовые параметры распознавания/сканирования.
Шаг 1. Recognition Wizard: Image — выбор источника
В окне Recognition Wizard: Image вы выбираете, откуда брать страницу:
- Open… — открыть изображение/скан из файла;
- Scan — получить изображение со сканера;
- справа от строк — кнопки Change… для выбора файла или устройства.
Кнопки навигации внизу типовые: < Atrás (назад), Siguiente > (дальше), Cancelar (отмена), Ayuda (справка).
Практический сценарий: если у вас уже есть файл (например, JPG/PNG/BMP со сканера), выбирайте Open…, укажите путь — и переходите дальше. Если сканируете «на лету» — выбирайте Scan и настройте драйвер.
Шаг 2. Recognition Wizard: Settings — качество, формат страницы и цвет
Дальше открывается Recognition Wizard: Settings. Здесь концентрируются параметры, от которых реально зависит точность OCR:
- Driver — выбранный драйвер/устройство (например, TWAIN-сканер).
- Borders — формат страницы (часто A4) и поля:
Left,Top,Right,Bottom(в миллиметрах).
- Resolution —
HorizontalиVertical(DPI). Для обычного текста базовый ориентир — 300 DPI, для мелкого шрифта и таблиц — 400–600 DPI. - Colour — режим цвета (часто достаточно
B/WилиGrayscaleдля документов). - Опция Show TWAIN dialog — включает диалог драйвера сканера (полезно, если нужно вручную выставить качество).
После базовой настройки жмёте Siguiente >, и дальше CuneiForm переходит к разметке и распознаванию текста.

Сканирование из программы: выбор TWAIN-устройства
Когда вы выбираете сканирование, CuneiForm работает через стандартный слой драйверов (TWAIN). В момент выбора устройства появляется окно Scanner driver:
- столбцы:
Type(например, TWAIN),Name(модель устройства); - кнопки: OK и Cancel.
Рекомендации по сканированию для лучшего OCR
Чтобы распознавание текста в CuneiForm было стабильным, имеет смысл придерживаться простой схемы:
- Текстовые документы: 300 DPI, ч/б или градации серого.
- Мелкий шрифт, таблицы, печати: 400–600 DPI, лучше grayscale.
- Фото документов: перед OCR выровнять страницу и убрать «пересвет», иначе будет много «сомнительных» символов.
Открытие изображений и подготовка перед распознаванием
В CuneiForm удобно то, что она рассчитана на «скан-реальность»: документы редко бывают идеальными. Перед запуском OCR вы обычно делаете минимум:
- Открываете страницу (через мастер или из
File). - Проверяете масштаб (zoom), чтобы видеть мелкие зоны.
- При необходимости поворачиваете/выравниваете (если скан перекошен).
- Проверяете, что на странице корректно «схватились» области текста и таблицы.
Эта подготовка напрямую влияет на итог. Даже хороший OCR-движок начинает ошибаться, если строки «плывут», фон шумный, а контраст низкий.
Настройки распознавания: окно General settings
Центральное место в программе занимает диалог General settings. Он разбит на три вкладки, которые логично отражают процесс:
- Scanning — параметры сканирования/изображения.
- Markup and recognition — разметка и распознавание (язык, режимы, таблицы/картинки).
- Formatting — сохранение форматирования и подсветка сомнительных мест.
Ниже — детально по каждой вкладке.
Scanning: DPI, цвет, яркость, контраст, threshold
На вкладке Scanning вы настраиваете параметры, которые чаще всего «спасают» сложные сканы:
- блок Driver и кнопка Change… — выбор/смена источника.
- Borders — формат страницы и поля (A4 и отступы).
- Resolution —
Horizontal/Vertical. - Colour — режим цвета.
- ползунки:
- Brightness (яркость),
- Contrast (контраст),
- Threshold (порог для ч/б).
Ниже также встречаются опции для поведения перед сканированием, включая показ диалога TWAIN.
Как эти параметры использовать на практике
- Brightness полезна, когда фон «серый», а текст бледный: слегка подняли яркость — и символы стали понятнее.
- Contrast помогает отделить шрифт от фона, особенно на старых копиях.
- Threshold критичен для ч/б: если порог завышен — тонкие элементы букв пропадут; если занижен — фон превратится в шум.
Если вы распознаёте квитанции, факсы, «копия с копии», вкладка Scanning часто даёт больший прирост качества, чем любые «умные» алгоритмы после.
Markup and recognition: язык, режимы Fax/Dot matrix и поиск таблиц
Это вкладка, где задаётся «смысл» распознавания: какой язык, как анализировать страницу, искать ли таблицы и картинки, включать ли проверку словаря.
Ключевые элементы:
- Recognition language — выпадающий список языка распознавания (например,
Russian-English). - режимы качества источника:
- Dot matrix printer — оптимизация под матричную печать,
- Fax — оптимизация под факсы.
- опции разметки:
- Spell checking — проверка по словарю,
- Single column — принудительный режим «одна колонка» (удобно для простых страниц без сложной верстки).
- блок Search tables and pictures:
- Search tables,
- Search pictures.
- блок Colours of blocks:
Text,Pictures,Tablesи кнопки Change… для каждого типа.
Какие настройки ставить «по умолчанию» для офисных документов
Для большинства задач (договоры, письма, отчёты) комфортная стартовая конфигурация такая:
- Recognition language: русский (или
Russian-English, если в документе есть англ. термины/артикулы). - Spell checking: включено (экономит время на правке).
- Search tables: включено, если документ реально табличный.
- Search pictures: включено, если нужно сохранить картинки как элементы структуры.
- Single column: включать только если страница точно без колонок (иначе можно «сломать» правильную разметку).
Режимы Fax и Dot matrix printer включаются не для красоты: они реально помогают, когда символы «рваные», контуры букв пунктирные, а изображение пережато.
Formatting: сохранение форматирования и подсветка сомнительных символов
После распознавания обычно важны две вещи:
- Насколько программа сохранила структуру (абзацы, шрифты, жирность/курсив).
- Где нужно быстро пройтись глазами и поправить ошибки.
Этим и управляет вкладка Formatting:
- блок RTF settings:
- Preserve bold
- Preserve italic
- Preserve font size
- Preserve fragment position
- блок выбора шрифтов:
Serif font,Sans Serif font,Fixed font(списками, например Times New Roman / Arial / Courier New).
- подсветка сомнительных мест:
- Suspicious word colour + кнопка Change…
- Suspicious symbol colour + кнопка Change…
- Adjust colours — быстрая настройка палитры.
Как «Formatting» помогает ускорить вычитку
Подсветка сомнительных слов и символов — сильный инструмент, когда вы делаете конвертацию изображения в текст и не хотите читать документ заново целиком. Вы открываете результат в редакторе и точечно проверяете то, что CuneiForm отметила как потенциально проблемное.
Сохранение bold/italic/font size полезно для документов с выделениями (договора, пункты, примечания), где форматирование несёт смысл.
Разметка страницы и работа с блоками
Одна из заметных особенностей CuneiForm OCR — ориентация на разметку страницы. Программа не просто «тащит текст», она сначала раскладывает страницу на типы областей.
Визуально это выглядит как рамки поверх страницы:
- текстовые зоны подсвечиваются цветом, который указан в Colours of blocks → Text;
- изображения — цветом из Pictures;
- таблицы — цветом из Tables.
Эта механика особенно ценна на «плотных» документах: отчётах, учебных материалах, инструкциях, где текст идёт рядом с таблицами и схемами.
Когда стоит вмешиваться вручную
Вмешательство нужно в типичных случаях:
- документ с двумя колонками, а включён Single column — разметка упростится и может спутать порядок текста;
- таблица сложная, и её лучше распознавать с включённым Search tables;
- на странице много картинок/диаграмм, и вам важно, чтобы они сохранились как элементы структуры — включайте Search pictures.
Если вам важна структура, лучше потратить минуту на корректные параметры разметки, чем потом час приводить RTF в порядок.
Проверка орфографии и словари: Spell checking в реальной работе
Флажок Spell checking в CuneiForm — это про скорость. OCR-ошибки часто однотипные:
- «О» ↔ «0»
- «l» ↔ «1»
- «rn» ↔ «m»
- пропущенные точки/запятые на шумном фоне
Проверка по словарю помогает отловить массовые ошибки и сократить ручную вычитку. Особенно хорошо это работает на связном тексте (письма, статьи), чуть хуже — на табличных данных с артикулами и кодами (там словарь будет «ругаться» чаще).
Если вы распознаёте русско-английские документы, выбор Russian-English в Recognition language заметно снижает количество «сломанной» латиницы в тексте.
Распознавание таблиц и сложной верстки
Для табличных документов важны две настройки:
- Search tables
- корректный Resolution (часто 400 DPI лучше, чем 300 DPI, если таблица плотная)
Таблицы сложнее текста: OCR должен не только распознать символы, но и понять, где границы ячеек и как перенести структуру. Поэтому практический подход такой:
- если таблица — основа документа (отчёт, ведомость), включайте Search tables и повышайте качество скана;
- если таблица «вплетена» в текст и не критична по структуре, можно распознавать как обычный текст, чтобы избежать «ломаных» переносов.
Форматирование результата и экспорт
CuneiForm ориентируется на результат, который удобно править в офисных редакторах:
- основной «рабочий» формат — RTF, который открывается в Microsoft Word и большинстве редакторов;
- форматирование контролируется через Formatting → RTF settings (bold/italic/size/position);
- сомнительные места подсвечиваются цветами Suspicious word colour и Suspicious symbol colour.
Рекомендуемая схема «скан → Word» без лишних шагов
- Запускаете Recognition Wizard.
- На шаге Image выбираете Open… или Scan.
- На шаге Settings выставляете DPI и режим цвета.
- В General settings → Markup and recognition задаёте:
- Recognition language
- Spell checking
- Search tables (если нужно)
- Выполняете распознавание и сохраняете результат в RTF.
- Открываете RTF в Word и проходите вычитку по «сомнительным» подсветкам.
Такой сценарий закрывает 90% задач: от оцифровки договоров до переноса бумажных инструкций в редактируемый вид.
Пакетная обработка: Batch Recognition
Когда документов много, ручной режим превращается в рутину. Для этого в комплекте идёт Batch Recognition — отдельный режим, где вы:
- добавляете серию файлов (или папку со сканами),
- задаёте единые настройки распознавания (язык, проверка орфографии, таблицы),
- выбираете папку вывода,
- запускаете обработку очереди.
Пакетное распознавание особенно удобно для архивирования: один раз настраиваете профиль (например, русский язык + spell checking + 300 DPI), и дальше прогоняете весь поток документов.
Типовые сценарии использования
1) Оцифровка договора или акта (1–5 страниц)
- Источник: PDF-скан, JPG/PNG со сканера.
- Настройки:
- 300 DPI,
RussianилиRussian-English,- Spell checking включено,
- Search tables выключено (если нет таблиц).
- Результат: RTF, который открывается в Word.
Здесь CuneiForm выигрывает тем, что быстро даёт «читаемую» структуру: абзацы, переносы, выделения (при включённом preserve-форматировании).
2) Табличный отчёт (ведомость, прайс, реестр)
- Источник: скан таблицы, часто с сеткой и мелким шрифтом.
- Настройки:
- 400 DPI,
- Search tables включено,
- проверка орфографии — по ситуации (если много кодов и цифр, можно отключить).
- Важный момент: качество изображения здесь решает больше всего. Чёткие границы ячеек и хороший контраст резко повышают точность OCR.
3) Скан «плохого качества»: факс, старая копия, матричная печать
Это классический случай, где CuneiForm раскрывается.
- В Markup and recognition включаете Fax или Dot matrix printer.
- В Scanning подстраиваете Brightness/Contrast/Threshold.
- При необходимости повышаете DPI.
Если документ «сыпется» на буквах, именно режимы Fax/Dot matrix обычно дают заметное улучшение.
4) Документ с картинками и подписями
- Включаете Search pictures, чтобы картинки учитывались в структуре.
- Язык распознавания — по тексту.
- Форматирование — включаете preserve-опции в Formatting, чтобы подписи не «слипались» в один поток.
Советы по качеству распознавания в CuneiForm
Ниже — практические правила, которые стабильно улучшают результат распознавания текста:
- Начинайте с DPI, а не с «магии OCR».
Если шрифт мелкий — сразу 400 DPI. Если документ обычный — 300 DPI достаточно. - Градации серого часто лучше ч/б для проблемных оригиналов.
Ч/б с неправильным threshold может «съесть» тонкие элементы букв. - Не включайте Single column для газет/двухколоночных страниц.
Этот режим делает разметку проще, но цена — риск перепутать порядок текста. - Включайте Search tables только когда таблицы реально важны.
Для «табличек на полстраницы» иногда быстрее распознать как текст и поправить вручную, чем воевать со структурой. - Spell checking экономит время на связном тексте, но мешает на документах с кодами.
Если у вас прайс с артикулами, словарь будет отмечать слишком много. - Используйте подсветку suspicious-мест в Formatting.
Это самый быстрый способ вычитки после OCR: вы не перечитываете документ, вы проверяете проблемные точки.
Плюсы и минусы CuneiForm OpenOCR
Плюсы
- Уверенное распознавание печатного текста на сканах и изображениях.
- Пошаговый Recognition Wizard, который ускоряет работу без лишних настроек.
- Детальные параметры качества: Brightness/Contrast/Threshold, DPI, режим цвета.
- Разметка страницы и работа с блоками: текст/таблицы/картинки.
- Режимы для сложных источников: Fax и Dot matrix printer.
- Удобный офисный результат через RTF и сохранение базового форматирования.
Минусы
- Интерфейс выглядит «классически» и не пытается быть современным — зато быстро работает по делу.
- В сложных макетах (нестандартная верстка, плотные таблицы) качество сильнее зависит от настроек и качества исходника.
- После распознавания всё равно нужна вычитка: OCR не заменяет корректуру, он её ускоряет.
Сравнение с аналогами
ABBYY FineReader PDF
FineReader PDF — это эталон по точности и удобству постобработки, особенно когда речь про PDF-потоки, сохранение стилей, многостраничные документы и развитую проверку результата. Он лучше справляется со сложной версткой, «умнее» в восстановлении структуры и обычно даёт меньше ручной правки.
CuneiForm OpenOCR выигрывает там, где нужен офлайн-инструмент без тяжёлой инфраструктуры: быстро распознать скан в редактируемый текст, получить RTF и дальше работать в Word. В простых задачах разница в итоге может быть минимальной, а скорость запуска и простота сценария — приятнее.
Readiris
Readiris часто выбирают за удобный «офисный» экспорт и быстрые сценарии. Он хорош, когда нужно регулярно перегонять документы в Word/PDF и ценится обвязка вокруг распознавания.
CuneiForm ближе к «чистой OCR-утилите»: меньше внешней «полировки», но больше прямых настроек для качества (особенно вкладка Scanning с brightness/contrast/threshold и режимы Fax/Dot matrix).
OmniPage
OmniPage исторически силён в корпоративных потоках, автоматизации и масштабировании распознавания, но это другая лига по цене и ориентации.
CuneiForm — про практичный OCR на рабочем месте: открыть скан, выбрать язык распознавания, включить spell checking, при необходимости распознать таблицы, сохранить RTF.
FreeOCR и SimpleOCR
FreeOCR и SimpleOCR — популярные «простые» варианты. Обычно они подходят для базовых задач, но при сложных сканах и табличных документах качество и контроль часто уступают.
CuneiForm выигрывает тем, что даёт пользователю внятные рычаги управления: разметка, блоки, режимы Fax/Dot matrix, отдельные настройки форматирования и подсветка сомнительных мест. Если вы регулярно делаете распознавание текста на Windows, CuneiForm воспринимается более «взрослым» решением.
Tesseract + GUI (например, gImageReader)
Tesseract в связке с GUI — отличный вариант для тех, кто любит гибкость: языковые пакеты, профили, расширенные пайплайны, автоматизация. Но там часто больше «настроек вокруг», и результат сильно зависит от того, насколько аккуратно настроены параметры и предобработка.
CuneiForm — более прямолинейная программа: открыл → мастер → язык → распознал → RTF. Для пользователя, которому важен предсказуемый рабочий процесс без сборки «конструктора», это чаще удобнее.
Итог по сравнению
- Если вы живёте в PDF-документообороте и хотите максимальную точность «из коробки» — FineReader будет сильнее.
- Если вам нужен понятный OCR-инструмент для Windows, чтобы быстро делать конвертацию изображения в текст, распознавать сканы в Word-совместимый вид, включать словари и таблицы — CuneiForm OpenOCR закрывает задачу уверенно.
- Если задача — автоматизация на скриптах и максимальная гибкость — Tesseract-связки могут быть интереснее, но потребуют больше настройки.
Кому подойдёт CuneiForm OpenOCR и что в ней делать в первую очередь
CuneiForm особенно хорошо подходит тем, кто регулярно сталкивается с бумажными документами и хочет быстро переводить их в редактируемый вид:
- офис: письма, договоры, акты, отчёты;
- обучение: конспекты, распечатки, методички;
- архивирование: распознавание пачек сканов через Batch Recognition.
Если вы ставите программу впервые, лучший старт — пройти Recognition Wizard, затем открыть General settings и настроить три вещи под себя: Recognition language, Spell checking и параметры Scanning (DPI + контраст/threshold). После этого CuneiForm превращается в стабильный рабочий инструмент, где распознавание текста делается быстро, предсказуемо и без лишней суеты.
