Аннотации:
Application of projective normalization (a special case of orthocorrection and
perspective correction) to photographs of documents for their further optical recognition is
generally accepted. In this case, inaccuracies of normalization can lead to recognition errors.
To date, a number of normalization accuracy criteria are presented in the literature, but
their conformity with recognition quality was not investigated. In this paper, for the case of
a fixed structured document, we justify a uniform probabilistic model of recognition errors,
according to which the probability of correct recognition of a character abruptly falls to zero
with an increase in the coordinate discrepancy of this character. For this model, we prove
that the image normalization accuracy criterion, which is equal to the maximal coordinate
discrepancy in the text fields of a document, monotonously depends on the probability of
correct recognition of the entire document. Also, we show that the problem on computing
the maximal coordinate discrepancy is not reduced to the nearest known one, i.e. the linearfractional
programming problem. Finally, for the first time, we obtain an analytical solution
to the problem on computing the maximal coordinate discrepancy on a union of polygons. Общепринято применение проективной нормализации (частный случай ортокоррекции и коррекции перспективы) к фотографиям документов для их последующего
оптического распознавания. При этом неточности нормализации могут приводить к
ошибкам распознавания. На сегодняшний день в литературе предложен ряд критериев
точности нормализации, однако их соответствие качеству распознавания не исследуется. В данной работе для случая документа фиксированной структуры обосновывается
равномерная вероятностная модель ошибок распознавания, в соответствии с которой
вероятность верного распознавания символа скачком падает до нуля с ростом невязки
координат этого символа. Для этой модели доказано, что критерий точности нормализации изображения, равный максимальной по текстовым полям документа невязке
координат, монотонно связан с вероятностью верного распознавания всего документа. Показано, что задача вычисления максимальной невязки координат не сводится
к ближайшей известной, т.е. задаче дробно-линейного программирования. Наконец,
впервые получено аналитическое решение задачи вычисления максимальной невязки
координат на объединении многоугольников.
Описание:
I.A. Konovalenko1,2, V.V. Kokhan1,2, D.P. Nikolaev1,2
1Institute for Information Transmission Problems of the RAS, Moscow,
Russian Federation
2Smart Engines Service LLC, Moscow, Russian Federation
E-mails: konovalenko@smartengines.com, v.kokhan@smartengines.com, dimonstr@iitp.ru. Иван Андреевич Коноваленко, младший научный сотрудник, лаборатория ≪Зрительные системы≫, Институт проблем передачи информации им. А.А. Харкевича
РАН; научный сотрудник, программист, ООО Смарт Энджинс Сервис (г. Москва,
Российская Федерация), konovalenko@smartengines.com.
Владислав Владимирович Кохан, младший научный сотрудник, лаборатория
≪Зрительные системы≫, Институт проблем передачи информации им. А.А. Харкевича РАН; научный сотрудник, программист, ООО Смарт Энджинс Сервис (г. Москва,
Российская Федерация), v.kokhan@smartengines.com.
Дмитрий Петрович Николаев, кандидат физико-математических наук, заместитель директора по научной работе, заведующий лабораторией, лаборатория ≪Зрительные системы≫, Институт проблем передачи информации им. А.А. Харкевича
РАН; технический директор, ООО Смарт Энджинс Сервис (г. Москва, Российская
Федерация), dimonstr@iitp.ru