Формализованные документы. Представляем электронные документы в ФНС. В чем особенности

В отличие от бумажных документов, электронные могут обрабатываться более эффективно (тиражироваться, рассылаться, храниться и т.п.). В настоящее время активно развиваются технологии перевода бумажных документов в электронную форму с целью реализации электронного документооборота . Остановимся подробнее на применяемых технологиях и используемой терминологии.

На первом этапе перевода документа в электронную форму производится его сканирование и создается электронная копия документа в виде изображения. Изображение, полученное в результате сканирования, также называют образом документа. Сканирование является начальным этапом любой системы автоматизированного ввода документов.

В процессе сканирования может выполняться программная обработка изображения, а также производится визуальный контроль качества (рис. 3.6).


Рис. 3.6.

Если речь идет о промышленном вводе документов, то сканеры обычно предоставляют ряд дополнительных функций, например возможность подачи разноформатных документов.

Обычно процесс сканирования - это промежуточная стадия получения электронного документа. Очевидно, что с электронным изображением документа гораздо удобнее работать, чем с бумажным (его можно копировать, отправлять по сети и т.д.).

Однако в большинстве случаев само по себе изображение (образ документа) дает мало преимуществ. Для того чтобы можно было редактировать документ, осуществлять поиск по нему или использовать его фрагменты при подготовке новых документов и т.д., необходимо перевести полученный образ в текстовый документ, понятный офисным программам. Поэтому следующая задача заключается в распознавании отсканированных документов.

Для этого необходим специальный инструмент, способный перевести изображение в текстовый редактируемый электронный документ. Такие инструменты существуют, их общее название - программы оптического распознавания символов (optical character recognition, OCR). C помощью OCR-программы компьютер сможет "прочесть" на отсканированной странице текст, отделив его от иллюстраций и прочих элементов оформления, найти таблицы и "разобраться" в их содержимом. А затем скомпоновать все это заново, воссоздав внешний вид страницы.

С точки зрения перевода документов в электронный вид (ввода документов в компьютер) их условно делят на формализованные, неформализованные и специальные (рис. 3.7).


Рис. 3.7.

Формализованные документы - это документы, в которых заранее определена форма: расположение обязательных полей, в которые заносятся данные. Например, бланки, накладные, анкеты, картотеки и т.д. Неформализованные документы - это документы произвольной формы: договоры, письма и т.д. К специализированным относятся такие документы как, например, карты и отпечатки пальцев.

Перевод каждого из перечисленных видов документов имеет свою специфику. Если вводятся фотографии, то достаточно электронного изображения, если документ содержит текст, его необходимо распознать, если это форматированный текст с рисунками, то нужно не только распознать текст, но и восстановить формат документа, а если это анкета, то, скорее всего, сам документ вообще не нужен, важна только содержащаяся в нем информация. Например, при обработке листов для голосования обычно не требуется изображения самого документа, достаточно информации о том, за кого отдан голос.

Ввод формализованных документов

Чтобы пояснить, какие задачи возникают при вводе формализованных документов, рассмотрим конкретный пример.

Предположим, в офисе отеля проводится анкетирование проживающих для оценки уровня обслуживания на разных этажах. Каждому жителю отеля в его номере оставляется анкета, которую он должен заполнить (рис. 3.8).


Рис. 3.8.

Если за месяц накапливается несколько тысяч таких анкет, то их обработка представляет собой непростую задачу. Очевидно, что получение образов (электронных изображений) этих анкет хоть и облегчает задачу их хранения, однако не позволяет использовать компьютер для обработки информации.

Чаще всего задача ввода форм (в данном случае анкеты) состоит в превращении образа документа в строчку базы данных, содержащую соответствующую информацию. Когда все анкеты будут введены в базу данных, можно будет их обработать и, например, выяснить, на каком этаже обслуживание ведется лучше.

При заполнении анкеты требуется ответить на вопросы и внести информацию в определенные служебные поля, а задача программы при вводе форм - определять эти специальные поля, распознавать информацию в них и ввести ее в базу данных. При этом особенностью ввода форм в компьютер является необходимость распознавания текстов, заполненных от руки.

Обычно в том случае, если форма должна распознаваться компьютером, заполняющего просят ввести текст раздельными буквами, и такой текст называют рукопечатным. Технологии распознавания рукопечатных символов обозначаются термином ICR (Intelligent Character Recognition). Распознавание рукопечатных символов представляет собой более сложную задачу по сравнению с распознаванием печатных, поскольку требуется распознать символ, вписанный в форму от руки с учетом возможных его отклонений, обусловленных индивидуальными особенностями почерка.


Рис. 3.9.

Задачи распознавания при вводе форм не обязательно связаны с распознаванием текста. При вводе форм может потребоваться распознавание различных меток и знаков, для которого тоже существует свой термин: OMR (Optical Mark Recognition). Например, в бюллетенях для голосования голосующего просят поставить крестик (или другой знак) напротив фамилии кандидата, и задача компьютера - распознать, есть в определенном поле какой-нибудь знак или нет.

Напомним, что для полноценной работы в системе электронного представления сведений в таможенные органы организации-участнику ВЭД необходимо иметь:

Договор с информационным оператором - осуществить комплекс мероприятий по подключению организации к ЭД и ПИ.

Действующую электронную подпись (ЭП) для работы с таможенными органами на сотрудника организации.

Подключенное к Интернету и оборудованное специализированным программным обеспечением («Альта-ГТД PRO», СКЗИ «Крипто-Про») рабочее место.

Оплаченный Пакет электронных деклараций для передачи сведений в системе ЭД.

Процедура подачи электронной декларации

Процедура электронного декларирования состоит из нескольких этапов. Декларант с помощью специальной программы (например, « ») подготавливает и передает электронную декларацию на товары (ЭДТ) в формате XML, заверенную электронной подписью. Также указываются идентификаторы разрешительных документов, предварительно загруженных в электронный архив декларанта (ЭАДД). ЭДТ через информационного оператора пересылается в ЦИТТУ ФТС, а оттуда через региональное таможенное управление поступают на указанный декларантом таможенный пост.

Инспектор таможни проверяет ЭДТ, при отсутствии критических ошибок ЭДТ регистрируется в системе таможни (присваивается номер). При необходимости внесения исправлений в декларацию инспектор направляет декларанту соответствующее уведомление с перечнем ошибок или запрос недостающих документов. После исправления ошибок пакет электронных документов отсылается повторно. Если получен запрос на корректировку таможенной стоимости (КТС), декларант выполняет корректировку и снова высылает дополненный пакет документов. Таких циклов обмена сообщениями между инспектором и декларантом может быть несколько.

Управление электронными подписями

Все документы, передаваемые в электронных сообщениях, должны быть заверены электронной подписью (ЭП или ЭЦП) для работы с ФТС России. Сообщения, которые содержат документ, не заверенный ЭП, считаются ошибочными. Сертификат ключей проверки электронной подписи записан на защищенный носитель и выдается на сотрудника предприятия–декларанта.

При наличии заключенного договора с информационным оператором «Альта-Софт», пользователю системы электронного представления сведений доступен Личный кабинет управления договором на портале ed.alta.ru, где пройдя авторизацию можно выполнить следующие действия:

  • внести изменения в информацию о контактном лице;
  • внести изменения в реквизиты организации;
  • добавить дополнительный перечень сотрудников на получение ЭП;
  • изменить параметры доставки для недавно добавленного перечня;
  • перевыпустить ЭП;
  • аннулировать ЭП.

Пакеты деклараций

Услуги по пересылке деклараций и предварительной информации являются платными и приобретаются Пакетами. Пакет электронных документов - это форма предоставления ЭД-услуг, дающая возможность подачи в таможенные органы определенного количества документов. При подсчете количества электронных документов учитываются только зарегистрированные системой документы.

Абонент ЭД может выбрать любой объем деклараций на полгода, от 10 штук до неограниченного количества. Заказать новый ЭД-Пакет или активировать заранее приобретенный удобно посредством Онлайн-заявки на нашем сайте или в своем Личном кабинете на портале ed.alta.ru:

  • Сервер статистики ЭД

    Участникам ВЭД, подключившимся к системе ЭД через информационного оператора «Альта-Софт», доступен Сервер статистики ЭД (svd.alta.ru) - мощнейший онлайн-инструмент комплексного мониторинга и дополнительных ЭД-сервисов. Используя персональный логин/пароль (высылаются при подключении к системе ЭД), пользователь получает доступ в личный кабинет, в котором может отслеживать отправки по системе ЭД и пользоваться другими услугами.

    1. Монитор ЭД

    Монитор ЭД сервера статистики - это визуальное представление информационного обмена в рамках всех процедур декларирования. Сервис пользуется спросом не только у декларантов, но и у руководителей отделов ВЭД. Пользователи сервера статистики могут отслеживать весь процесс отправки электронных документов и сообщений в режиме реального времени, а также видеть текущий статус всех поданных деклараций:

    • 2. Биллинг

      В режиме реального времени пользователи Сервера статистики ЭД могут отслеживать списание денежных средств за отправки в процессе приема и выпуска деклараций. Биллинг предоставляет полную информацию по платежам и списаниям за услуги с указанием присвоенных документам номеров. Для пользователей становятся прозрачными следующие сведения:

      • Платежи, поступившие от пользователя;
      • Срок окончания действия ЭД-пакетов;
      • Количество оставшихся возможных отправок ДТ и ПИ.
      • 3. Формализация документов

        Чтобы подать по системе ЭД информацию, взятую с бумажных документов, их необходимо перевести в электронный вид, то есть формализовать. Для формализации документов нужно потратить время на сканирование, распознавание, исправление ошибок или ручной набор текста. Все это создает дополнительные трудности.

        В помощь участникам ВЭД предоставляется сервис по преобразованию отсканированных документов или текстовых файлов в XML-формат, применяемый при ЭД. Передача документов на формализацию осуществляется непосредственно через Личный кабинет на сервере ed.alta.ru. Обратно пользователь получает файлы, которые можно прикрепить к описи электронной ДТ и передать таможенному инспектору по системе ЭД. Работы по формализации платные, стоимость указана в

        4. Отчет таможенного представителя

        Ранее, для того, чтобы таможенный представитель мог сдавать регламентную отчетность, ему необходимо было собрать отчеты со всех своих филиалов, объединить их в одном файле и уже на основе собранной и обобщенной информации строить отчет. Для оптимизации такой работы на Сервере статистики создан онлайн-сервис: по заказу абонента информационный оператор может собирать статистику по любым полям деклараций.

        Данный сервис, хоть и называется отчетом таможенного представителя («Отчет ТП»), может быть интересен не только таможенным представителям, но и участникам ВЭД, которые хотят иметь в режиме реального времени полную статистику и общую картину проделанной работы по оформлению товаров.

        5. Sms-уведомления системы ЭД

        Сервис смс-уведомлений создан для быстрого реагирования на информацию от таможенных органов по переданным ЭДТ. Декларант, даже не находясь на рабочем месте, сможет быть в курсе ситуации по каждой ДТ и поэтапно отслеживать процесс выпуска товаров.

        При подключении абонент может получать на свой мобильный телефон смс-сообщения по следующим статусам ЭД-процедур (с указанием номера ДТ и времени присвоения статуса):

Имиджинг

а первом этапе перевода документа в электронную форму производится его сканирование, которое позволяет получить электронную копию документа в виде изображения. Данный процесс называют имиджингом (imaging). Таким образом, имиджинг - это процесс получения аутентичных изображений бумажных документов. Термин пришел из микрофильмирования, однако сегодня применяется именно к электронным изображениям. Имиджинг является начальным этапом любой системы ввода документов. На этом этапе выполняются задачи сканирования, обработки изображения и контроля качества (рис. 1).

Сканеры позволяют оцифровывать изображения, а также предоставляют ряд дополнительных возможностей, таких как аппаратная поддержка качества изображения и выравнивание страниц.

Выравнивание страниц может производиться как аппаратно, так и программно (рис. 2).

Если речь идет о промышленном вводе документов, то сканеры обычно предоставляют ряд дополнительных функций, например возможность подачи разноформатных документов в одной пачке, а также позволяют использовать большие пачки документов и т.д.

Обработка изображений

Как уже было отмечено, часть функций обработки изображений может быть реализована аппаратно в сканере, а может производиться на станции сканирования. Улучшение изображения включает программное выравнивание, конвертирование с улучшением качества, удаление шумовых и фоновых элементов, улучшение качества передачи текста и т.д.

Наиболее важной технологией на стадии распознавания документов является технология OCR, о которой следует рассказать более подробно.

Технологии OCR/ICR

Традиционный подход к проблеме распознавания заключается в сведении задачи распознавания к задаче классификации некоторого набора признаков. Идея проста: по изображению определяется некоторый набор признаков, который сравнивается с каждым из имеющихся образцов, так называемых эталонов. По результатам сравнения находится эталон, с которым этот набор признаков совпадает лучше всего, и изображение относится к соответствующему классу. Таким образом, все решение заключается в сравнении предлагаемого изображения с образцами и выборе наиболее подходящего; иначе говоря, производится некий перебор возможных вариантов. Проблема имела бы простое решение, если бы не существовало сотен шрифтов, полученных по факсу текстов с плохо читаемыми символами и т.д.

В качестве основных алгоритмов решения данной задачи выделяют multifont (шрифтовые) и omnifont (шрифтонезависимые) алгоритмы. В случае multifont растровое изображение накладывается на шаблон, и соответственно наиболее подходящим шаблоном считается тот, у которого наименьшее количество точек отличается от исследуемого изображения. Omnifont-алгоритмы идентифицируют символ по правилам его написания. В этом случае эталон, с которым производится сравнение, содержит в себе информацию о правилах написания символа. Оба алгоритма имеют вероятностную природу и позволяют сделать предположение о принадлежности данного символа. Основная задача при распознавании текстов - это повышение вероятности принятия правильного решения, то есть уменьшение доли ошибок. Существует несколько подходов к повышению качества распознавания. Например, алгоритм может содержать комбинацию шрифтового и шрифтонезависимого подхода. Существенное увеличение точности распознавания достигается за счет использования самообучения системы. Это позволяет, например, распознавать плохо пропечатанные символы с помощью шрифта, созданного на основе достаточно хорошо пропечатанных символов. Следует отметить, что на текстах хорошего качества лучше работают одни алгоритмы, на текстах плохого качества - другие, а для распознавания табличных форм удобнее использовать третьи и т.д. Существуют подходы, при которых экспертная система, встроенная внутрь ядра распознавания, сама выбирает оптимальный для данного текста алгоритм.

Альтернативой традиционному шаблонному методу распознавания стало распознавание на основе принципов целостности, целенаправленности и адаптивности, так называемая IPA-технология, на которой основана система распознавания компании ABBYY - FineReader.

Согласно принципу целостности, распознаваемый объект рассматривается как целое, состоящее из частей, связанных между собой пространственными отношениями. Изображение интерпретируется как определенный объект, только если на нем присутствуют все структурные части этого объекта и эти части находятся в соответствующих отношениях. Указанные части получают интерпретацию только в составе гипотезы о предполагаемом объекте.

По принципу целенаправленности распознавание строится как процесс выдвижения и целенаправленной проверки гипотез о целом объекте. Источниками гипотез являются признаковые классификаторы и контекстная информация. Части картинки анализируются не априори, а только в рамках выдвинутой гипотезы о целом. Традиционный подход, состоящий в интерпретации того, что наблюдается на изображении, заменяется подходом, состоящим в целенаправленном поиске того, что ожидается на изображении.

Принцип адаптивности подразумевает способность системы к самообучению.

Именно использование этих основополагающих принципов помогло добиться высочайшего качества распознавания, которое демонстрирует система ABBYY FineReader.

Отдельной задачей является распознавание рукопечатных символов, заключающееся в необходимости распознать символ, несмотря на особенности почерка человека.

Классификатор рынка систем ввода документов

Начале статьи мы упомянули о некоторой терминологической путанице и до сих пор не привели примеров. Дело в том, что упоминаемые выше термины, которые мы ввели при описании технологических процессов, используются также для определения соответствующих секторов рынка и здесь часто имеет место неоднозначность.

Для того чтобы разобраться в терминологии применительно к описанию рынка систем ввода документов, следует отметить, что помимо технологических аспектов, о которых мы говорили выше, существует также специфика, связанная с масштабом использования технологии. Действительно, когда говорят о домашних или о персональных системах ввода документов, то обычно подразумевают именно распознавание неформализованных документов, при незначительном количестве ввода документов за единицу времени. В данном случае на первое место выходит именно технология OCR. Поэтому когда речь идет о рынке OCR, то обычно имеют в виду рынок коробочных программ распознавания неформализованных документов для персонального применения. Напротив, ввод формализованных документов - это технология, которая обычно используется в организациях и имеет массовый характер. В данном случае наряду с распознаванием текстов встает масса технологических проблем - организация поточного сканирования, распределенной обработки, встраивание решения в корпоративные системы документооборота и т.д. Этот сектор обычно называют Document Capture.

В технологическом смысле Document Capture - это комплекс мероприятий по переводу бумажных документов в электронный архив для хранения и обеспечения доступа к ним. А в отношении доли рынка под этим понимают проектный рынок ввода документов, а не коробочные решения. Согласно вышеописанной классификации объем мирового рынка OCR составляет порядка 80 млн. долл. При этом лидером этого рынка является компания ScanSoft, имеющая оборот около 60 млн. долл. Рынок Data Capturing в несколько раз больше - порядка 300 млн. долл. Поскольку рынок Data Capturing является более проектным бизнесом, здесь нет столь явного лидера, как на рынке OCR. Около 50% серьезных контрактов получают четыре крупные компании: Cardiff Software, ReadSoft, Kofax, TIS. Поскольку в проектном бизнесе географическая близость к заказчику имеет чрезвычайно важное значение, выйти на западный рынок российским компаниям весьма сложно. Напротив, говоря о мировом рынке OCR, необходимо отметить выдающиеся успехи отечественной компании ABBYY: доля ее на мировом рынке в последние пять лет постоянно растет. На сегодняшний день компания имеет лучшие по качеству распознавания системы в мире. В 2001 году компания ABBYY оценивала свою долю на мировом рынке OCR в размере 10-12%, а в 2002 году она намеревается выйти на уровень 15 млн., что составит порядка 15-20% мирового рынка. Также ABBYY сейчас активно продвигает свои технологии на мировом рынке ICR - продукт ABBYY FormReader позволяет эффективно обрабатывать большие объемы различных форм: анкет, опросных листов, бланков, заявлений клиентов и т.д. На рынке OCR также активно работает компания Cognitive Technologies, которая в меньшей степени делает упор на рынок коробочного продукта и больше ориентирована на рынок OEM и на проектный отечественный рынок.

Руководство Cognitive Technologies максимальное внимание уделяет вопросам встраивания технологии OCR в интеграционные решения с элементами архивного хранения и обеспечения документооборота. Системами распознавания Cognitive Technologies комплектуется продукция ведущих мировых производителей офисной техники: Hewlett-Packard, Seiko Epson, Canon, Oki, Olivetti. Cognitive Technologies активно развивает направление, связанное с распознаванием форм.

Классификатор International Data Corp (IDC)

Как мы уже отмечали, при оценках объема рынка систем ввода документов встречаются различные подходы. Выше мы привели оценку компании ABBYY, согласно которой объем рынка Document Capture составляет примерно 300 млн. долл. При этом следует иметь в виду, что данная цифра относится к стоимости программного обеспечения. Существуют и другие подходы. В частности, в подходах оценки рынка IDC нет разделения на программную и аппаратную часть, а рассматривается стоимость решения, куда включаются все элементы. Видимо, именно по этой причине оценки мирового рынка имиджинга, по данным IDC, имеют на порядок большие значения (рис. 9).

По методике IDC системы имиджинга и ввода документов рассматриваются как составляющие рынка систем управления документами и бизнес-процессами (рис. 9). Согласно исследованию IDC, эти рынки в год растут примерно на 30% и к концу 2002 года в сумме достигнут 32 млрд. долл.

Cognitive Forms также может обрабатывать различные типы форм в одном потоке и осуществлять автоматическую проверку корректности данных.

В системе реализована уникальная функция Drag&Recog, которая существенно упрощает процедуру распознавания для пользователя. Для этого пользователю нужно лишь с помощью мыши выделить требуемый фрагмент отсканированного документа и перетащить его в поле распознавания.

В программный комплект Cognitive Forms входит отдельный модуль «Дизайнер форм», с помощью которого пользователь сам может создавать формы документов, задавать описания полей и варианты контекстных проверок. Таким образом система позволяет не только обрабатывать формы, но и создавать их.

В новой версии системы, вышедшей в апреле текущего года, реализована возможность единовременной обработки не только бумажных, но и электронных форм документов в форматах HTML и PDF. На сегодняшний день это единственная российская система, позволяющая осуществлять подобную операцию. Это значительно расширяет функциональные возможности системы, разрешая осуществлять сбор и обработку документов как посредством сканирования бумажных копий, так и через Интернет. В настоящее время большая часть корпоративных участников российского рынка перешла на одновременное использование как бумажных, так и электронных форм документов, и поэтому появление подобной системы крайне актуально.

Корпоративная система Cognitive Forms установлена более чем в 400 российских организациях, в числе которых Пенсионный фонд РФ, Газпром, Сбербанк РФ, Газпромбанк. К настоящему моменту с помощью системы было обработано более 100 млн. различных документов.

Продукты для промышленного ввода форм

В этом секторе также можно указать решения на базе вышеописанных технологий CuneiForm и ABBYY FormReader, которые адаптированы для промышленного использования, а также для систем потокового сканирования и распределенной обработки.

Например, система Cognitive Forms, установленная в Пенсионном фонде, ежедневно обрабатывает около 50 тыс. различных документов. При необходимости возможности системы позволяют обрабатывать до миллиона документов в день.

Работа системы включает потоковое сканирование, сортировку и контроль качества изображения, автоматическое распознавание, верификацию, экспорт в базу данных.

Гибридные комплексные решения

В данном секторе можно выделить решение InputAccel компании ActionPoint. Приобретя компанию Captiva, компания ActionPoint получила мощное комплексное решение, включая развитые средства ввода форм. Решение фирмы ActionPoint достаточно широко применяется в мире, однако мало распространено в России. Поэтому охарактеризуем его очень кратко: мощная система для проектов среднего и крупного масштаба, которая обладает соответствующими встроенными средствами разработки, а также средствами поддержки распределенной работы и кластеризации на серверах.

КомпьютерПресс 9"2002