Фильтр по тематике

Применение свёрточной нейронной сети для решения проблемы регистрации скан-копий документов в электронном архиве

Выявлена проблематика, возникающая при регистрации в электронном архиве «ЭЛЬДОКа» дублей скан-копий документов, и приведены варианты решения, описана архитектура свёрточной нейронной сети, а также указаны её преимущества и недостатки.

20.06.2022 2014 0
Применение свёрточной нейронной сети для решения проблемы регистрации скан-копий документов в электронном архиве

Введение

Электронный архив документов (ЭЛЬДОКа) – программное обеспечение для каталогизации проектной документации на предприятии и регламентации доступа к ней.

Целевым назначением ИТ-решения «ЭЛЬДОКа» является:

  • создание сетевого программного обеспечения в форме веб-приложения для ввода, хранения и обработки информации в рамках задачи информационного обеспечения деятельности Компании заказчика;
  • ведение электронного архива Компании; 
  • структурированное хранение и связь документов; 
  • обеспечение объектно-ролевого доступа к материалам; 
  • возможность визуализировать документы различных форматов; 
  • увеличение эффективности и повышение качества контроля над выполнением работ.

Платформа АТОЛЛ обеспечивает единое управление всей поступающей информацией, включая внутренние сервисы поддержания целостности, и реализует возможность предоставления доступа к данным.

Концепция работы электронного архива систематизирует файловые Хранилища и данные из реляционных систем, собирая их виртуально в единую КАРТОЧКУ ОБЪЕКТА (или ДОКУМЕНТА). Многокритериальный поиск в РЕЕСТРЕ КАРТОЧЕК нужной информации в файлах карточек и ее ВИЗУАЛИЗАЦИЯ обеспечивается атрибутивным бизнес-значимым описанием файлов и структурированием их по разделам карточки (рис. 1).

Функциональность системы заключается в автоматизации перечисленных ниже задач бизнеса в разных бизнес-процессах, главными атрибутами которых являются документы:

  • формирование электронного архива документов – создание карточек документов и ведение метаданных (каталогизация данных), регистрация файлов для архивного хранения:
  • поиск электронных документов;
  • работа с электронными документами – визуализация содержимого электронных документов, работа с реестрами электронных документов, выгрузка данных и массовое редактирование карточек документов;
  • управление электронным архивом. Задача организации и настройки хранилища электронных документов, управление сервисами, которые обеспечивают работу с архивными электронными документами, доступ к ним, журналирование работы с архивом;
  • администрирование;
  • настройка электронного архива;
  • аудит действий пользователей.
  • подготовка графической отчётности. Функциональный модуль с набором функций для ведения графических данных, в том числе описывающих объекты предметной области;
  • паспортизация объектов. Функциональный модуль с набором функций для представления отраслевых данных по объекту (объекту паспортизации) через настраиваемую иерархическую структуру разделов паспорта и отраслевые визуализаторы.

Цель работы: найти методы разрешения проблематики регистрации дублей скан-копий документов, обучить и протестировать свёрточную нейронную сеть.

Поставленные задачи:

  • найти способы обхода недостатков применения метода сравнения скан-копий документов по контрольной сумме и текстовому содержимому;
  • провести анализ библиотек на языке Python для найденных способов.

Предпосылки работы

При регистрации документов в электронном архиве разные пользователи зачастую регистрируют одни и те же документы под разными именами и в разных ветках иерархии документов. Это приводит: 

  • к увеличению расходов на системы хранения документов;
  • рассинхронизации разных копий документов при обновлении их версии; 
  • снижению уровня доверия к электронному хранилищу документов.

Ещё большей проблемой является регистрация разных скан-копий одного и того же документа, так как с точки зрения файловой системы это будут совершенно разные файлы.

Основная идея

Основная задача электронного архива «ЭЛЬДОКа» – каталогизация и классификация документов заказчика в привязке к модели предметной области. При этом каждый документ должен регистрироваться только один раз. Если возникает необходимость привязки того же документа к другой «ветви» или «листу» модели предметной области, то в требуемых местах должна размещаться ссылка на уже загруженный документ.

Требования к регистрации скан-копий документов аналогичны требованиям к размещению документов в офисных форматах. При этом определение дублей скан-копий документов допустимо выполнять в асинхронном режиме, выводя пользователю результат поиска дублей, предоставляя право пользователю подтвердить схожесть скан-копий документов и самому определить место размещения первичной скан-копии.

Методика работы

Существует несколько вариантов решения проблемы поиска дублей скан-копий документов в архиве. 

Поиск дублей документов посредством сравнения по контрольной сумме файлов. 

Контрольная сумма файлов — это последовательность цифр и букв, которая используется для проверки данных на наличие ошибок. Если заранее известна контрольная сумма исходного файла, можно использовать служебную программу контрольной суммы, чтобы подтвердить, что сравниваемый файл идентичен исходному. 

Чтобы получить контрольную сумму, необходимо запустить программу, которая обработает файл с помощью алгоритма. Типичные алгоритмы, которые используются для этого, включают MD5, SHA-1, SHA-256 и SHA-512.

Алгоритм использует криптографическую хеш-функцию, которая принимает входные данные и создаёт строку (последовательность цифр и букв) фиксированной длины.

Внутри электронного архива реализован алгоритм хеширования MD5.  MD5 – в настоящее время является одним из самых распространённых способов защитить информацию в сфере прикладных исследований, а также в области разработки веб-приложений. 

Утилита md5sum, предназначенная для хеширования данных заданного файла по алгоритму MD5, возвращает строку. Она состоит из 32 цифр в шестнадцатеричной системе счисления. То есть хеш, полученный от функции, работа которой основана на этом алгоритме, выдает строку в 16 байт (128 бит).

И эта строка включает в себя 16 шестнадцатеричных чисел. При этом изменение хотя бы одного её символа приведёт к последующему бесповоротному изменению значений всех остальных битов строки.

Поиск дублей скан-копий документов по схожести содержимого с помощью нейронных сетей. 

Для решения задач классификации изображений (распознавания образов) повсеместно используются свёрточные нейронные сети, которые являются разновидностью моделей глубокого обучения. Свёрточные нейронные сети обеспечивают частичную устойчивость к изменениям масштаба, смещениям, поворотам, смене ракурса и прочим искажениям. В основе свёрточной нейросети лежит Deep Learning-алгоритм, который может принимать входное изображение, присваивать важность (усваиваемые веса и смещения) различным областям/объектам в изображении и может отличать одно от другого. 

Для достижения цели распознавания скан-копий и вывода ссылки на уже существующую скан-копию необходимо обучить нейронную сеть.

Обучение свёрточной нейронной сети для классификации изображений

Когда работа будет вестись с участием нейронной сети, то возникает необходимость сбора данных для обучения. Обучающий набор данных представляет собой набор наблюдений, для которых указаны значения входных и выходных переменных. В данном случае используются наборы данных, основанных на скан-копиях проектной документации и документов заказчика.

Архитектура свёрточной нейронной сети

Нейронная сеть состоит из пар слоёв – слоёв подвыборки и слоёв свёртки, каждый из которых, в свою очередь, состоит из карт признаков. Нетрудно убедиться в том, что каждая карта признаков в идеале фильтрует изображение, находя какой-то один определённый, специфичный для данной карты, признак (рис. 2).

Исходное изображение подаётся на входной слой. В первом слое подвыборки каждая карта признаков осуществляет поиск определённого, закреплённого только за данной картой, признака. Достигается это за счёт использования общих для всей карты признаков матрицы весов и особой организацией локального рецептивного поля для каждого нейрона такой карты. Каждый нейрон карты признаков получает входные данные от прямоугольной области размера nґm входного изображения.

Смежные нейроны карты признаков получают в качестве входного воздействия смежные прямоугольные области, причём весовые коэффициенты для всех нейронов карты признаков будут одинаковыми.

Для введения инвариантности нейронной сети к смещениям и небольшим деформациям используется слой свёртки. Для каждой карты признаков существует соответствующая ей карта свёртки, которая уменьшает размерность карты признаков с n×m до n/2×m/2 путём усреднения значений по квадрату 2×2 нейронов. После выполнения свёртки сеть теряет часть информации о точном положении найденного признака, но сохраняет информацию относительно взаимного расположения различных признаков. Следующий слой подвыборки осуществляет аналогичную первому слою сегментацию входных данных на прямоугольные области nґm, только входными данными второго слоя служит выход первого слоя. Таким образом, каждая карта признаков второго слоя осуществляет поиск признаков второго порядка одновременно во всех картах признаков первого слоя.

Свёрточной нейронной сети с тремя парами слоёв подвыборки-свёртки вполне достаточно для точного распознавания лиц.

Достоинства СНС1 

  1. Уменьшение количества обучаемых параметров и повышение скорости обучения по сравнению с полносвязной нейронной сетью. 
  2. Возможность распараллеливания вычислений и реализации алгоритмов обучения сети на графических процессорах (GPU).
  3.  Устойчивость к сдвигу позиции объекта во входных данных. При обучении свёрточная нейронная сеть сдвигается по частям объекта. Поэтому обучаемые признаки не зависят от позиции «важных частей». Это свойство свёрточной нейронной сети помогает повышать качество классификации. 

Недостатки СНС

  1. Высокая сложность архитектуры. 
  2. Фиксированная площадь окна слоя свёртки.
  3. Полносвязность.

Полученные результаты

  • Выявлена проблематика регистрации скан-копий внутри электронного архива и изучены варианты решения проблемы.
  • Обучена свёрточная нейронная сеть для классификации изображений.
  • Проведено тестирование нейронной сети.
  • Проведён поиск дублей скан-копий документов.

Заключение

Даны определения свёрточным нейронным сетям (СНС). Проведены этапы разработки нейронной сети и её работы, её реализация кода на языке программирования Python.

Литература

  1. Шолле Ф. Глубокое обучение на Python. СПб.: Питер, 2019.
  2. Свёрточные нейронные сети для распознавания изображений // URL: https://libeldoc.bsuir.by/bitstream/123456789/39033/1/Prokopenya_Svertochnyye.pdf.
  3. Архитектура обобщённых свёрточных нейронных сетей // URL: http://www.it-visnyk.kpi.ua/wp-content/uploads/2012/08/54_36.pdf
  4. Свёрточная нейронная сеть для решения задачи классификации // URL: https://mipt.ru/upload/medialibrary/659/91_97.pdf.

Если вам понравился материал, кликните значок — вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал —не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!

20.06.2022 2014 0
Комментарии
Рекомендуем
Космическая версия зарождения жизни.  Часть 1. Новая интерпретация феномена атмосферных плазменных образований, зафиксированных во время полёта шаттла «Columbia» в 1996 году

Космическая версия зарождения жизни. Часть 1. Новая интерпретация феномена атмосферных плазменных образований, зафиксированных во время полёта шаттла «Columbia» в 1996 году

В феврале 2026 года исполняется 30 лет со дня космического полёта STS-75, выполненного в 1996 году на корабле «Columbia» в рамках американской программы космических шаттлов Space Transportation System. В рамках этого космического полёта были проведены уникальные эксперименты по изучению электродинамики металлического троса длиной около 20 км в ионосфере Земли. Эти работы позволили решить ряд проблем, связанных с естественными и искусственными источниками помех для систем спутниковой связи. В последнее время набирает всё бóльшую популярность видеоролик Джея Андерсона, в котором он разбирает статью хорошо известного уфолога – астроботаника Роуна Джозефа, недавно опубликованную в журнале Journal of Modern Physics (2024). Авторы этой статьи предлагают интерпретировать атмосферные плазменные образования, зафиксированные на видеозаписи, полученной во время полета STS-75, как самоорганизующиеся субстанции, которые миллиарды лет назад могли инициировать зарождение биологической жизни на Земле. В задачу нашей статьи не входила оценка достоверности выводов, приведённых в новой статье. Во-первых, пользуясь 30-летним юбилеем полёта, хотелось бы напомнить о действительно уникальном эксперименте, проведённом в полёте STS-75. Во-вторых, ниже показано, что из себя представляют и как были получены «новые доказательства внеземного зарождения жизни», предложенные Джозефом.
19.02.2026 СЭ №2/2026 485 0
К 130-летию со дня рождения великого советского физика Игоря Евгеньевича Тамма.  Часть 2. Воплощение идей Тамма в современной электронике

К 130-летию со дня рождения великого советского физика Игоря Евгеньевича Тамма. Часть 2. Воплощение идей Тамма в современной электронике

В первой части статьи (Современная электроника. 2025. № 7) были рассмотрены основные работы Игоря Евгеньевича Тамма, ставшие со временем классикой теоретической физики. Сегодня, спустя сто лет, теоретические разработки Игоря Тамма воплощаются в реальные современные электронные устройства. В этой части коротко описаны некоторые современные быстродействующие электрооптические модуляторы (EOM, TFLN, HW MZM, IQ MZM, SOH MZM), в основе которых лежит эффект изменения коэффициента преломления в некоторых оптических средах при наложении внешнего электрического поля. Этот эффект, обнаруженный Фридрихом Поккельсом в 1893 году, позднее получил его имя (Pockels Effect – PE). Тамм и Мандельштам в 1924 году дали строгое теоретическое обоснование этих явлений, которое остаётся актуальным и в настоящее время.
27.10.2025 СЭ №8/2025 805 0

  Подписывайтесь на наш канал в Telegram и читайте новости раньше всех! Подписаться