Контролировать чистоту данных, на которых обучается ИИ, необходимо с привлечением человеческого потенциала через краудсорсинговые платформы. В России для этого есть свои масштабируемые решения. Качественные массивы данных нужны, в частности, чтобы обучать экспертные и рекомендательные системы на базе нейросетей – их применяют для поддержки принятия управленческих решений, развития умных городов, перехода к экономике данных. Об этом Руслан Алигаджиев, генеральный директор ИТ-компании «Биорг», резидента «Сколково», рассказал на Российско-Белорусской сессии «Совместные решения для промышленности в условиях импортозамещения» в рамках ЦИПР 2023.
По словам представителя «Биорг», несмотря на значительный прогресс в сфере технологий распознавания, они всё ещё плохо справляются со сложными и слабоструктурированными данными. ИИ нужно непрерывно обучать, чтобы он различал, например, рукописный текст, чертежи и т.д.
Для быстрой и безопасной подготовки данных под различные задачи цифровой трансформации необходимы платформенные инструменты на базе нейросетей и краудсорсинга. В частности, с их помощью можно быстро решать задачи развития региональных витрин данных, создаваемых по стандартам НСУД — «Национальной системы управления данными». НСУД — ключевой элемент для создания экосистемы цифровых сервисов и госуправления в рамках нацпроекта «Цифровая экономика». Проект курирует вице-премьер Дмитрий Чернышенко.
«Разметка данных и обучение ИИ с участием людей — самые качественные. На западе для таких задач используют большие крауд-платформы – например, Amazon Mechanical Turk. В России тоже есть свои решения. Для общих задач есть Яндекс.Толока. Для специальных – например, наша платформа с собственным крауд-модулем, Beorg Smart Vision, которая настроена на обработку сложных, технических и персональных данных и внесена в реестр отечественного ПО», — отмечает Руслан Алигаджиев.
Он рассказал, что чем больше обучается ИИ через платформу, тем меньше нужно человеческого участия в процессе. Но есть проекты, где без людей не обойтись. Для того же НСУД требование полноты и непротиворечивости к представленной на витрине информации закреплено на уровне нормативной документации.
Недавно компания «Биорг» загрузила 7 терабайт оцифрованных технических документов в обновленную систему АСУТД Росэнергоатома. С 2018 по 2020 год перевела в электронный вид почти 50 млн актов гражданского состояния органов ЗАГС – на базе в том числе этой информации правительство развивает социальные сервисы.
В подобной работе реализована запатентованная компанией методика двухэтапного распознавания: на первом этапе документ обрабатывает нейросеть, а данные, распознанные с низким порогом уверенности, переходят на оператора, который верифицирует значения и одновременно дообучает систему. Защита данных на платформе обеспечена механизмом деперсонализации — нейросети разрезают документы на фрагменты. Информация передаётся по защищенному каналу.
«На уровне коммерческих компаний такой подход применим для высококачественной оцифровки данных — например для перевода в электронный вид любых бумажных документов. На уровне государственных задач методика актуальна для наполнения реестров ведомственных данных, где есть высокие требования к чистоте и непротиворечивости информации. На базе таких реестров ведомства будут обмениваться данными автоматически, а граждане смогут получать проактивные госуслуги. Например, родился ребенок – автоматически назначили пособия, выдали СНИЛС, поставили на очередь в детский сад; приобрел недвижимость – автоматически получил налоговый вычет», — комментирует применение технологии Руслан Алигаджиев.
Спикер отметил, что спрос на подобные гибридные системы подтвержден не только на уровне РФ. Интерес проявляют коллеги из дружественных стран, которые также планируют масштабные проекты по оцифровке данных. В этом смысле значительным подспорьем для отечественного технологического бизнеса стала служба Цифровых атташе, инициированная Минцифры и развиваемая Минпромторгом РФ.
Ранее на ЦИПР 2023 премьер-министр России Михаил Мишустин поставил задачу активнее экспортировать отечественные разработки.
Также на ЦИПР заместитель главы Мицифры Григорий Борисенко рассказал о платформенном подходе в реализации Национальной стратегии развития искусственного интеллекта 2030.
Информационная справка:
Компания «Биорг» – российский разработчик интеллектуальных систем на базе компьютерного зрения, машинного обучения и обработки естественного языка для распознавания документов, в том числе рукописных форм и чертежей, и разметки наборов данных (датасетов). Ключевая разработка компании для цифровой трансформации государства и бизнеса — облачная платформа Beorg Smart Vision — объединяет в себе нейросетевой модуль распознавания (ИИ) и краудсорсинговый сервис для верификации данных. Компания — резидент фонда «Сколково».