#AI #CDO #машинное обучение

Как CDO могут способствовать использованию машинного обучения в госучреждениях

9 мин

11 Дек 2020

Фото: Unsplash

Машинное обучение – мощная, универсальная технология, но ряд факторов пока мешает ее полноценному внедрению как в частном секторе, так и на государственном уровне. Пять направлений, в которых пойдет прогресс в машинном обучении, способны это изменить

Потенциал искусственного интеллекта (ИИ) для применения в области госуправления огромен. В особенности это касается технологии машинного обучения, которая может помочь обнаруживать закономерности и аномалии и на их основе делать прогнозы. Существуют пять направлений, прогресс в которых поможет упростить, ускорить и удешевить применение машинного обучения и внедрить эту технологию в госсекторе. По мере того как препятствий становится все меньше, у цифровых директоров (CDO) появляются все новые возможности для изучения самых разнообразных способов применения этой передовой технологии.

Текущие препятствия

Машинное обучение — одна из самых мощных и универсальных информационных технологий, доступных нам сегодня. Но большинство организаций, даже в частном секторе, еще и не приступили к реализации ее потенциала. Недавнее исследование 3100 малых, средних и крупных компаний в семнадцати странах показало, что менее 10% руководителей инвестируют в машинное обучение.

Ряд факторов препятствует внедрению машинного обучения как в частном секторе, так и на государственном уровне. Не хватает квалифицированных, опытных специалистов-практиков. Инструменты и платформы для работы с машинным обучением все еще на стадии развития. Для разработки некоторых моделей машинного обучения требуются обширные наборы данных, собирать которые трудно и дорого.

Также существует проблема «черного ящика». Даже когда модели машинного обучения генерируют ценную информацию, многие госслужащие не торопятся ее применять. Почему?

Отчасти потому, что принципы работы моделей машинного обучения по-прежнему загадочны, и люди не готовы полностью доверить управление производством или политические решения технологиям, которые они не до конца понимают. Сомнение госслужащих можно понять, ведь невозможно гарантировать, что полученные расчеты, например, не дискриминируют отдельные группы населения.

Успешное применение ИИ обычно требует понимания всех требований государственной системы, а также большей прозрачности от «черных ящиков».

Пять областей, развитие которых поможет преодолеть препятствия на пути к внедрению технологии

Существует пять направлений развития машинного обучения, которые смогут способствовать более широкому внедрению машинного обучения на государственном уровне. Три главных направления: автоматизация аналитики, сокращение необходимых данных и ускорение обучения – делают машинное обучение проще, дешевле и/или быстрее. Два других: интерпретируемость модели и локальное машинное обучение. Оба эти направления смогут открыть путь к использованию машинного обучения в новых областях.

Автоматизация аналитики данных

Разработка решений для машинного обучения требует навыков, главным образом в области аналитики данных, которую часто понимают неправильно. Аналитику данных можно рассматривать, как смесь искусства и науки, которая сама по себе является рутинной работой в цифровой области. Почти 80% процесса работы аналитиков данных можно полностью или частично автоматизировать, что позволило бы им сосредоточиться на более важных задачах. Сюда входит очистка данных: предварительная обработка и нормализация данных, заполнение отсутствующих значений или определение, как интерпретировать данные (например, является ли то или иное значение в столбце числом или датой), исследовательский анализ данных — стремление понять общие характеристики, чтобы помочь сформулировать гипотезы о них, разработка и выбор функций — выбор тех переменных в данных, которые коррелируют с тем, что должна предсказывать модель. а также выбор и оценка алгоритмов – процесс, который позволяет оценить, какие именно алгоритмы из множества тысяч дают наиболее точные результаты.

Автоматизация этих задач может сделать специалистов по анализу данных, работающих на государственном уровне, более продуктивными и эффективными. Например, специалисты по обработке данных в Airbnb при построении моделей жизненного цикла клиента для гостей и хозяев жилья использовали автоматизированную платформу для тестирования множества алгоритмов и подходов к дизайну проекта, на что у них, в противном случае, скорее всего, просто не нашлось бы времени.

Это позволило компании Airbnb внести изменения в свой алгоритм и повысить его точность более чем на 5%, и таким образом улучшить процесс принятия решений и взаимодействия с сообществом Airbnb на очень детализированном уровне.

Растущее число инструментов и методов для автоматизации аналитики данных, предлагаемых как известными компаниями, так и стартапами, поможет сократить с месяцев до дней время, которое затрачивается на получение прототипа модели для машинного обучения. Автоматизация аналитики данных также может дать увеличение продуктивности специалистов, особенно с учетом частой нехватки квалифицированных кадров. Как показано в приведенном выше примере, агентства могут использовать технологии автоматизации аналитики данных для расширения своих работ в области машинного обучения.

Снижение потребности в обучающих данных

Для разработки моделей машинного обучения обычно требуются миллионы элементов данных. Это может стать серьезным препятствием, так как на сбор и разметку данных уходит много времени и средств. Например, проект медицинской диагностики требует большого количества изображений МРТ с меткой диагноза для создания алгоритмов прогнозирования. Затраты на радиолога, который вручную просмотрит и разметит 1000 медицинских изображений (со скоростью обработки — около шести изображений в час), может стоить более $30 000. А вопросы конфиденциальности, особенно для защищенных типов данных, могут сделать этот процесс еще более трудоемким и непростым.

В последнее время появился ряд потенциально многообещающих методов сокращения объема данных, необходимых для машинного обучения. Один из них предполагает использовать синтетические данные, сгенерированные алгоритмически, для создания альтернативы, имитирующей характеристики реальных данных. Этот метод показал многообещающие результаты.

Команда Deloitte LLP протестировала инструмент, который позволил построить точную модель машинного обучения с использованием лишь 20% от всех требуемых данных, путем синтеза остальных 80%. Задача модели заключалась в том, чтобы проанализировать название должностей и их описание, которые в крупных организациях часто непоследовательны, особенно если компании развивались за счет приобретений, а затем создать для них более последовательный стандартный набор классификаций должностей. Чтобы это сделать, модели нужно было изучить несколько тысяч точно классифицированных примеров. Вместо того, чтобы требовать от аналитиков кропотливой классификации («разметки») этих примеров вручную, инструмент позволил взять набор всего 20% помеченных данных и автоматически создать более полный набор обучающих данных. Итоговый набор данных, состоящий на 80% из синтетических данных, обучил модель так же эффективно, как и размеченный вручную набор реальных данных.

Синтетические данные могут не только упростить получение данных для обучения, но и облегчить организациям доступ к внешним специалистам в области анализа данных. Многие организации успешно привлекали третьих лиц или использовали краудсорсинг для разработки моделей машинного обучения, размещая наборы данных в Интернете для работы с внешними специалистами по данным. Однако при работе с проприетарными наборами данными это может вызвать сложности. Чтобы решить эту проблему, исследователи из MIT создали синтетический набор данных, которым затем поделились с обширным сообществом специалистов в аналитике данных. Специалисты построили модели машинного обучения, используя синтетические данные. Из 15 в 11 случаях модели, разработанные на основе синтетических данных, показали не менее высокий результат, чем модели, обученные на реальных данных.

Другой метод, который может снизить потребность в большом объеме обучающих данных, — это передача модели обучения (transfer learning). При таком двухступенчатом подходе модель машинного обучения предварительно учится на одном наборе данных, что сокращает обучение на новом наборе данных из той же области, например, в языковом переводе или в распознавании изображений. Некоторые поставщики, предлагающие инструменты машинного обучения, заявляют, что использование передачи модели обучения может на несколько порядков сократить количество необходимых для обучения примеров.

Развивающиеся технологии ускоренного обучения

Из-за большого объема данных и сложных алгоритмов вычислительный процесс обучения модели машинного обучения может занять много часов, дней и даже недель. Только после этого модель может быть проверена и уточнена. Сейчас некоторые производители полупроводников и компьютеров – как компании-гиганты, так и стартапы – разрабатывают специализированные электронные компоненты, такие как графические процессоры (GPU), программируемые пользователем вентильные матрицы (FPGA) и специализированные интегральные схемы, которые помогают сократить время, необходимое для обучения моделей, за счет ускорения вычислений и увеличения скорости передачи данных внутри чипа.

Эти специальные процессоры могут помочь организациям значительно ускорить обучение и выполнение машинного обучения, что, в свою очередь, может снизить связанные с этим расходы. Например, исследовательская группа Microsoft, используя графические процессоры, создала систему, которая способна распознавать разговорную речь так же , как человек, всего за один год. По словам одного из исследователей, если бы команда использовала только обычные процессоры (CPU), выполнение той же задачи заняло бы пять лет. Google заявила, что ее собственный ИИ-чип, Tensor Processing Unit (TPU), при включении в вычислительную систему, которая содержит в себе стандартные (CPU) и графические процессоры (GPU), обеспечил такой прирост производительности, что помог компании избежать затрат на строительство десятка дополнительных центров обработки данных. Сокращение затрат и времени на тренинг моделей машинного обучения, потенциально важен для государственных учреждений, многие из которых имеют ограниченное количество специалистов.

Среди первопроходцев, внедривших эти специализированные ИИ-чипы, крупные технологические компании и исследовательские институты в области анализа данных и машинного обучения. Однако, похоже, внедрение происходит и в других областях, например: в розничной торговле, финансовых услугах и телекоммуникациях. Поскольку все крупные поставщики облачных услуг: IBM, Microsoft, Google и Amazon Web Services — предлагают облачные вычисления на графических процессорах, ускоренное обучение, вероятно, в ближайшее время станет доступным для аналитиков в государственном секторе и позволит им быстро внедрять технологии. Это повысит производительность и позволит им многократно увеличить количество используемых приложений машинного обучения.

Прозрачность полученных результатов

Модели машинного обучения часто страдают от проблемы «черного ящика». Невозможно досконально понять, как именно они принимают свои решения. Это может сделать их непригодными или неприемлемыми в ряде случаев. Например, без убедительного разъяснения причин такого решения, врачи могут не согласиться с медицинским диагнозом, а руководители предприятий — с решением об инвестициях. А в некоторых случаях законодательство требует таких объяснений.

Появляются методы, способные помочь пролить свет внутрь «черных ящиков» некоторых моделей машинного обучения, делая их работу более понятной и точной.

Исследователи из Массачусетского Технологического Института продемонстрировали методы обучения нейронной сети, которые дают не только прогнозы, но и их обоснование. Некоторые из этих методов уже используются в коммерческих системах анализа данных.

По мере появления интерпретируемых моделей машинного обучения, государственные учреждения смогут найти привлекательные возможности для использования машинного обучения. Потенциальные области применения включают службы по защите детей, обнаружение мошенничества, а также диагностику и лечение заболеваний.

Локальное применение

Появление мобильных устройств в качестве платформы машинного обучения расширяет возможности использования этой технологии и побуждает организации разрабатывать приложения в таких областях, как умные дома и города, автономные транспортные средства, носимые технологии и промышленный интернет вещей (IIoT).

Использование машинного обучения будет расти вместе с возможностью внедрения технологии там, где она может повысить эффективность и принести результаты. Достижения как в программном, так и в аппаратном обеспечении делают использование этой технологии на мобильных устройствах и интеллектуальных датчиках все более актуальной. Что касается программного обеспечения, то несколько поставщиков сейчас создают компактные модели машинного обучения, которые часто требуют относительно небольшого объема памяти, но при этом могут выполнять такие задачи, как распознавание изображений и языковой перевод на мобильных устройствах. В результате усилий Microsoft Research Lab модели были сжаты и стали в 10–100 раз меньше, чем их предыдущие варианты. Что касается аппаратного обеспечения, то различные поставщики полупроводников разработали или разрабатывают собственные энергоэффективные микросхемы искусственного интеллекта для подключения машинного обучения к мобильным устройствам.

Приготовьтесь к тому, что машинное обучение станет нормой

В совокупности эти пять направлений развития машинного обучения могут помочь уменьшить проблемы, с которыми госучреждения могут столкнуться при инвестировании в машинное обучение. Они также могут помочь агентствам, уже использующим машинное обучение, расширить использование этой технологии. Развитие этих направлений могут открыть новые возможности и помочь госучреждениям преодолеть проблему ограниченных ресурсов, проблемы инфраструктуры, нехватки специалистов и данных для обучения моделей.

У CDO есть возможность автоматизировать часть работы специалистов по обработке данных и помочь им повысить продуктивность. Агентствам следует учитывать несколько ключевых моментов:

• Спросите у поставщиков и консультантов, как они сами используют автоматизацию аналитики данных.

• Следите за новыми методами такими, как синтетические данные и передача моделей обучения, чтобы упростить задачу получения данных.

• Узнайте, предоставляют ли облачные провайдеры вычислительные ресурсы, которые оптимизированы для машинного обучения.

Давид Щацкий

Директор Deloitte Services

Рамита Чаухан

Deloitte Services India

Как CDO могут способствовать использованию машинного обучения в госучреждениях

Текущие препятствия

Пять областей, развитие которых поможет преодолеть препятствия на пути к внедрению технологии

Автоматизация аналитики данных

Снижение потребности в обучающих данных

Развивающиеся технологии ускоренного обучения

Прозрачность полученных результатов

Локальное применение

Приготовьтесь к тому, что машинное обучение станет нормой

Давид Щацкий

Рамита Чаухан

Смотрите еще

Почти 70% российских Open Source — инструментов для ИИ реализовано в последние два года

«Киберпротект»: бюджет на ИБ увеличили более половины российских компаний

Международный форум Digital Innopolis Days и AI IN 2024 пройдёт в Иннополисе 2—4 октября

Минэкономразвития России объявляет о старте набора граждан на обучение в сфере искусственного интеллекта

74% россиян выбирают смартфоны на операционной системе Android

South HUB пройдет в Сочи с 8 по 12 июня