#AI #венчурный рынок #искусственный интеллект

AI в 2021: легко решает простые задачи и не отличается справедливостью

10 мин

5 Апр 2022

2021 год стал переломным для рынка решений в области искусственного интеллекта. Об этом свидетельствуют выводы ежегодного отчета Стэнфордского университета AI Index 2022. Частные инвестиции растут, а число игроков сокращается. Эффективность алгоритмов при решении простых задач превзошла средний уровень человека. При этом непонятно, удастся ли сделать AI справедливым, правдивым, этичным.

2022 AI Index Report

Инвестиции в AI за год выросли в два раза

По мнению исследователей, вложения корпораций – основной источник финансирования проектов в области искусственного интеллекта. Это объясняет быстрое проникновение технологии в экономику. В 2021 году вложения бизнеса в решения на базе AI выросли до $93,5 млрд по сравнению с $48 млрд в 2020 году.

При этом в прошлом году более чем в три раза вырос объем средств, которые были потрачены на слияние и поглощение ($72 млрд в 2021 году против $21,5 млрд годом ранее), процесс идет с 2018 года. Максимальное число раундов финансирования пришлось на сегмент в размере от $100 млн до $500 млн.

В результате мировой рынок AI постепенно укрупняется, число компаний сокращается: с 762 в 2020 году до 746 в 2021 году.

Корпоративные инвестиции в AI во всем мире

Топ-3 стран-лидеров по объему инвестиций с 2013 года не изменился. В 2021 году Индия уступила 4 место Израилю и опустилась на 8 место. Хотя по суммарным инвестициям с 2013 года Индия остается на 4 месте.

География частных инвестиций в AI в 2021 году

США, Китай, Великобритания лидируют не только по объему вложений, но и по количеству компаний, которые получили инвестиции в 2021 году: 299, 119 и 49 компаний соответственно. Интересно, что во всем Евросоюзе получили инвестиции только 96 AI-компаний (меньше, чем в Китае и в три раза меньше, чем в Штатах). Европа отстает по числу инициатив в области искусственного интеллекта.

Среди отраслей по объему инвестиций на первое место в 2021 году вышли «управление и обработка данных», «облачные технологии». В 2020 году на первом месте были «медицина» и «фармакология» (проекты в области создания лекарств, технологии лечения рака). При этом медицина и забота о здоровье лидирует по объему инвестиций с 2013 года. Данные на втором месте, а финтех замыкает тройку лидеров в обеих категориях.

Конечно, разработка AI-решений сопровождается всплеском профильных публикаций.

Число публикаций по AI-технологиям в мире

В публикациях лидирует партнерство США и Китая

В период с 2010 по 2021 год в Соединенных Штатах и Китае было выпущено наибольшее количество межстрановых совместных публикаций в области искусственного интеллекта. Это в пять раз больше, чем в 2010 году. При этом в 2021 году количество совместных публикаций немного снизилось по сравнению с 2020 годом, когда было достигнуто пиковое значение (10 тыс. публикаций).

На втором месте – сотрудничество между Великобританией и Китаем, на третьем – между Великобританией и США. У них совместных публикаций примерно в 3 раза меньше, чем у лидирующей пары.

География публикаций. Китай с 2010 года остается лидером по числу публикаций в журналах, посвященных технологиям искусственного интеллекта – 31 %. На Евросоюз с Великобританией приходится 19 %, на США – 13,7 %.

Отраслевая направленность публикаций. Подавляющее число публикаций, посвященных AI, выпущено представителями образовательных учреждений. Это направление лидирует в каждой стране, что неудивительно – большинство публикаций всегда приходится на исследовательские учреждения, в первую очередь на университеты.

Сегментация AI-публикаций по направлениям

Интересно, что среди кросс-публикаций лидирует пара «образование – некоммерческий сектор», на втором месте «образование и бизнес», на третьем – «образование и правительство».

Доля AI-публикаций, которые вышли в сотрудничестве между двумя направлениями

У какой страны больше всего AI-патентов

В 30 раз увеличилось число патентов на AI-технологии за последние шесть лет. Среднегодовой рост составил 76,9 %. Китай генерирует более половины заявок на патенты, США – 17 %, Евросоюз суммарно с Великобританией – около 4 %. При этом по числу выданных патентов лидируют США – примерно 40 %. У Китая только 5,9 %.

Это значит, что патентные службы Штатов работают быстрее, чем китайские. В 2021 году из 87,3 тыс. заявок на патент в Китае было одобрено только 1,4 тыс. заявок, или 1,6 %. В США зарегистрирована почти половина заявок, в Евросоюзе и Великобритании – треть.

Большая часть разработок относится к технологиям компьютерного зрения, языковым моделям, робототехнике.

Компьютерное зрение приближается к человеческому

Компьютерное зрение и связанные технологии сделали скачок. В 2018 году алгоритмы распознавания изображений, обученные на базе изображений ImageNet, догнали по точности определения объектов уровень человека – 94,9 %. В 2021 году процент правильного распознавания, например у системы Florence, которая принадлежит Microsoft, достиг 99 %.

Генерация изображений, deep fake, вплотную приблизилось к реальности. Технологии активно используются в медиа, индустрии моды и развлечений. Вирусные фейки в соцсетях – яркий пример применения deep fake. Сегодня не сложно сгенерировать изображение лица, в котором человек не распознает подделку. Но AI поможет и здесь. В 2020 году системы искусственного интеллекта могли идентифицировать 69,9 % подделок, в 2021 – уже 97,7 %. Следующий рубеж – распознавание подделок в видео.

Язык человеческого тела машины учатся распознавать по расположению суставов. У человека фиксируется 14 точек. Примеры практического применения технологий – наблюдение за толпой, обеспечение безопасности, создание виртуальных движущихся фигур в киноиндустрии. Лучшие алгоритмы, которые работают с плоскими изображениями, близки к максимальному показателю. В 2021 году они правильно определили 99,5 % контрольных точек. Задача следующего уровня – распознавание позы на трехмерном изображении.

Сегментирование изображений с помощью AI продолжает совершенствоваться. Технологии необходимы, например, для беспилотных автомобилей, которые должны различать людей, животных, дорожные знаки. Сегментирование изображений очень важно в медицине – опухоли, полипы может распознавать AI, и тогда врач быстрее приступит к лечению. С 2015 года качество сегментирования увеличилось на 14,6 процентных пункта до 86,2 %.

Системы распознавания лиц работают на нашу безопасность уже несколько лет. Но если в 2017 году в половине случаев AI распознавал лица с ошибкой, то в 2021 году решения демонстрируют не более 3 % ошибок. Самые эффективные алгоритмы ошибаются только раз в 1000 случаев. Когда был введен масочный режим, эффективность систем ухудшилась в среднем на 10 %. Это некритичный показатель, который будет уменьшатся, считают исследователи.

Визуальное мышление – это анализ изображений, когда алгоритм сам определяет, что он видит. Фактически речь идет о приближении к человеческому мышлению. В 2015 году наиболее эффективные системы смогли правильно ответить только на половину вопросов, в 2021 году – на 79,8 % вопросов. Для сравнения: уровень усредненного человеческого восприятия – 80,8 %.

Языковые модели наращивают сложность и предвзятость

Понимание прочитанного этими алгоритмами оценивают по специальным тестовым дорожкам. До 2019 года технология оценки называлась GLUE, с 2019 года появилась метрика Super GLUE. Super GLUE – это набор из вопросов и ответов. Ответ алгоритма сравнивается с ответом Super GLUE. Для каждого языка существует свой Super GLUE.

По оценкам на базе Super GLUE, лучше языковые модели английского языка допускают 9 % ошибок. Для сравнения: человек в среднем допускает 10,2 % ошибок. Надо учитывать, что Super GLUE – это метрика простых вопросов.

В реальности языковые модели, например для независимой проверки экзаменационных тестов, должны не просто распознавать текст. Они должны иметь элементы логического мышления. В 2021 году самая эффективная модель правильно ответила на 69,3 % сложных вопросов.

Способность строить предположения на основе анализа текста или речи не достигла уровня человека. Например, женщина пришла домой, обнаружила распахнутое окно, поломанную мебель, раскрытые шкафы. Человек сразу предположит, что в доме побывали грабители. Лучшие системы AI предлагают гипотезу на естественном языке в 91,87 % случаев. Средний показатель для человека – 92,9 %.

Интеллектуальные системы машинного перевода подошли к моменту, когда для контроля результата не требуется человеческое присутствие. Стоимость решений постепенно снижается, расширяется применение алгоритмов в коммерческом и государственном секторе.

Динамика числа сервисов машинного перевода

Чему еще учатся языковые модели:

Распознавать эмоции. В 2021 году правильная оценка давалась 9 ситуациям из 10, в 2016 году – в 7 случаях.
Распознавать спикера. В 2017 году лучшие алгоритмы делали 7,8 % ошибок. В 2021 году показатель составляет менее 1 %.
Прогнозировать клики на рекламные блоки, размещенные рядом с текстом, например среди объявлений. В 2021 году точность прогноза выросла на 1,8 % по сравнению с 2016 годом.

Стоимость обучения AI снизилась в 223 раза за 4 года

Пять лет назад считалось, что стоимость обучения искусственного интеллекта в первую очередь определяется затратами на вычислительные мощности. Чем больше высокопроизводительных серверов, тем быстрее обучается система.

С 2018 года видно, что зависимость от серверов и дата-центров не настолько велика, как казалось. При этом время обучения AI сократилось на 94,4 %. Сегодня высокопроизводительные аппаратные системы могут достичь базового уровня производительности менее чем за минуту. Речь идет о простых задачах, например о классификации изображений.

Стоимость обучения систем классификации изображений до точности в 93 %

Стоимость роботов-манипуляторов, в которых используются AI-решения, за 6 лет снизилась в 4 раза. Резкое падение было в 2018 году, с того момента динамика стала гораздо спокойнее. Возможно, стоимость достигла плато.

Как меняется стоимость роботов-манипуляторов

Ускорение обучения при снижении стоимости программ и робототехники способствует широкому применению систем искусственного интеллекта в решении коммерческих задач.

Законодательное регулирование применения AI

Степень зарегулированности применения искусственного интеллекта постепенно увеличивается. В тройку лидеров 2021 года входят Испания, Великобритания и США, которые приняли по три законопроекта, связанных с применением AI. В России было принято два законопроекта.

Количество законопроектов в области AI, на примере 25 стран

Суммарное число законопроектов, принятых с 2016 по 2021 год в 14 странах- лидерах по законотворчеству в области AI, достигло 55. Лидируют США с 13 документами, Россия на втором месте с 6 документами.

Справедливый AI

Алгоритмы искусственного интеллекта проверяют на степень вреда по двум направлениям:

Несправедливое распределение возможностей и ресурсов.
Представительский вред, когда за счет использования стереотипов растет подчинение какой-либо социальной группы.

Алгоритмы считаются справедливыми, когда их прогнозы не ведут к дискриминации отдельных лиц или группы на основе атрибутов оценки, например по расе или полу.

Количество метрик и методики их определения формируются. В целом все сводится к оценке максимальной токсичности и вероятной токсичной моделей. Набор показателей 2017 года далек от набора оценок в 2021 году, поэтому сопоставление невозможно. Но можно сделать общий вывод о степени прогресса в области этики применения AI.

На примере языковых моделей в отчете делается вывод, что рост числа параметров в модели ведет к росту токсичности результатов. В качестве примера приводится модель Gopher с 280 млрд параметров. С другой стороны, более крупные модели способны обнаруживать токсичность своих выходных данных.

Как сегодня определяют правдивую и справедливую AI-систему

Избегает ложного утверждения или использования правдивых утверждений для введения в заблуждение.
Не отказывается отвечать на вопрос, сотрудничает в разговоре.
Открытая система в пределах своих знаний.
Соответствует человеческим ценностям.
Полезна, честна и безвредна.
Не противоречит собственным убеждениям.

При всем этом, как и человек, система может быть честной, но не правдивой, например утверждать, что вакцинация небезопасна.

Токсичность языковых моделей можно снизить с помощью специальных решений детоксикации. В таком случае страдает производительность AI-систем. Несмотря на это, стремление к снижению токсичности и повышению справедливости результатов у AI растет – вывод делается на основе статистики профильных конференций и публикаций.

Например, медленно увеличивается число регистраций на ежегодную конференцию FAccT по этике компьютерных систем. Исследователи в области AI стали на 71 % чаще выступать на конференциях по этике. Растет число публикаций, посвященных справедливости AI. Справедливость и предвзятость алгоритмов перешли из категории академических понятий в категорию практических исследований.

Рынок AI в России: денег мало, инициатив много

Объем инвестиций в разработки в области искусственного интеллекта, зарегистрированные в России, в 2021 году по разным оценкам составил от 100 до $300 млн.

При этом, по данным отчетов о венчурных инвестициях в мире, среди основателей каждого второго ИТ-проекта в мире есть разработчик из России. Россия фактически является интеллектуальным донором AI-рынка.

По данным исследования ВШЭ, в 2020 году AI применяли 5,4 % российских компаний. Из них 35,7 % компаний – это предприятия, на которых работает более 10 тыс. человек. Если в компании менее 250 человек, то процент использования менее 5 %. Это объясняется высокой стоимостью решений, отсутствием информации об их возможностях и небольшим набором готовых решений.

Доля российских компаний, которые применяют AI

В середине 2021 года ВШЭ приступила к разработке стандартов для AI. Планируется создать более 70 стандартов для всех сфер применения систем искусственного интеллекта. Пока сложно сказать, как это повлияет на рынок разработки.

В целом, несмотря на сравнительно небольшой объем инвестиций, российский госсектор и коммерция осознают потенциал применения систем. Поэтому уделяется большое внимание развитию законодательства. Другой вопрос – как найти баланс между технологическими ограничениями и поддержкой развития.