У какой страны больше всего AI-патентов
В 30 раз увеличилось число патентов на AI-технологии за последние шесть лет. Среднегодовой рост составил 76,9 %. Китай генерирует более половины заявок на патенты, США – 17 %, Евросоюз суммарно с Великобританией – около 4 %. При этом по числу выданных патентов лидируют США – примерно 40 %. У Китая только 5,9 %.
Это значит, что патентные службы Штатов работают быстрее, чем китайские. В 2021 году из 87,3 тыс. заявок на патент в Китае было одобрено только 1,4 тыс. заявок, или 1,6 %. В США зарегистрирована почти половина заявок, в Евросоюзе и Великобритании – треть.
Большая часть разработок относится к технологиям компьютерного зрения, языковым моделям, робототехнике.
Компьютерное зрение приближается к человеческому
Компьютерное зрение и связанные технологии сделали скачок. В 2018 году алгоритмы распознавания изображений, обученные на базе изображений ImageNet, догнали по точности определения объектов уровень человека – 94,9 %. В 2021 году процент правильного распознавания, например у системы Florence, которая принадлежит Microsoft, достиг 99 %.
Генерация изображений, deep fake, вплотную приблизилось к реальности. Технологии активно используются в медиа, индустрии моды и развлечений. Вирусные фейки в соцсетях – яркий пример применения deep fake. Сегодня не сложно сгенерировать изображение лица, в котором человек не распознает подделку. Но AI поможет и здесь. В 2020 году системы искусственного интеллекта могли идентифицировать 69,9 % подделок, в 2021 – уже 97,7 %. Следующий рубеж – распознавание подделок в видео.
Язык человеческого тела машины учатся распознавать по расположению суставов. У человека фиксируется 14 точек. Примеры практического применения технологий – наблюдение за толпой, обеспечение безопасности, создание виртуальных движущихся фигур в киноиндустрии. Лучшие алгоритмы, которые работают с плоскими изображениями, близки к максимальному показателю. В 2021 году они правильно определили 99,5 % контрольных точек. Задача следующего уровня – распознавание позы на трехмерном изображении.
Сегментирование изображений с помощью AI продолжает совершенствоваться. Технологии необходимы, например, для беспилотных автомобилей, которые должны различать людей, животных, дорожные знаки. Сегментирование изображений очень важно в медицине – опухоли, полипы может распознавать AI, и тогда врач быстрее приступит к лечению. С 2015 года качество сегментирования увеличилось на 14,6 процентных пункта до 86,2 %.
Системы распознавания лиц работают на нашу безопасность уже несколько лет. Но если в 2017 году в половине случаев AI распознавал лица с ошибкой, то в 2021 году решения демонстрируют не более 3 % ошибок. Самые эффективные алгоритмы ошибаются только раз в 1000 случаев. Когда был введен масочный режим, эффективность систем ухудшилась в среднем на 10 %. Это некритичный показатель, который будет уменьшатся, считают исследователи.
Визуальное мышление – это анализ изображений, когда алгоритм сам определяет, что он видит. Фактически речь идет о приближении к человеческому мышлению. В 2015 году наиболее эффективные системы смогли правильно ответить только на половину вопросов, в 2021 году – на 79,8 % вопросов. Для сравнения: уровень усредненного человеческого восприятия – 80,8 %.
Языковые модели наращивают сложность и предвзятость
Понимание прочитанного этими алгоритмами оценивают по специальным тестовым дорожкам. До 2019 года технология оценки называлась GLUE, с 2019 года появилась метрика Super GLUE. Super GLUE – это набор из вопросов и ответов. Ответ алгоритма сравнивается с ответом Super GLUE. Для каждого языка существует свой Super GLUE.
По оценкам на базе Super GLUE, лучше языковые модели английского языка допускают 9 % ошибок. Для сравнения: человек в среднем допускает 10,2 % ошибок. Надо учитывать, что Super GLUE – это метрика простых вопросов.
В реальности языковые модели, например для независимой проверки экзаменационных тестов, должны не просто распознавать текст. Они должны иметь элементы логического мышления. В 2021 году самая эффективная модель правильно ответила на 69,3 % сложных вопросов.
Способность строить предположения на основе анализа текста или речи не достигла уровня человека. Например, женщина пришла домой, обнаружила распахнутое окно, поломанную мебель, раскрытые шкафы. Человек сразу предположит, что в доме побывали грабители. Лучшие системы AI предлагают гипотезу на естественном языке в 91,87 % случаев. Средний показатель для человека – 92,9 %.
Интеллектуальные системы машинного перевода подошли к моменту, когда для контроля результата не требуется человеческое присутствие. Стоимость решений постепенно снижается, расширяется применение алгоритмов в коммерческом и государственном секторе.
Динамика числа сервисов машинного перевода