Page ID: 92415
Is Industry:
Is Category:
Query IDs:
Аналитика

Генерация текстов, видео, изображений – нейросети осваивают новые форматы

Фото: Shutterstock

Развитие прогресса приближает те времена, когда искусственный интеллект сможет писать картины, генерировать сценарии для голливудских фильмов. Пока что все эти действия ИИ проводит только по указанию человека. И вряд ли искусственный разум сможет вытеснить человека из сферы творчества в ближайшее время.

Полет технологической фантазии

ИИ пока далек от человеческого интеллекта, однако попытки приблизить технологии к творческим возможностям людей не прекращаются. Для этого развиваются технологии генеративного ИИ (Generative Artificial Intelligence). Исследователи не теряют надежды обучить ИИ творческим способностям, ведь в работе писателя, художника или аниматора рутины хватает.

Под генеративным ИИ, согласно Gartner, понимается метод машинного обучения, при котором нейросеть изучает массив данных (фотографии, видео или текст) и на основе анализа создает собственный контент. Аналитики Gartner называют генеративный ИИ в числе стратегических технологических трендов 2022 года. К 2025 году Gartner ожидает, что на генеративный ИИ будет приходиться 10% всех производимых данных, тогда как сегодня его доля не превышает 1%.

От ввода СМС до генерации текста

Пожалуй, впервые масштабная генерация текста стала доступна в 90-х годах. Речь идет о подсказках при наборе СМС на клавиатуре телефона. Однако применение искусственного интеллекта в процессе генерации текста началась сравнительно недавно.

В 2018 году американская компания OpenAI создала первый алгоритм обработки естественного языка GPT (Generative Pre-trained Transformer). Алгоритм работает по принципу автодополнения: вы вводите начало текста, а программа генерирует наиболее вероятное его продолжение.

По словам профессора Santa Fe Institute, главы AI-подразделения Google Маргарет Митчелл, развитие генеративного ИИ стало возможным благодаря новым технологиям. «Особенно в этом процессе помогает использование суперкомпьютеров и огромных объемов данных. С помощью Интернета ИИ имеет доступ к огромному количеству созданных человеком текста и изображений», – сказала она.

В настоящее время доступно третье поколение GPT. В отличие от GPT-2 количество используемых параметров увеличилось более чем в 100 раз: с 1,5 до 175 млрд. Обучение модели происходило на суперкомпьютере Microsoft Azure AI. По состоянию на сентябрь 2020 года GPT-3 была самой крупной и продвинутой языковой моделью в мире. Правда, ориентирована она на решение задач на английском языке.

Как искусственный интеллект учит русский язык

Однако русский язык более сложен с точки зрения структуры. Первое качественное и масштабное решение для генерации текста на русском языке представил «Сбер» на AI Journey – 2020. Речь идет о русскоязычной нейросети ruGPT-3. ruGPT-3 (Generative Pre-trained Transformer) может создавать очень сложные, осмысленные тексты по одному запросу на «человеческом» языке. Среди возможностей RuGPT-3 – создание текстов любой направленности: от новостей до пародий, от технической документации до романов. RuGPT-3 умеет исправлять грамматические ошибки, поддерживать диалог и писать программный код.

В 2020 году на момент
премьеры количество ее параметров достигало 760 млрд. В январе 2022 года была
представлена обновленная версия решения с 1,3 млрд параметрами.

«Этот количественный рост означает качественное улучшение «интеллекта» системы, ее способности решать новые задачи на уровне, сопоставимом с человеческим, или выше его. Но вычислительные мощности нашего суперкомпьютера «Кристофари» позволяют нам ставить еще более амбициозные цели, так что 1,3 млрд параметров – это только начало».

Александр Ведяхин, первый заместитель председателя правления Сбербанка

В 2021 году компания «Яндекс» представила в России сервис «Балабоба», в основе которого – нейросеть семейства YaLM. «Балабоба» умеет генерировать тексты на любую тему и в разных форматах.

Как рассказали CDO2DAY в «Яндексе», совсем недавно в открытом доступе опубликована самая большая (по крайней мере, на тот момент) двуязычная языковая модель YaLM 100B. Чуть позже ее облегченную версию применили для двуязычной версии «Балабобы».

«Многие новые продукты в мире создаются с различным использованием нейросетей, эта область активно развивается. Их разработка — довольно дорогое в плане необходимых ресурсов удовольствие, поэтому практически всегда их создают и с практической пользой, для использования непосредственно в продукте. Практических применений таких нейросетей уже сейчас масса. С их помощью можно автоматизировать работу человека, а некоторые задачи даже делать лучше. В целом, речь идет обо всех задачах, входящих в пул обработки естественного языка. Примеры задач: генерация рекламных текстов (баннеров, SMM, e-mail рассылок и пушей), голосовые ассистенты и чат-боты, SEO-оптимизация на различных площадках, помощь в сфере продаж и многое другое. В Яндексе мы развиваем и активно применяем в продукте YaLM — семейство языковых моделей. YaLM используется, например, в Алисе (с помощью генеративных нейросетей Алиса лучше поддерживает беседу), генерируют карточки быстрых ответов в Поиске и помогают тематической сортировке в Кью. Совсем недавно мы выложили в открытый доступ самую большую (по крайней мере, на тот момент) двуязычную языковую модель YaLM 100B, а чуть позже — применили ее облегченную версию для двуязычной версии Балабобы. Мы постоянно работаем над обучением наших моделей».

Алексей Петров, руководитель проекта YaLM («Яндекс»)

Картина искусственным интеллектом

Текст, благодаря развитию ИИ, стал базой для создания другого медиаконтента. По заданным словосочетаниям создаются картины. И глобальные лидеры в сфере генерации изображений – нейросети Midjourney и DALL-E. Midjourney создавалась в независимой лаборатории. Открытое бета-тестирование нейросети началось в июле 2022 года. Уже сейчас Midjourney, помимо отличных результатов по генерации изображений, активно продвигается в качестве инструмента для программной разработки и экспериментов.

Нейронная сеть DALL-E создана благодаря инвестициям Microsoft, превышающими $1 млрд. Разработка длилась два года. Первая версия нейросети была доступна в январе 2021 года. Уже в апреле 2022 года состоялся анонс DALL-E-2. В конце сентября разработчики открыли доступ к нейросети без приглашений, но не во всех странах. Для генерации изображений пользователь может зарегистрироваться по номеру мобильного телефона и затем использовать ИИ для создания изображений.

Нейросеть обучается благодаря доступу в Интернет и используется для генерации картин дизайнерами, издателями и разработчиками ПО. Изображения, созданные второй версией DALL-E, даже были на обложке Cosmopolitan.

В России также создают аналогичные решения. Например, летом 2022 года «Cбер» представил модель генерации изображений Kandinsky. Это улучшенная версия мультимодальной нейросети ruDALL-E. Нейросети для создания изображения нужен текст на русском языке. Создание картинки происходит в три этапа. Сначала Kandinsky генерирует подходящие изображения, затем модель ruCLIP Large выбирает самые удачные, а после еще одна модель – Real-ESRGAN – увеличивает разрешение результата.

«Это самая большая на данный момент модель генерации изображений по текстовому описанию на русском языке, продолжение нейросетевого вычислительного проекта прошлого года ruDALL-E. Команды Sber AI и SberDevices смогли существенно улучшить качество работы базовой модели, дообучив ее на 179 млн изображений, снабженных текстовыми описаниями».

Александр Ведяхин, первый заместитель председателя правления Сбербанка

ИИ режиссирует видео

На основе текста нейросети научились генерировать и видео. Это сравнительно молодое направление. Например, в Китае в 2022 году была представлена нейросеть CogVideo. Для создания видео нужны лишь текстовые подсказки. Принцип ее работы схож с тем, что применяется в DALL-E-2. Нейросеть создает картинки, только с динамикой развития, достигая 32 кадров в секунду. Пока ИИ работает по сравнительно простым запросам: «лев, пьющий воду», «женщина верхом на лошади в море», «мужчина ест пиццу» и т. д.

Похожий проект по генерации видео развивает компания NVIDIA. Здесь, помимо текстового синопсиса, нужны контуры объектов. В результате нейросеть NVIDIA создает ультрареалистичное изображение, которое трудно отличить от съемок реального мира камерой.

Сделать видео можно и просто по картинке. Так, в августе 2022 года Google представил нейросеть Transframer для генерации коротких видео по единственному изображению. ИИ изучает картинку, определяет ключевые сегменты, на основе которых будут создаваться дополнительные визуальные формы.

В конце сентября команда инженеров по машинному обучению

Meta* представила систему Make-A-Video. Решение создает короткие видео по текстовому описанию. Кроме того, пользователи могут генерировать видео из статичных картинок. Make-A-Video дополняет другой инструмент Meta – генератор статичных изображений Make-A-Scene.

Видео создается в узнаваемом стиле, характерном для искусственного интеллекта – с размытыми очертаниями в стиле живописи. 

Нейросети без признаков самостоятельного мышления

Будущее генерации текста во многом зависит от инвестиций со стороны крупных компаний, считают ученые. Все существующие решения – это примеры использования генерации текстов в качестве дополнительного инструмента к навыкам человека. ИИ может помочь авторам контента в исследовании ключевых слов или, например, в выявлении тенденций, улучшении навыков письма.

Современные решения для генерации изображений получили качественный рывок буквально в этом году, отмечает Tech Lead of Flutter Development в Holland&Barrett Михаил Альфа. Он считает, что решения могут забрать часть рынка у дизайнеров самого низкого ценового диапазона. «Это крайне маленькая часть рынка, и глобально развитие ИИ в настоящее время существенного влияния не имеет», – отметил он.

Главный художник madhansart.сom Мадхан Кумар считает, что в далекой перспективе ИИ может серьезно повлиять на область изобразительного искусства. Он полагает, что ИИ может ускорить процесс написания картин. Это приведет к созданию еще большего количества предметов искусства. Мадхан Кумар спрогнозировал и появление автономных художников, которые полностью полагаются на ИИ в своем творчестве.

Но генерация текстов и картин с помощью ИИ пока что не стала прибыльным мероприятием. Монетизировать удается только создание видео. Во многом это заслуга голливудских студий и распространителей видеоконтента. Для фильмов нейросети генерируют фантастические сцены и быстрее человека проводят лицевую генерацию.

Однако ИИ вообще никогда не может творить самостоятельно. Его все время придется направлять, корректировать, дорабатывать руками. Значит, по-настоящему искусственный интеллект эффективным будет лишь в решении условных «рутинно-творческих» задач. Ведь нейросети не обладают свободой волей и многими другими признаками естественного мышления.⁠

Генеративный ИИ естественным образом трансформируется в сервисы, помогающие создавать языково-визуальные образы по весьма общим формулировкам целей.

«Это позволит существенно сократить предвзятости в результатах по сравнению с созданным людьми с их недостатками и ограничениями по производительности и эрудированности. Но стать самостоятельным генеративный ИИ не сможет из-за прямой зависимости работы ИИ от управления со стороны человека».

Владимир Крылов, ученый, профессор математики, кандидат технических наук и научный консультант Artezio

Человека из творческого процесса искусственному интеллекту вытеснить не удастся, заключают эксперты. Ведь только человек может мыслить творчески и разрабатывать идеи, которые ИИ реализовать с нуля не под силу.

* Деятельность Meta Platform (Facebook, Instagram) в России запрещена.