Page ID: 94665
Is Industry:
Is Category:
Query IDs:
Новости

Искусственный интеллект научили создавать высокоточные изображения на базе данных активности мозга

Фото: unsplash

Ученые из Высшей школы передовых биологических наук Университета Осаки разработали новый метод визуальной реконструкции на основе активности человеческого мозга. Данное исследование является первым, в котором дается количественная интерпретация с биологической точки зрения.

Реконструкция визуальных объектов на основе активности человеческого мозга подразумевает под собой серьезную работу — от уникального понимания представления мира мозгом до интерпретации связей между компьютерным зрением и человеческим. Предыдущие работы в этой области успешно создавали изображение исключительно с использованием обучения и настройки генеративных моделей, что приводило к наличию ограничений. 

В исследовании «Реконструкция изображений высокого разрешения с помощью латентных диффузионных моделей на основе активности человеческого мозга» Ю Такаги и Синдзи Нисимото описали, как при помощи диффузионной модели и ее внутренних процессов получать высокоточные изображения. 

Для реконструкции изображения по активности мозга ученые использовали функциональную магнитно-резонансную томографию (ФМРТ). Простых линейных отображений от ФМРТ было достаточно для того, чтобы попробовать предсказать скрытое представление. Далее модель подвергалась обработке, в нее добавляли шумы посредством процесса диффузии. Финальной стадией для формирования входных данных была декодирование текстовых представлений из сигналов МРТ в верхней зрительной коре. Входные данные впоследствии использовались для создания окончательного изображения. 

Примечательно, что в данной работе большое внимание уделено именно внутренним процессам моделей диффузии (LDM) под названием Stable Diffusion. Эта модель снижает вычислительные затраты на DM, сохраняя при этом их высокую генеративную эффективность. Исследователи демонстрируют появление семантического содержания в процессе обратной диффузии, проводят послойную характеристику U-Net и дают количественную интерпретацию преобразований изображений с различным уровнем шума. Интерпретация учитывает характер компонентов с точки зрения нейронауки. 

Например, получается диаграмма, иллюстрирующая корреляцию между раздражителями и уровнями шума в мозгу. Результаты показывают, что, чем выше уровень стимулов, тем выше уровень шума и выше разрешение изображения. На другой диаграмме исследователи демонстрируют использование различных нейронных сетей в мозге и то, как они будут очищать изображение от шума для его реконструкции.

Выводы

Ученые предполагают, что выявленный ими новый метод визуальной реконструкции на основе активности человеческого мозга способен представлять изображение в его лучшем виде — с высоким разрешением и высокой семантической точностью. Новый метод в отличии от предыдущих не требует обучения и особой настройки моделей. 

Исследование японских ученых является первым, в котором дается количественная интерпретация с биологической точки зрения, и обеспечивает новую основу для понимания DM. Хотя, диффузорные модели быстро развиваются, их внутренние процессы по-прежнему остаются малоизученными. 

 5,453 total views,  1 views today