Microsoft научила нейросеть рисовать картины по текстовому описанию

Исследователи из Microsoft Research разработали нейросеть, способную создавать сложные изображения на основе текстового описания. В отличие от других text-to-image алгоритмов, умеющих визуально генерировать только базовые объекты, эта программа может понимать описание сразу нескольких составляющих рисунка.

Пример работы новой нейросети Microsoft

Сложность создания подобного алгоритма заключалась в том, что ранее нейросеть не умела воссоздавать в хорошем качестве все базовые объекты по их описаниям и анализировать то, как несколько предметов могут относиться друг к другу в рамках одной композиции. К примеру, чтобы создать изображение по описанию «Женщина в шлеме сидит на лошади», нейросеть должна была семантически «понять», как каждый из объектов относится друг к другу. Эти проблемы разработчикам Microsoft удалось решить, обучив нейросеть на основе открытого дата-сета COCO, содержащего разметку и данные сегментации для более 1,5 миллиона объектов.

В основе нового алгоритма лежит объектно-ориентированная генеративно-состязательная нейросеть ObjGAN. Она анализирует текст, выделяя из него слова-объекты, которые необходимо расположить на изображении. В отличие от обычной генеративно-состязательной сети, состоящей из одного генератора, который создаёт изображения, и одного дискриминатора, который оценивает качество сгенерированных картинок, ObjGAN содержит два различных дискриминатора. Один анализирует реалистичность каждого из воспроизведённых объектов и их соответствие имеющемуся описанию, а второй определяет, насколько вся композиция реалистична и соотносится с текстом.

Новая технология преобразования текста может применяться дизайнерами и художниками для быстрого создания эскизов.

Алгоритм ObjGAN представлен в открытом доступе на GitHub.

Источник: 4PDA

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *