VentureBeat.Модель была разработана специалистами Apple и исследователями из Калифорнийского университета в Санта-Барбаре и представлена на международной конференции по машинному обучению (это одна из главных площадок для исследователей ИИ). Она использует мультимодальные модели больших языков (MLLM) и может генерировать изображение на основе текстовых подсказок.Пользователь сообщает программе, что ему нужно — к примеру, изменить размер снимка или добавить к нему детали.
Остальное алгоритмы делают самостоятельно, никаких специальных знаний от члеовека при этом не требуется.В статье, описывающей модель, создатели приводят пример с изображением пиццы пепперони. Пользватель просит ИИ «сделать это более здоровым», и программа «добавляет» в состав пиццы больше овощей.
. Читать на charter97.org