Как работать с нейросетями, которые делают изображения вроде Midjourney, Stable diffusion, DALL-E.
2023-04-30 06:22:15
Если вы хотите получить от таких нейросетей изображение вы должны отправить им текстовое описание изображения, которое вы хотите получить. Как правило, запрос надо писать по-английски, поэтому надо знать английские названия того что вы хотите видеть на изображении, также ангийские названия стилей и деталей изображения.
Из вашего описания нейросеть вычленяет объекты и пытается составить изображение из тех признаков, которые она смогла получить. С нейросетью лучше общаться предельно однозначно, например hot dog нейросеть может понять как "горячую собаку" и нарисовать вам раскаленного пса.
Сама нейросеть содержит в себе признаки разных объектов, которые она пытается воспроизвести и смешать между собой. То есть фонарь - это один набор признаков, гора другой, Бред Питт третий. Эти признаки нейросеть получила из фотографий в процессе обучения, поэтому чем больше изображений нужного вам объекта в сети, тем точнее сеть сможет воспроизвести признаки.
Естественно нейросети обучались не по всем фотографиям в мире, а по набору, хоть и большому, поэтому нейросеть лучше всего ориентируется в популярных на западе образах, и плохо ориентируется во всем остальном. То есть при генерации изображения Гагарина мне бывало выдавало картинку Гагарина на фоне американского флага.
Как же правильно составить запрос к нейросети? Для начала представьте картину у себя в голове, потом опишите главные объекты на картине, опишите какое освещение, время суток, какое окружение, какая детализация, какие оптические эффекты вы хотите видеть.
Если вы знаете в каком художественном стиле вы хотите картину, то тоже это напишите в запросе, имя художника тоже подойдет.
После этого отправьте запрос и посмотрите что получилось. Оцените что вам нравится и не нравится. Если вы хотите убрать какую-то деталь, то как правило сети дают возможность исключения объектов при генерации.
Таким образом хоть и не с первого раза, но можно получить то, что вы хотите. От современных нейросетей можно получить изображения от мультяшных, но почти фотореалистичных изображений, все дело в том, как вы формируете им запрос.
С чем будут проблемы сейчас:
- руки, нейросети плохо умеют воспроизводить руки, части рисуют их с лишними пальцами и искажениями.
- текст. Можно нормально нарисовать только отдельные буквы или популярные слова, которые есть на большом количестве изображений, например vogue и тд
- лица и глаза, с ними тоже бывают проблемы.