Дисклеймер
Вся информация в этом гайде (и часть картинок) взята с разных постов реддита r/StableDiffusion. Рекомендую отслеживать его, если хотите быть в курсе появляющихся новых возможностей программы, найденных лайфхаках для генерации или если у вас появляется вопрос, с которым не помогает гугл.
В этом гайде я в основном описываю шаги, которых будет достаточно пользователю на Windows с видеокартами Nvidia 10XX с 4-6 гигабайтами видеопамяти и выше для запуска на своем компе. Если у вас мощная карта от красных — возможно, вам поможет вот этот гайд.
Все меняется крайне быстро и я не гарантирую, что все шаги будут актуальны через неделю-другую.
Установка на своём компьютере
1. Еще раз убедитесь, что у вас Nvidia 10XX с хотя бы 4гб видеопамяти. Быстро проверить можно, зайдя в диспетчер задач (Ctrl+Shift+Esc), вкладку «производительность», раздел «Графический процессор» и посмотрев на строку «Выделенная память графического процессора».
4. В распакованном архиве запускаете, соглашаетесь с возможными багами, и нажимаете на иконку установщика.
5. Последовательно нажимаете на «Download SD model», «Clone Repo», «Install Upscalers» и ждете, пока каждый из них скачается/установится. Прогресс можно наблюдать в левом нижнем углу приложения. Мне еще пришлось после этого делать Re-install, но вам может не пригодиться. Все поля должны быть отмечены галочками, если все прошло успешно.
6. Последний шаг — настраиваем место сохранения результатов и потребление видеопамяти. Заходим в настройки, отмечаем галочкой Low Memory Mode (если у вас меньше 8 гб видеопамяти), выбираем место сохранения результатов и то, надо ли создавать отдельную папку под каждый новый запрос к нейросетке. Я рекомендую создавать под-папки, так проще потом делиться результатами с остальными. Если вдруг ваш запрос к нейросети очень длинный и Windows не создаст папку с таким названием — картинки сохранятся в базовой указанной вами папке.
Генерируем изображения по тексту
- Сколько изображений нагенерировать. Больше изображений — дольше генерация, все просто.
- Steps — сколько шагов ИИ сделает в попытке выполнить ваш запрос. В теории, чем больше шагов, тем дольше обрабатывается запрос и качественнее результат, но на практике улучшение заметно не всегда. Для разных Sampler (о них ниже) оптимальное число шагов разное. По умолчанию рекомендуют 30-50. Если вас не устраивает какая-то часть изображения (например, глаза), лучше не увеличивать число шагов, а детализировать текстовый запрос к этой корявой части
- Creativeness (Guidance Scale) — насколько ИИ волен к интерпретации вашего запроса и должен ли он учитывать все его части. 2-6 — ИИ творит, что хочет, 7-11 — половину от вашего запроса возьмет, половину додумает, 12-15 — Постарается учесть большую часть вашего запроса, 16+ — Что написали, то и реализует. По умолчанию рекомендуется значение 8. Уверены в своем описании — 12.
- Seed — откуда ИИ будет стартовать свою отрисовку. Разные стартовые точки = разные итоговые результаты. Если вам не важна повторяемость результата — ставьте значение минус 1. Если вы пытаетесь улучшить свой текстовый запрос — лучше зафиксируйте какое-то конкретное стартовое число и не меняйте его.
- Resolution — исходный разрешение получаемого изображения. Больше разрешение = больше видеопамяти нужно для генерации изображения. Нюансы — По умолчанию Stable Diffusion натренирован на изображениях 512*512, их он отрисовывает лучше всего. 256*256 — получается вырвиглазное нечто. Сделаете больше 512 — скорее всего он будет дублировать части изображения несколько раз в разных местах. Если вам нужно просто изображение большего разрешения, но с +- тем же числом деталей — лучше воспользоваться апскейлером (о них позднее). Не обязательно делать квадратные изображения,. Ходят слухи, что будет выпущена модель, обученная на 1024*1024 изображениях, но пока работаем с чем есть.
- Sampler. Я не знаю, как это работает «под капотом» (желающие объяснить — Welcome!), но с разными вариантами изображения генерируется немного по-разному. Наглядно это представлено на этом скрине:
Взято здесь.Первая и последняя строчка съехали относительно друг от друга на 1 позицию
k_lms: The Old Reliable.Вариант по-умолчанию. Каждый шаг отрабатывается сравнительно быстро, но для хорошего результата нужно 50-80 шагов.
k_ddim: The Speed Demon. Хорош уже на 8 шагах, что позволяет быстро перебирать множество вариантов.
k_euler_a: The Chameleon. Быстр, что-то интересное выдает уже на 8-16 шагах, но с каждым шагом изображение может кардинально поменяться.
k_dpm_2_a: The Starving Artist. Медленный на каждом шаге, нужно больше шагов для генерации приличного качества (50-80), но результат дает чуть более детализированный, по сравнению с тем же k_euler_a.
Для начала я обычно генерю с k_euler_a и 20 шагами. Если корявые глаза-руки, а в остальном норм — ставлю k_dpm_2_a и 75 шагов.
Особенности текстовых запросов
Если вы уже знакомы с Midjourney и тем, как хорошо генерировать запросы для него — переносите свои навыки на Stable Diffusion, только помните, что здесь нет команд вроде —wallpaper, —beta и нет опции разделять сущности через:: (можно через веса, об этом позже)
Если нет — я бы рекомендовал начать с Midjourney, по нему есть прекрасный гайд на ДТФ. Так как там вы в реальном времени смотрите, как другие люди создают и уточняют свои запросы и что при этом выдает нейросеть в каждой модификации.
Как пользоваться Midjourney или как не потратить впустую 25 круток (полный гайд)
Все вокруг говорят о волшебном ИИ, который способен создать шедевры из текстовых запросов пользователей интернета. Это первый пост в недавно созданном сообществе Midjourney, который является полной инструкцией к применению.
Если же сил возиться с еще одной нейросетью нет — Уже существуют сайты, на которых вы можете посмотреть, что выдаст SD при том или ином запросе (/). Посмотрите на то, как люди формируют запросы по сходной тематике, вдохновитесь и используйте их как основу для своих собственных изображений. Удаляйте части запроса, добавляйте новые и смотрите к какому результату это приводит. Посмотрите на самые популярные работы в сообществе и как к ним был составлен текст.
Можете попробовать использовать генераторы описаний, в которых уже есть какие-то известные элементы описаний, на которые реагирует ИИ. Например, вот этот
Сейчас считается, что чем конкретнее и многословнее будет ваш запрос — тем лучше. Описывайте одно и то же разными словами. Хотите высокой детализации? Пишите «Masterpice, high quality, ultra-detailed, 4k» и что-нибудь еще. Или указывайте автора, рисующего в гипер-реалистичной манере через запрос «by %Фамилия-Имя автора%, из тех,что есть в датасете LAION. Или даже несколько похожих авторов сразу.Или непохожих, для большей художественности. Что мешает смешать Моне и Ван Гога? Синьяка и Хокусая?
Важен также и порядок слов в запросе — чем ближе к началу, тем, по-умолчанию, больший вес этому слову придаст нейросеть. Так что ставьте на первые места те элементы, которые точно должны быть в изображении.
Хорошо сразу вряд-ли получится, не волнуйтесь. Для того, что бы получилось что-то, что уже хочется показать, обычно надо перебрать много разных модификаций одного и того же запроса, да еще и с разными настройками. Именно поэтому и не рекомендую начинать с k_lms и 50 шагами — когда генерируешь 100 разных запросов, имеет значение, сколько отрабатывает каждый из них.
Есть возможность вручную указывать веса для каждого элемента (насколько нейросеть должна учесть каждый). После целой фразы ставите «:xx», где xx — вес этого элемента при генерации.В сумме веса всех элементов должны давать 100. Пример запроса для генерации наполовину мини-дракона, наполовину — хорька под картинкой
a small cute blue dragon perched on a footstool, photography, Canon EOS, color, cinematic postprocessing:55 a cute brown ferret perched on a footstool, photography, Canon EOS, color, cinematic postprocessing:45. От Smashcolor
А что дальше?
Начните уже что-то генерировать, получайте от этого удовольствие и дарите его другим. Следите за тем, какие новые возможности и удачные примеры появляются в сообществе на гитхабе/реддите и других площадках. Попробуйте освоить генерацию по образцу, когда вы используете набор изображений в качестве маленькой обучающей выборки, и потом генерируете изображения в этом новом «стиле».
Попробуйте использовать различные улучшатели изображений. В описываемом мной варианте есть два разных, один — для повышения разрешения, второй — для повышения качества лиц (RealESRGAN и GFPGAN)
Удачи! Делитесь не только интересными результатами, но и удачными комбинациями запросов и настроек!
Часто задаваемые вопросы о работе со Stable Diffusion
Вопрос: Нужен ли мощный компьютер для запуска Stable Diffusion?
Ответ: Для локальной установки желательно иметь компьютер с дискретной видеокартой NVIDIA (от 4 ГБ VRAM) и достаточным объемом оперативной памяти (от 8 ГБ). Существуют также облегченные версии и онлайн-сервисы.
Вопрос: Это бесплатно?
Ответ: Да, основная модель Stable Diffusion с открытым исходным кодом бесплатна для локального использования. Платить может потребоваться за более мощное «железо» или использование коммерческих онлайн-платформ.
Вопрос: Чем Stable Diffusion отличается от Midjourney или DALL-E?
Ответ: Главное отличие — возможность бесплатной локальной установки и полного контроля над процессом. Midjourney работает через Discord, DALL-E — через веб-интерфейс OpenAI, а Stable Diffusion дает больше свободы для кастомизации.
Вопрос: Что такое чекпоинт (checkpoint) и зачем он нужен?
Ответ: Чекпоинт — это файл основной модели, который определяет стиль и возможности генерации. Разные чекпоинты обучены на разных наборах данных и могут создавать изображения в уникальных стилях (аниме, фотореализм, художественные).
Вопрос: Что такое LoRA и как их использовать?
Ответ: LoRA (Low-Rank Adaptation) — это небольшой дополнительный файл модели, который модифицирует основной чекпоинт, чтобы добавить конкретный стиль, объект или персонажа, не перезагружая всю большую модель.
Вопрос: Почему нейросеть генерирует искаженные лица или руки?
Ответ: Это распространенная проблема многих генеративных моделей из-за сложности структуры кистей и лиц. Решения: использование специальных слов в промпте (например, «perfect hands»), повышение детализации (Hires. fix), постобработка или использование дополнительных моделей-исправителей.
Вопрос: Что такое негативный промпт (negative prompt)?
Ответ: Это текстовое описание того, чего НЕ должно быть на изображении (например, «blurry, deformed hands, extra fingers, bad anatomy»). Это мощный инструмент для улучшения качества результата.
Вопрос: Как добиться единого стиля в серии изображений?
Ответ: Нужно использовать одинаковые параметры: чекпоинт, сид (seed), стиль промпта и настройки сэмплера. Фиксация сида позволяет воспроизводить похожие результаты.
Вопрос: Что такое сид (seed) и зачем его меняют?
Ответ: Seed — это начальное число для генератора случайных чисел. Один и тот же seed с одинаковым промптом даст идентичное изображение. Смена seed позволяет получить вариации на тему промпта.
Вопрос: Можно ли генерировать изображения в определенном разрешении?
Ответ: Да, но важно соблюдать пропорции, на которых обучалась модель (часто 512×512 или 768×768). Сильное отклонение может привести к артефактам. Лучше сгенерировать в базовом разрешении, а потом увеличить через встроенный Hires. fix или отдельный апскейлер.
Краткий чек-лист по началу работы со Stable Diffusion
- Проверьте, соответствует ли ваш компьютер минимальным требованиям (видеокарта NVIDIA с 4+ ГБ VRAM).
- Выберите удобный способ установки: автоматический установщик (например, Automatic1111 WebUI) или онлайн-сервис.
- Скачайте и установите выбранный интерфейс (WebUI) следуя официальной инструкции.
- Загрузите базовый чекпоинт (модель) Stable Diffusion и поместите его в соответствующую папку.
- Запустите WebUI и дождитесь полной загрузки в браузере.
- В поле «Prompt» напишите первый текстовый запрос на английском языке для генерации.
- Опишите в «Negative Prompt» то, что хотите исключить из изображения.
- Выберите подходящий чекпоинт в интерфейсе, если у вас загружено несколько моделей.
- Установите базовые параметры: размер изображения (например, 512×512), количество шагов (20-30), CFG Scale (7-9).
- Нажмите кнопку «Generate» и дождитесь результата.
- Если результат понравился, сохраните сид (seed), чтобы можно было его повторить или варьировать.
- Экспериментируйте с формулировками промпта, добавляя детали, стили и качественные прилагательные.
- Изучите функцию Hires. fix для увеличения разрешения без потери качества.
- Для новых стилей найдите и загрузите дополнительные чекпоинты или модели LoRA.
- Регулярно делайте бэкапы своих лучших работ и настроек.




























