Stability AI — старт-ап и «мировой лидер в области генеративного искусственного интеллекта». По заявлениям разработчиков, главная цель компании заключается в том, чтобы открыть людям доступ к современным технологиям, а также стимулировать их на творческие подходы и инновации.
С момента запуска нейросети Stable Diffusion прошел уже почти год. Компания за это время росла, развивалась и совсем недавно выпустила на рынок новейшую итерацию своей генеративной модели — SDXL 1.0, и свой второй продукт — Stable Doodle.
В материале рассказываем про основные этапы развития Stability AI, вклад, который она внесла в развитие ИИ, основные продукты и, конечно же, про то, как пользоваться ее двумя главными нейросетями.
История компании Stability AI
Официальной информации о компании в интернете достаточно мало. В основном это журналистские расследования, интервью с бывшими сотрудниками и людьми, “близкими к руководству”. Вот что нам удалось выяснить в открытых источниках.
История компании Stability AI началась совсем недавно. Она была основана в Лондоне в самом конце 2020 года Эмадом Мостаком – британцем бангладешского происхождения. С тех пор он занимает там пост главного исполнительного директора.
Главная цель компании – создавать продукты использованием моделей ИИ с открытым исходным кодом для реализации человеческих возможностей. Причем речь идет не только о генерации изображений по текстовому запросу, но и о других областях: лингвистике, биологии и обработке звуковых данных.
Большую часть деятельности компании Мостак финансирует самостоятельно, но есть и фонды, которые готовы вкладываться в разработки в сфере искусственного интеллекта, например, Eros Investment.
Из 10 млн долларов стартового капитала 600 тысяч были потрачены на обучение моделей нейросети Stable Diffusion.После этого было объявлено о посевном раунде для привлечения 100 млн инвестиций. Деньги нужны были для того, чтобы повысить качество продукта, вывести его на рынок и увеличить стоимость компании до 1 млрд. И у нее это получилось. Stability AI – это коммерческая компания, что подразумевает работу ради прибыли, так что неудивительно.
В отличие от Midjourney и ChatGPT, Stability AI предоставляет доступ к своим продуктам и моделям бесплатно без каких-либо ограничений к создаваемому контенту. Это периодически вызывает критику со стороны осознанной общественности.
Кроме этого, за последние месяцы Мостак стал участником нескольких скандалов: то он соврал о своем образовании, то подписал “эксклюзивный контракт с Amazon”, который на самом деле обычный и на общих условиях, то сказал, что “генеративный ИИ – это огромная инвестиционная возможность на триллион долларов, но в то же время – это и самый большой пузырь”. У Forbes есть подробный материал на эту тему. Если интересно, можете ознакомиться по ссылке.
В остальном, продукты компании сейчас крайне популярны, и это не только Stable Diffusion.
Продукты компании Stability AI
Со всеми продуктами Stability AI можно ознакомиться на принадлежащей ей платформе Clipdrop. 3десь, помимо Stable Diffusion и Stable Doodle вы найдете большой набор инструментов на базе ИИ для обработки изображений за считанные секунды.
- Uncrop — позволяет «расширить» изображение до заданных границ через добавление фона, частей тела и других деталей, которых нет в оригинале;
- Reimagine XL — позволяет создать вариации одного и того же изображения, чтобы переосмыслить его;
- CleanUp — позволяет удалить объекты, дефекты, людей или текст с изображения;
- Remove Background — позволяет удалить фон с изображения с сохранением даже мельчайших деталей;
- Relight — позволяет поиграться с освещением на снимке без необходимости использовать сложное программное обеспечение;
- Image Upscaler — позволяет повысить четкость, разрешение и качество изображения, удаляет шумы;
- Replace Background — позволяет «телепортироваться» куда угодно через замену фона;
- Text Remover — позволяет удалить текст с любого изображения.
Найти применение всем этим инструментам очень просто: художникам для создания иллюстраций, рекламщикам при подготовке креативов, дизайнерам, в электронной торговле, обработке изображений, творческих процессах. Самое прекрасное здесь то, что не требуются никакие технические навыки. Вам нужно просто перетащить оригинальное изображение в указанную область на экране. Далее все будет сделано за вас.
А еще этими сервисами можно пользоваться условно-бесплатно. За неограниченный доступ просят всего 9 евро в месяц. При оплате годовой подписки цена упадет еще ниже — до 7 евро. Вполне неплохо, особенно по сравнению с некоторыми другими моделями оплаты.
Какие нейросети Stability Al можно скачать
Единственная нейросеть Stability AI, которую можно скачать на компьютер, это Stable Diffusion. Сделать это можно на GitHub – качаете папку, перемещаете ее на жесткий диск (в идеале SSD) в директорию :\stable-diffusion-ui. Щелкаете два раза на “Easy-Diffusion-Windows.exe” на Windows или распаковываете папку “easy-diffusion” и запускаете “./start.sh (или bash start.sh)” в терминале на Mac и все. После распаковки файлы займут порядка 25 гигабайт.
Скачать нейросеть можно и из неофициальных источников, которые уже проверены и хорошо себя зарекомендовали:
- А1111 – самая популярная оболочка для WIndows, которая дает свободу действий и доступ ко множеству настроек;
- Diffusion Bee – решение для компьютеров Mac; скачиваете файл и устанавливаете; места на диске практически не занимает – менее 300 мегабайт; настроек тоже много;
- NMKD Stable Diffusion GUI – еще одно решение для Windows; разработчики просят донатить, но это совсем не обязательно.
Это варианты для тех, кому позволяет железо, ведь оно должно быть достаточно хорошим: минимум 2 Гб видеопамяти, 8 Гб оперативной, 25 Гб обычной. Для Mac – это процессор серии M.
Всем, кто не хочет заморачиваться с установкой, рекомендуем пользоваться веб-версиями, которые не требуют ни навыков написания когда, ни установки специальных программ.
Как пользоваться нейросетью Stable Diffusion от Stability AI
Два самых простых способа пользоваться Stable Diffusion – на официальных площадках.
Первая из них называется Dream Studio. Попасть на нее можно с официального сайта Stability AI. Здесь вы можете генерировать изображения и тестировать новые модели ИИ, которые сейчас находятся в раннем доступе. Вскоре разработчики обещают добавить возможность обрабатывать несколько изображений сразу на одном холсте, а также добавлять и убирать элементы с картинок.
Для начала работы нужно зарегистрироваться. Можно через Google-аккаунт Интерфейс простой и состоит из двух вкладок с одинаковым функционалом: “Generate” и “Edit”.
- Стиль (Style). Здесь нужно выбрать стиль для изображения: фотография, цифровое искусство, комикс, улучшение изображения и так далее. Всего их здесь 16.
- Поле с промтом (Prompt). Есть кнопка “Shuffle” – можно сгенерировать случайный запрос.
- Поле с Антипромтом (Negative Prompt). Для исключения объектов с изображения.
- Загрузка своего изображения (Upload image).
- Настройки (Settings). Здесь можно задать количество генерируемых вариантов изображения и соотношение сторон.
- Dream. Запуск процесса.
А сейчас давайте перейдем к практике. Первый запрос пусть генерируется случайным образом. Вот что получилось:
Giant rubber duck floating in the ocean with a small island on its back, surrounded by tropical palm trees and crystal clear water, bright and sunny day, calm seas, vivid colors, cinematic lighting, high detail / Гигантская резиновая утка плавает в океане с маленьким островом на спине, окружена пальмами и кристально чистой водой, яркий и солнечный день, спокойное море, насыщенные цвета, кинематографическое освещение, высокодетальное.
Неплохо, но на спине нет острова, а это была главная задумка. То есть, нейросеть не смогла правильно интерпретировать свой же запрос.
Вторая официальная площадка, где можно протестировать Stable Diffusion – Clipdrop. Интерфейс здесь еще проще – состоит из одной строчки, скрытого меню с настройками и кнопки “Generate”. Регистрация не нужна.
Идеально, по-другому не сказать.
Как пользоваться нейросетью Stable Doodle от Stability AI
Stable Doodle – бесплатный генератор изображений, но с небольшим отличием от того, к чему мы привыкли. Помимо текстового описания, здесь еще нужно сделать набросок того, что вы хотите получить, от руки. Таким образом, создатель контента может влиять на расположение объектов и общую композицию.
Да, это весь интерфейс:
Опробовать нейросеть можно на уже знакомом нам Clipdrop на всех платформах – и стационарных, и мобильных.
Работает все просто: заходите на сайт и создаете скетч. Он не должен быть сверхдетализированным или идеально ровным. Достаточно нарисовать всего несколько линий. Дальше без вас разберутся, что вы имели в виду.
Затем заполняете промт и выбираете стиль, нажав на кнопку “No style”. Их здесь целых 14: фотография, кинематограф, фентези арт, пиксел арт, аниме и другие.
И финальный шаг – кнопка “Generate”. После этого всего через несколько секунд вам на выбор предложат три изображения – все в низком качестве. Выбираете одно, наиболее понравившееся, и алгоритмы доведут его до ума и разрешения 2k. После этого картинку можно скачать. К сожалению, с водяным знаком платформы, и убрать его не получится.
И вот вам пара примеров.
Промт: “cheshire cat steampunk”, cinematic.
И результат. Как и положено, голова кота – в центре, а детали, характерные именно для чеширского кота и для стиля стимпанк нейросеть добавила сама и, как нам кажется, вполне успешно.
Промт: “little bird crossing the road in big city”, neon punk.
Детали сохранены: птичка, дорога, город, неоновые огни и общий пейзаж.
Простор для творчества здесь просто огромный. Казалось бы, добавление такой простой, но очень важной детали, как расположение объектов на картинке, давно должно было прийти в голову создателям нейросетей. Тем не менее, получили ее мы только сейчас, но зато уже по достоинству оценили возможности, которые перед нами открываются.
Вклад компании Stability AI в развитие нейросетей
2022 год был годом запуска нейросетей. Тут засветились и DALL-E 2 от OpenAI, и Midjourney от одноименной компании, и Stabel Diffusion от Stability AI. Казалось бы, что они ничем не отличаются друг от друга: все генерируют изображения по текстовому запросу. Тем не менее, влияние детища Мостака на рынок и общество гораздо больше, чем может показаться на первый взгляд.
Во-первых, Stable Diffusion – продукт с открытым исходным кодом. Это сразу ставит его на голову выше конкурентов. Ведь теперь абсолютно каждый человек, обладающий нужными навыками, может скачать репозиторий с их хранилища, и начать создавать собственные решения и приложения на основе существующих моделей. Не когда-то потом, а прямо сейчас. Уже есть проекты на Google Collab и в Figma. Даже в Midjourney какое-то время была возможность объединения с Stable Diffusion. Результаты были настолько хороши, что ее пришлось отключить.
Во-вторых, Stable Diffusion генерирует очень качественные и фотореалистичные изображения, которые не уступают платным аналогам. Такая доступность качества делает ее поистине уникальной, потому что прикоснуться к будущему могут люди, от кого вы этого вообще не ждете и кто вообще не сталкивается с графическим дизайном, фотосъемкой и IT. Это ли не прекрасно, когда любой человек может пользоваться передовыми технологиями?
Нейросети стали доступными, как никогда ранее, как для профессионалов, которые не потянут такую разработку самостоятельно, так и для обывателей, которым это просто интересно. У Stable Doodle есть все шансы изменить то, как люди творят. Но только с ответственным и осознанным отношением к таким технологиям наш мир станет лучше.
Заключение
Продукты Stability AI — Stable Diffusion Stable Doodle — очень мощные инструменты на рынке, особенно учитывая их открытый исходный код и то, что ими можно пользоваться бесплатно в отличие от той же Midjourney. Есть очень высокая вероятность того, что в ближайшем будущем новые модели ИИ еще сильнее войдут в привычную жизнь, а нам будет нужно лишь адаптироваться под новую реальность. Главное, не злоупотреблять такими технологиями.
FAQ
Stable Diffusion, как и другие похожие продукты, использует скрытую диффузию для генерации изображений. Она учится видеть что-то знакомое среди шума, а затем делает то более четким, если находит соответствие словам в промте.
Системные требования к железу указаны на странице Stable Diffusion на GitHub. Операционная система Windows 10/11, Linux или MacOS. Видеокарта от NVIDIA – минимум с 2 гигабайтами видеопамяти, процессор M1 или M2 на компьютерах от Apple. Если у вас нет совместимого графического адаптера, то можно включить настройку “Использовать CPU” – да, работать будет очень медленно, но будет. И минимум 8 гигабайт оперативной памяти. И все. Не нужен ни WSL, ни докер, ни Conda.
Главное отличие Stable Diffusion от DALL-E в том, что у первой открытый исходный код, а также обучающие данные. Они доступны абсолютно всем пользователям без каких-либо ограничений.
Важных отличий несколько. Во-первых, Midjpurney доступна только платно, в то время как для доступа к функционалу и моделям Stable Diffusion оплата не требуется. Во-вторых, есть отличия в интерфейсе. Midjourney доступна только через канал в Discord, и ее использование не самое удобное – с ним нужно разбираться и привыкать. У Stable Diffusion есть несколько онлайн-платформ с удобным веб-интерфейсом и промты для исключения объектов с итогового изображения. А еще ее можно скачать.
Stable Doodle работает на основе моделей машинного обучения Stable Diffusion XL, которая наполняет контуры художественным смыслом, а за трансляцию этих контуров в итоговое изображение отвечает модуль T2I (text-to-image).
Если сказать, что везде, то это ничего не сказать. Изображения из нейросетей можно использовать в дизайне, рекламе, фотографии, арбитраже трафика, мультипликации, видеоиграх и во всех тех местах, где нужно что-то графическое.