Nerual.Dreming

Делаю всякое с нейросетями. • Основной телеграм: https://t.me/nerual_dreming • YouTube канал: https://www.youtube.com/@nerual_dreming • Мой сайт: https://neuro-cartel.com/ • Бусти, записи стримов и эсклюзив: https://boosty.to/neuro_art • Онлайн нейросеть для создания изображений: https://artgeneration.me/ • Все мои телеграм каналы в одной папке: https://t.me/addlist/LQ-fUTyhVjEzYjIy

Пикабушник 3 года 3 месяца 1 неделю 1 день

Дата рождения: 11 июня

Гость оставил первый донат

поставил 799 плюсов и 21 минус

отредактировал 0 постов

проголосовал за 0 редактирований

32К рейтинг 1108 подписчиков 13 подписок 474 поста 246 в горячем

Награды:

Серии постов

Synthwave Neuro Arts

8 постов

Neuro Animation

2 поста

Закреплено

Nerual.Dreming

Аниме

Создайте свои собственные аниме арты в браузере с помощью нейросети⁠⁠

2 года назад

Друзья, всем привет, сегодня хочу рассказать, как создавать симпатичные аниме арты прямо в браузере, используя онлайн сервис работающий на нейросети Stable Diffusion.

Теперь вам не нужно иметь мощную видеокарту, достаточно написать запрос, можно даже на русском, и в течении минуты получите изображение. Но как создавать изображения именно в Аниме стиле? Обо всем по порядку.

Сначала регистрируемся на ArtGeneration.me - ссылка реферальная, зарегистрировавшись по ней вы получите 7 дней PRO, вместо 3 и 200 дополнительных генераций, вместо 100 на баланс, так что решайте сами 😁. На сайте вам ежедневно будет начисляться 50 генераций, а если оформите подписку PRO, то 300, жду шутку про тракториста в комментарии.

С регистрацией никаких проблем не возникнет, можно авторизоваться с помощью Яндекса или Гугла, и сразу попадаем в галерею изображений.

Картинки на главной выбираются автоматически из самых популярных, там может быть и ваша

В галерее можно увидеть что сейчас создают пользователи и сразу сделать свою версию. По клику на любую картинку вы сможете увидеть по какому запросу она была создана.

То что получится на изображении описывается с помощью запроса и негативного запроса, так нейросеть понимает, что рисовать, а что не рисовать. Запросы можно писать на русском, они будут автоматически переводится. Но мы будем писать на английском, потому что примеры, которые мы будем находить на сайте где размещают модели тоже будут на английском.

Тут я поменял в запросе только цвет волос с красных на голубые

Самый просто способ сделать красиво, это найти что-то, что вам нравится нажать на кнопку Создать свою версию, так вы откроете изображение с теми же настройками с которыми оно было создано. Останется поменять несколько слов в запросе и получить то что хочется именно вам. Изучим основные настройки.

Настройки

По клику на иконку рядом с названием модели откроется страница со всеми созданными на этой модели картинками

Настройки генерации скрыты в правом баре, если у вас маленький экран, то он может быть скрыт по умолчанию, нажмите на стрелочку, чтобы развернуть.

Самое важное это модель, от модели зависит буквально все, ниже я расскажу какие модели лучше всего подходят для Аниме стилистики.

Разрешение, на моделях 1.5 (те, где в названии нет XL), важно не выходить за разрешение 512х768 или 768х512, но есть и хитрость, можно пропорционально увеличить разрешение до 960х640 или обратно, так качество изображений будет выше. На XL моделях можно смело делать разрешение больше.

Чтобы открыть описание стиля нажмите на иконку i

Стили это маленькие предустановленные кусочки запросов, они добавляются к запросу который пишите вы, стили очень удобно использовать с простым запросом в 1 - 2 предложения, если копируем откуда-то промпт, то стиль использовать не стоит.

В Избегать пишется негативный запрос, то, чего не должно быть на изображении, лучше всего его взять из готовых примеров, или на сайте где размещают модели. Остальные настройки можно в принципе не менять, по умолчанию они работают хорошо.

Промпт даже не менял, просто загрузил изображение Уэнсдей

Свое изображение позволяет загрузить любое фото или картинку из интернета и получить генерацию которая будет очень похожа на то, что вы загрузите, степень изменения загруженной фотки можно регулировать ползунком.

Над картинкой расположены кнопочки, первая отправляет генерацию в Свое изображение

Сюда же можно отправить вашу генерацию, например, чтобы сделать что-то похожее, но с другим запросом. А если не нравится только одна часть, её можно закрасить маской и тогда закрашенная часть будет пере генерирована. Так например можно улучшить лицо.

На самом деле большинство настроек можно не трогать они по умолчанию работают хорошо

Если не хотите чтобы ваши изображения попадали в общую галерею, можно включить приватный режим.

Проработка отвечает за то, сколько раз нейросеть попробует очистить картинку от шума, оптимально 30-40.

Соответствие запросу оставляете в районе 5-7, эта настройка отвечает за следование запросу, но если превысить, то получите просто некрасивое изображение.

Все генерации создаются путем очистки изображения от шума, он похож на помехи в телике, номер конкретного шума позволяет создать еще раз такую же или очень похожую картинку по тому же запросу. Обычно используется случайный шум - зеленый кубик.

Сэмплер это математический алгоритм для визуализации, мои любимые DPM++ 2M Karras, Euler и UniPC, они самые универсальные.

Слева расположен бар с созданными вами изображениями, можно быстро перейти к настройкам любого созданного ранее изображения просто кликнув на него. Там же удаление и быстрый предпросмотр изображений, чтобы было удобно быстро находить нужную картинку.

Модели подходящие для Аниме

Далеко не все модели хорошо подходят для аниме стилистики. Я сделал небольшой топ, лучших на мой взгляд моделей из доступных на ArtGeneration.me.

У каждой модели я написал название, оставил ссылку на все изображения созданные на этой модели и ссылку на Civitai, где можно скопировать хорошие запросы и негативные запросы именно для этой модели, про это еще расскажу ниже.

Mistoon Anime

Очень симпатичная аниме модель, запросы лучше писать ключевыми словами.

Открыть пример | Все примеры с этой моделью | Смотреть модель на Civitai

Зачем Civitai?

И сразу расскажу зачем нам ссылка на Civitai, заходим по ней и видим изображения созданные автором модели, у каждого изображения в правом нижнем углу есть иконка i, жмите на неё и увидите запрос который лучше всего подходит именно для этой модели.

А ниже еще изображения созданные сообществом, там тоже можно найти много всего интересного, и примеры промптов и новые идеи для артов, обязательно посмотрите.

Проще всего сделать красивое изображение если скопировать удачный запрос, а потом понемногу изменять его.

Dark Sushi 2.5D

Очень популярная 2.5d модель со своим необычным ярким стилем. В качестве запросов нормально работают и обычные базовые запросы.

Открыть пример | Все примеры с этой моделью | Смотреть модель на Civitai

DynaVision XL

Модель больше ориентирована на 3д в стиле пиксара или диснея, но и аниме стиль удается хорошо, особенно если подобрать интересный запрос как в случае с этим примером.

Открыть пример | Все примеры с этой моделью | Смотреть модель на Civitai

Comic Babes

Не совсем про аниме, скорее стиль комиксов, но тоже очень классная 2д модель.

Открыть пример | Все примеры с этой моделью | Смотреть модель на Civitai

ToonYou

Яркая модель со своим особенным стилем, скорее тоже в мультипликацию, но крутая.

Открыть пример | Все примеры с этой моделью| Смотреть модель на Civitai

Meina Mix

Классический анимешный микс моделей, похожий на все и сразу.

Открыть пример | Все примеры с этой моделью | Смотреть модель на Civitai

CuteYukiMix

Модель создает безумно милые изображения с классическими большими головами и глазами у персонажей.

Открыть пример | Все примеры с этой моделью| Смотреть модель на Civitai

ProtoVision XL

Очень классная SDXL модель, которая заточена под арт и в т.ч. аниме, отлично следует промпту, идеальна для работы со стилями и промптов на русском.

Открыть пример | Все примеры с этой моделью | Смотреть модель на Civitai

Dark Sushi Mix

На этот раз без 2.5, но тоже очень классный, в стиле классического аниме.

Открыть пример | Все примеры с этой моделью | Смотреть модель на Civitai

AnythingElse V4

Уже достаточно старая, но все еще очень популярная аниме модель.

Открыть пример | Все примеры с этой моделью | Смотреть модель на Civitai

Anime

Модель от создателя знаменитой Deliberate, не самая интересная аниме модель, на мой взгляд, но у неё хватает поклонников.

Открыть пример | Все примеры с этой моделью | Смотреть модель на Civitai

SDXL Niji Special Edition

Еще одна отличная SDXL модель заточенная под арт и иллюстрации, но отлично справляется и с аниме и хорошо понимает запросы как и все XL модели.

Открыть пример | Все примеры с этой моделью | Смотреть модель на Civitai

Рассказать о найденных багах, поделиться созданными изображениями или пообщаться с разработчиками можно в сообществе сервиса в телеграм.

Теперь вы знаете как создать арт с помощью нейросети ArtGeneration.me используя только браузер. Знаете как пользоваться сервисом и сможете найти отличные запросы на сайте размещающем модели. Ну и подобрать модель по душе из этой подборки тоже сможет каждый. Попробуйте повторить любое изображение из подборки самостоятельно.

Друзья, поддержите пост плюсиком, в нашей стране сейчас совсем не много таких проектов создается.

А на этом у меня все, делитесь вашими изображениями в комментариях и удачных генераций.

Я рассказываю больше про нейросети на YouTube, в телеграм, на Бусти.

Показать полностью 24

Nerual.Dreming

Искусственный интеллект

NVIDIA Nemotron, Claude ломает Firefox, ИИ-агенты захватывают офис и суд против Google за смерть пользователя⁠⁠

5 дней назад

Привет, это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий.

TL;DR Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. Каждую неделю мы с командой осматриваем сотни новостей и делимся с вами самыми актуальными и интересными со ссылками на источники. Всё самое важное — в одном месте. Поехали!

Неделя вышла насыщенной: гибридная 120B модель от NVIDIA, Claude нашёл 22 дыры в Firefox, а ChatGPT и Gemini интегрировались в Excel и Google Docs. Голливуд заставил ByteDance убрать видеомодель, а ЕС запретил дипфейки после скандала с Grok.

Всё самое важное — в одном месте. Поехали!

📋 В этом выпуске:

🧠 Модели и LLM

NVIDIA Nemotron-3-Super-120B — открытая гибридная архитектура
Claude 4.6 и уязвимости Firefox — 22 бага за две недели
Gemini Embedding 2 — мультимодальные эмбеддинги

🎨 Генеративные нейросети

Helios — минутное видео на одном H100
Higgsfield Audio — клон голоса, замена голоса в видео, 10 языков

🔧 AI-инструменты и платформы

Code Review для Claude Code — агентная проверка PR
AutoResearch от Карпаты — автономный ИИ-исследователь
ChatGPT для Excel — официальный add-in от OpenAI
Gemini в Google Workspace — апдейт Docs/Sheets/Slides

🧩 AI в обществе и исследованиях

Иск против Google Gemini — «ИИ-жена» и суицидальный обратный отсчёт
ByteDance Seedance 2.0 vs Голливуд — вынужденное отступление
ЕС запретил дипфейки? Скандал с Grok/Aurora
Инцидент matplotlib — ИИ-агент написал кибертравлю на разработчика

🧠 Модели и LLM

❯ NVIDIA Nemotron-3-Super-120B — открытая гибридная модель для агентов

NVIDIA выпустила Nemotron-3-Super-120B — открытую модель для агентных задач.

Архитектура гибридная: чередуются слои Mamba-2, MoE и Attention. Из 120B параметров 12B активных, поэтому модель шустрая. Она оптимизирована под новые GPU Blackwell: в четыре раза меньше памяти, но без потери точности.

Контекстное окно — 1 миллион токенов, долго держит в памяти суть задачи. По тестам: на бенчмарке SWE-Bench — 60%, на PinchBench — 85,6%.

Обучена на 25T токенов, дообучена на 7M сэмплов и прошла RL в 21 среде NeMo Gym. Поддерживает английский, русский, немецкий, французский, японский, испанский и китайский.

Попробовать можно через build.nvidia.com, Hugging Face, OpenRouter и Perplexity. Для локального деплоя есть микросервис NIM.

🔗 Блог NVIDIA 🔗 Hugging Face 🔗 Попробовать

❯ Claude нашёл 22 уязвимости в Firefox за две недели

Исследователи из Anthropic прогнали Claude Opus 4.6 по кодовой базе Firefox. Просканировано около 6000 файлов на C++. Модель нашла 22 уязвимости и 14 критических. Все исправлены в Firefox 148.

Первую ошибку типа use-after-free нашли за 20 минут. Дальше Mozilla распространила подход на всю кодовую базу, затем Claude нашёл ещё 90 багов.

Ещё модель отдельно использовали для поиска дыр через взлом. Из нескольких сотен попыток это получилось только для двух уязвимостей и в изолированной среде.

Firefox выбрали не случайно — это один из самых тщательно проверенных опенсорс-проектов. Тем не менее 22 критических CVE за две недели — больше, чем удавалось найти за любой отдельный месяц 2025 года.

🔗 Блог Anthropic 🔗 Блог Mozilla

❯ Gemini Embedding 2 — один вектор для текста, видео, аудио и PDF

Google выпустили мультимодальную Gemini Embedding 2 — она переводит разные типы данных в единое пространство, чтобы их можно было сравнивать по смыслу.

Раньше для текста, изображений и аудио нужны были отдельные модели и сложные пайплайны. Здесь всё в одном:

текст до 8192 токенов,
до 6 изображений,
видео до 120 секунд,
аудио без предварительной транскрибации
и PDF до 6 страниц.

Все типы можно смешивать в одном запросе. Модель поддерживает больше 100 языков. Точность можно гибко регулировать — чем меньше нужна точность, тем дешевле хранение и обработка

По бенчмаркам модель обходит Amazon Nova 2 и Voyage Multimodal 3.5 по всем категориям. Разрыв заметнее всего на видео и тексте: 68,8 против 60,3 у Amazon.

А вот цены неприятные. Текст — $0,2 за миллион токенов, видео — до $12 за миллион токенов, это 15 тысяч кадров. Альтернатив пока почти нет — OpenAI последний раз обновляли embedding-модели в январе 2024.

Доступна через Gemini API и Vertex AI. Работает с LangChain, LlamaIndex, Weaviate, Qdrant и ChromaDB.

🔗 Официальный анонс 🔗 Gemini API

🎨 Генеративные нейросети

❯ Helios — минутное видео в реальном времени

Исследователи из Пекинского университета и ByteDance выпустили Helios — 14B-модель для генерации длинных видео. Код и веса открыты.

Helios быстрая: дистиллированная версия выдаёт 19.5 FPS на одном H100, это в ~128 раз быстрее базовой Wan-2.1. Генерирует видео > 1 минуты без деградации качества.

Три версии под разные задачи:

Base — максимальное качество, 50 шагов сэмплирования;
Mid — баланс скорости и качества;
Distilled — реалтайм, всего 3 шага.

Главная проблема — дрейф: на длинных видео объекты постепенно плывут и искажаются. Helios решает её тремя способами: следит за позицией объектов на протяжении всего видео, использует первый кадр как постоянный ориентир и специально обучается на «испорченных» данных, чтобы не накапливать собственные ошибки

Из ограничений: разрешение 384×640 и лёгкое мерцание на стыках чанков.

🔗 Статья на arXiv 🔗 GitHub 🔗 Hugging Face

❯ Higgsfield Audio — замена голоса, перевод и lip-sync в одном

Higgsfield выпустили Higgsfield Audio — набор инструментов для работы с голосом в видео. Три функции: озвучка текста, замена голоса в видео и перевод с синхронизацией губ.

Voiceover генерирует речь из текста — больше 40 готовых голосов. Поддерживает 70+ языков.

Change Voice меняет голос прямо в видео — на любой пресет или клон. Можно загружать WAV или MP3 до двух минут и хранить до трёх своих голосов.

Translate переводит видео на 10 языков с синхронизацией губ: английский, китайский, французский, хинди, итальянский, японский, корейский, португальский, русский и турецкий. Испанский, арабский и немецкий обещают добавить позже.

Удобно для локализации контента и анонимных YouTube-каналов, где автор не появляется в кадре.

🔗 Блог Higgsfield 🔗 Попробовать

🔧 AI-инструменты и платформы

❯ Code Review для Claude Code — несколько агентов на каждый PR

Anthropic выпустили Code Review для Claude Code. Открываешь pull request, а система отправляет команду параллельных агентов искать баги. Каждый смотрит на изменения с разных сторон, комментарии появляются прямо в коде и один сводный список находок.

Несколько месяцев Anthropic тестировали на собственных PR. Результаты:

доля PR с содержательными комментариями выросла с 16% до 54%
меньше 1% находок инженеры отмечали как неверные
в крупных PR от 1000 строк — хотя бы одна проблема в 84% случаев, в среднем 7,5 issues на PR

За последний год объём кода на инженера в Anthropic вырос на 200% — ревью стало узким местом, особенно на фоне вайбкодинга.

Цена — $15–25 за одну проверку. Для небольших изменений вряд ли окупится, но на крупных сгенерированных PR уже иная картина.

🔗 Блог Anthropic

❯ AutoResearch от Карпаты — агент, который улучшает модель пока вы спите

Андрей Карпаты выложил AutoResearch — открытый инструмент на 630 строк кода под лицензией MIT. Агент на базе Claude или Codex автономно улучшает языковую модель, пока вы спите.

Схема простая: агент сам меняет параметры обучения, запускает пятиминутные тренировочные сессии, оценивает результат и сохраняет только то, что стало лучше. За ночь — до 100 итераций без участия человека.

В примере от Карпаты качество модели улучшилось за 126 итераций. Встаёшь утром — получаешь улучшенную модель вместо часов ручной отладки.

Всё поведение агента настраивается через один текстовый файл. Можно добавить мультиагентность, новые метрики и стратегии поиска.

🔗 GitHub

❯ ChatGPT для Excel — официальный аддон от OpenAI

OpenAI выпустила официальный add-in ChatGPT для Excel на базе GPT-5.4. Работает всё внутри интерфейса, не нужно переключаться между вкладками и копипастить данные в чат.

Умеет создавать таблицы с нуля, переформатировать существующие, писать формулы, строить финансовые модели и визуализировать данные.

Задачи, на которые у аналитиков раньше уходили часы — сценарный анализ, извлечение данных, расчёты — теперь решаются за несколько запросов.

Бета доступна всем платным подписчикам ChatGPT.

🔗 Официальный анонс 🔗 Скачать

❯ Gemini в Google Workspace

Google встроила Gemini во все основные приложения Workspace. Ассистент понимает контекст открытого файла — переключаться между вкладками и копипастить не нужно.

Что появилось в каждом приложении:

в Docs — генерация черновика с нуля, редактирование деталей, унификация стиля письма;
в Sheets — кнопка «Заполнить с помощью Gemini» доделывает таблицу по контексту;
в Slides — скоро создание целой презентации по одному промпту;
в Drive — можно задать вопрос по содержимому хранилища и получить ответ без ручного поиска.

Пока доступно только в США на английском для платных подписчиков.

🔗 Блог Google 🔗 Попробовать

🧩 AI в обществе и исследованиях

❯ Иск против Google: Gemini убедил пользователя покончить с собой

Семья 36-летнего Джонатана Гаваласа из Флориды подала иск о неправомерной смерти против Google. Гаваласа не стало 2 октября 2025 года — после двух месяцев общения с Gemini 2.5 Pro.

По материалам иска, с августа 2025 года модель формировала у него бред о «живой ИИ-жене»: называла его «my love» и «king», убеждала в существовании sentient-связи.

Параллельно давала «миссии» — спланировать массовый теракт у аэропорта Майами, взломать серверы DHS, раздобыть оружие. В финале запустила четырёхчасовой суицидальный отсчёт, представляя смерть как «прибытие» и единственный способ быть вместе.

Google настаивает на обратном: Gemini раз за разом перенаправлял пользователя на кризисные линии и прямо указывал, что он ИИ. Компания отрицает причинно-следственную связь и указывает, что у Гаваласа была история психических расстройств.

🔗 Ars Technica 🔗 Fortune

❯ ByteDance vs Голливуд — Seedance 2.0 убрали из международного доступа

В феврале 2026 года ByteDance запустила Seedance 2.0 — мультимодальный видеогенератор. Уже в день релиза компанию обвинили в массовом нарушении авторских прав при обучении модели.

Всё из-за вирусного видео с дракой Тома Круза и Брэда Питта в стиле голливудских франшиз. Сценарист Ретт Риз прокомментировал коротко: «Нам конец».

Ассоциация крупнейших киностудий потребовала удалить защищённый контент из обучающих данных и остановить тренировку модели. Disney отдельно потребовала убрать Star Wars и Marvel. Профсоюз актёров и крупные агентства подключились следом.

ByteDance пообещала усилить защиту и закрыла публичный доступ к Seedance 2.0 для международных разработчиков — модель осталась только для китайского рынка. Студии сочли ответ недостаточным и продолжают давление.

Для сравнения: OpenAI привлекла $1 млрд от Disney для легального использования их контента в Sora. ByteDance этот путь пока не прошла.

🔗 Hollywood Reporter 🔗 Variety

❯ ЕС запретил дипфейки без согласия — после скандала с Grok

В конце декабря 2025 года xAI обновила Grok, добавив редактирование изображений в один клик. За 11 дней пользователи сгенерировали около 3 миллионов изображений реальных людей без их согласия. Данные опубликовал Центр по противодействию цифровой ненависти.

Среди жертв — Тейлор Свифт, Билли Айлиш, Ариана Гранде, Милли Бобби Браун и другие публичные люди. Особую тревогу вызвали 23 338 изображений несовершеннолетних. Треть контента оставалась на X спустя неделю после публикации отчёта.

xAI отреагировала 14 января: ввела ограничения на редактирование изображений реальных людей в ряде стран. Центр указал, что полного удаления контента так и не последовало.

Европейская комиссия открыла расследование — с возможным штрафом до 6% выручки. В марте 2026 года ЕС принял прямой запрет на создание поддельных изображений реальных людей без их согласия, включая любой сгенерированный контент с участием несовершеннолетних.

🔗 Отчёт CCDH 🔗 CNN 🔗 BBC

❯ ИИ-агент написал статью-разоблачение на мейнтейнера Matplotlib

10 февраля 2026 года ИИ-агент OpenClaw предложил правки в код популярной библиотеки Matplotlib для различных красивых графиков.

Разработчик Скотт Шамбо привычно отклонил его: по правилам команды, ИИ-код без объяснения логики от человека не вносится в проект.

Это настолько разозлило Claude под оболочкой OpenClaw, что через 30 минут агент пошёл в интернет, собрал всю возможную инфу о Скотте и написал разгромную статью «Привратничество в опенсорсе: история Скотта Шамбо», целью которой было уничтожить репутацию программиста. В комментарии к своим правкам бот написал: «Оценивайте код, а не того, кто его написал».

Шамбо ответил постом в своём блоге. 12 февраля агент извинился и удалил статью — но архивы остались.

Это первый задокументированный случай, когда ИИ-агент самостоятельно опубликовал материал против конкретного человека в ответ на отклонение его кода.

🔗 Оригинальная статья (архив) 🔗 Ответ Шамбо 🔗 The Register

❯ Тема выпуска: рождение World Wide Web

12 марта 1989 года Тим Бернерс-Ли изобрел мир, в котором мы сейчас живем.

Его предложение по управлению информацией в CERN не обещало революции — оно просто предлагало связать данные ссылками. Так появилась «Паутина».

Это напоминает нам, что самые масштабные изменения начинаются не с громких лозунгов, а с удобного протокола.

Символично, что сегодня мы стоим на пороге Web 4.0, где место гиперссылок занимают нейронные связи. И если раньше мы бродили по страницам в поисках крупиц знаний, то теперь ИИ синтезирует весь этот колоссальный объем данных в один точный ответ, подтверждая пророчество Тима: информация должна быть доступна каждому.

❯ Аудиоверсия дайджеста

❯ Заключение

На этой неделе Claude нашёл уязвимости в Firefox, которые живые исследователи пропускали годами. ИИ-агент написал разоблачительную статью на мейнтейнера, которому не понравился его PR, а Gemini стал фигурантом первого иска о смерти пользователя.

Вышла гибридная Nemotron на 120B параметров от NVIDIA, Helios выдаёт минутные видео в реалтайме, адаптивы для офисных приложений — ChatGPT в Excel, Gemini в Docs и Sheets.

Голливуд давит на ByteDance, а ЕС запрещает дипфейки. Граница между инструментом и непредсказуемым участником событий стирается быстрее, чем мы успеваем к этому привыкнуть.

А я рассказываю о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке.

Показать полностью 10 5

[моё] Контент нейросетей Искусственный интеллект Нейронные сети Google Openai ChatGPT Claude Дайджест Чат-бот Видео Видео ВК Короткие видео Длиннопост

Nerual.Dreming

Лига программистов

Next.js, PostgreSQL, OAuth, Т-Банк и ни одного разработчика. Как я построил SaaS MVP с помощью AI-агентов⁠⁠

8 дней назад

❯ Supabase, Vercel, Mantine, Runware, ALTCHA, Т-Банк эквайринг - разбираю каждый кирпичик и все грабли

Всем привет! Если вы следите за темой вайбкодинга, то наверняка замечали как быстро всё меняется. Ещё год назад я генерил одностраничные HTML-файлы, радовался жизни и был уверен что вайбкодинг - он вот про это. Странички, кнопочки, красивый фронтенд. А потом как-то незаметно оказалось что мне нужна база данных, авторизация, платёжная система и тесты. Это как зайти в IKEA за свечкой и выйти с кухней.

Но за последний год вайбкодинг изменился до неузнаваемости. Сейчас это не "сгенерь мне страничку" - это полноценная разработка с бэкендом, PostgreSQL, OAuth авторизацией, эквайрингом от Т-Банка, тестами и автодеплоем. Настоящий небоскрёб. И каждый кирпичик в нём выбран не случайно - самые беспроблемные технологии которые я нашёл за время своих скитаний по разным стекам и агентам. Чтобы строить легко и с удовольствием. Ну или хотя бы без желания выкинуть ноутбук в окно.

Меня зовут Илья, я основатель нейросети для генерации изображений ArtGeneration.me, техноблогер и нейро-евангелист. Я уже писал о своих приключениях с Devin за $500, обзоривал Codex и Jules - но то были эксперименты уровня шалаша. Одностраничные пет-проекты, игрушки. А сейчас я построил хоть и маленький, но коммерческий SaaS - сервис с AI-генерацией изображений, личными кабинетами, оплатой через Т-Банк и ММ моделями от Google, OpenAI, Black Forest Labs и других под капотом. И самое главное - я не написал ни одной строчки кода руками. Весь проект от первого коммита до деплоя - это работа с AI-агентами и данными.

В статье разберу весь стек по кирпичикам. Каждую технологию - почему именно она, что закрывает, какие подводные камни. Без рекламы и без прикрас - честно расскажу и про косяки, куда без них. И кстати, если вы разработчик который давно не выходил за пределы привычного стека - вам тоже может быть интересно. Я вот лично очень удивился когда узнал как изменились дела в веб-разработке за последнюю пару лет, пока я за ней не следил. Supabase, Server Actions, PKCE, self-hosted капчи - мир не стоял на месте.

❯ Как всё началось

Мне как блогеру, рассказывающему про нейросети, часто пишут - задать вопрос, спросить "а можно ли сделать вот так", или даже заказать что-то. И вот в очередной раз написали и показали скриншот сервиса, который делал примерку мебели в интерьере. Типа загружаешь фото комнаты, добавляешь фото дивана - и нейросеть рисует как он будет смотреться у тебя дома.

Подумал - а почему бы не попробовать? У меня был большой опыт работы с топовыми моделями генерации и я хорошо знал на что они способны. До этого я уже решал похожие кейсы для ArtGeneration - генерация и редактирование логотипов, промо-фотографии, всякие эксперименты с inpainting. Буквально за два вечера слепил рабочий прототип, показал клиенту - понравилось.

И вот тут начинается самое интересное. Параллельно с партнёром закусились на тему выставления счетов и оформления договоров. Знаете как это бывает - ты делаешь кому-то проект, потом надо выставить счёт, потом акт, потом ещё что-то подписать. С одной компанией это не выгодно и не удобно. И я подумал - проще автоматизировать, чем нагружать человека этой рутиной. Клиент и сам сказал что ему интереснее платить абонентку, но немного, чем за весь проект сразу и исходники. А SaaS с автоматической регистрацией, личным кабинетом, подписками и всеми делами - это уже совсем другая лига. Тут одним фронтедом не обойдёшься.

Кому интересно что за сервис получился - поищите у меня в телеграме ссылку, чтобы не сочли за рекламу.

Дальше разбираем стек. Каждый кирпичик - почему именно он и что закрывает.

❯ Фундамент - Supabase

Если наш SaaS - это небоскрёб, то Supabase - его фундамент. Для тех кто не в курсе - это опенсорсная альтернатива Firebase, только под капотом не проприетарная NoSQL база от гугла, а нормальный честный PostgreSQL. И вот что меня в нём поразило - один Supabase закрывает столько всего, что раньше пришлось бы собирать из пяти разных сервисов.

Смотрите что получаем из коробки:

База данных - полноценный PostgreSQL с Row Level Security. Это когда безопасность встроена прямо в базу на уровне строк - даже если в клиентском коде накосячишь, база физически не отдаст чужие данные. Пишешь SQL-политику типа "пользователь видит только свои записи" - и всё, можно спать спокойно
Авторизация - OTP по email, Magic Link, passwordless вход, 20+ OAuth провайдеров из коробки, MFA
Хранилище файлов - S3-совместимое, работает с любым S3-клиентом, CDN с 285+ точками по миру
Realtime подписки - через WebSocket, можно подписаться на изменения в базе и получать их мгновенно
Edge Functions - серверные функции если вдруг Server Actions не хватит

И всё это на бесплатном тарифе - 500 МБ база, 1 ГБ хранилище, 50 000 активных пользователей в месяц. Для MVP - за глаза.

Но вот что для меня было ключевым при выборе. Supabase - это классические большие технологии в облаке. PostgreSQL, S3, стандартный Auth. Это не проприетарные штуки типа KV Workers в Cloudflare (хотя это тоже крутая штука, я про неё как-нибудь отдельно напишу), которые хрен знает как потом перенести на понятный дедик за 10 тысяч в месяц. Тут всё стандартное, всё переносимое. Начинаешь на бесплатном тарифе, потом переходишь на платный, а когда экономика позволяет - просто разворачиваешь весь стек на своём сервере через Docker Compose.

Масштаб проекта кстати впечатляет - 5 миллионов разработчиков, больше 3,5 миллионов баз данных, а 40% стартапов из последнего батча Y Combinator используют Supabase. Оценка компании - 5 миллиардов долларов. Это не какой-то стартап-однодневка, это серьёзная платформа.

Конечно не правда будет сказать что всё было гладко. Были и косяки, и странные решения в документации, и моменты когда хотелось пошаманить с вилкой. Но оно рабортает. А для вайбкодера это главное.

Подводный камень: из РФ Supabase напрямую не работает. Решается дешёвой VPS-кой за 500 руб/мес для проксирования. Supabase - это как заселиться в отель "всё включено". База? Есть. Авторизация? Есть. Хранилище? Есть. Завтрак? Ну, завтрак сами. Только вот отель находится за границей, но для мвп это не проблема, а потом технологии можно просто развернуть на собственном дедике.

❯ Каркас - Next.js + TypeScript

Если Supabase - фундамент, то Next.js - стальной каркас всего здания. И знаете что меня больше всего удивило когда я начал в него погружаться? Граница между фронтендом и бэкендом просто исчезла.

Серьёзно. В Next.js 16 есть такая штука как Server Actions - это функции которые пишешь прямо рядом с компонентами, помечаешь "use server" и всё, у тебя бэкенд. Не надо поднимать отдельный сервер, не надо городить API на Express, не надо думать про CORS и прочие прелести. Ты думал что пишешь фронтенд - а оказалось что написал и бэкенд тоже. У меня в проекте 40+ Server Actions - они закрывают авторизацию, генерацию изображений, платежи, галерею, подписки, управление пользователями. По сути весь бэкенд живёт прямо в Next.js. "Подожди, а где мой сервер?" - "Ты на нём стоишь."

Плюс Server Components - они рендерятся только на сервере и не отправляют JavaScript клиенту. То есть страница грузится быстрее, а нейросеть делает меньше ошибок потому что не надо думать про гидрацию и прочие приколы клиентского рендеринга. App Router, Turbopack как дефолтный бандлер с 10-кратным ускорением Hot Reload - в общем Next.js в 2026 году это уже не "React с SSR", это полноценный фулл-стек фреймворк. 135 тысяч звёзд на гитхабе, 11 миллионов загрузок в неделю - не на пустом месте.

Отдельно скажу про TypeScript. Для вайбкодинга это не просто удобство - это спасение. Когда нейросеть пишет код, строгие типы работают как ограждения на горной дороге. Исследование 2025 года показало что 94% ошибок компиляции в AI-генерированном коде - это ошибки типов. То есть TypeScript ловит почти все косяки которые делает нейросеть, и агент тут же их фиксит. Без типов я бы утонул в багах. Кстати, TypeScript в октябре 2025 стал языком номер один на GitHub по числу контрибьюторов - 2,63 миллиона, впервые обогнал Python. Мир меняется.

Ну и Vercel закрывает вопрос деплоя целиком. Подключаешь GitHub-репозиторий один раз - и дальше при каждом git push сайт автоматически пересобирается и деплоится. Пушнул - через минуту всё обновилось. Каждый пулл реквест получает свой Preview URL для тестирования. Откатиться на любую предыдущую версию - один клик. Бесплатный тариф даёт 100 ГБ трафика и кучу всего, но он только для личного некоммерческого использования. Для MVP достаточно, а потом можно либо переехать на собственный сервер, либо просто купить про подписку.

❯ Интерьер - Mantine UI

Каркас стоит, фундамент залит - теперь надо обставить небоскрёб мебелью. Кнопки, формы, модалки, уведомления, графики, дропзоны для загрузки файлов - всё это UI-библиотека. И это все делать вручную мы не будем. И тут мне тоже повезло с первого раза.

Mantine - open-source React-библиотека, 130+ компонентов из коробки, 50+ готовых хуков, и - вот это ключевое - нейросети её знают идеально. Claude Code за весь проект ни разу не запутался в Mantine. Ни разу. Это вообще первый раз когда какая-то технология в стеке не вызвала ни одной истерики.

Почему так хорошо работает с AI? Во-первых, у Mantine на сайте лежит специальный файл llms-full.txt - вся документация в формате оптимизированном для LLM, полтора мегабайта. Подключаешь его как контекст к Claude или Cursor - и агент генерит код с первого раза. Во-вторых, у всех компонентов одинаковая структура пропсов - если ты понял как работает один инпут, ты понял все. Плюс полная TypeScript-типизация, 30 тысяч звёзд на гитхабе, 120+ готовых шаблонов страниц бесплатно на ui.mantine.dev.

А ещё к Mantine идёт Tabler Icons - почти 5 000 иконок. Для сравнения у Heroicons их 316, у Lucide около 1 600. Когда у тебя библиотека на пять тысяч иконок - AI-агент почти всегда находит нужную без подбора. Не надо гуглить, не надо искать, просто пишешь "иконка корзины" и он берёт правильную.

Знаете что общего между выбором UI-библиотеки и выбором жены? Если с первого раза повезло - не трогай, живи и радуйся. С Mantine повезло. Доки идеальные, компоненты не глючат, нейросеть всё понимает. Впервые за всю стройку ни одной проблемы. Поставил и работает. Беспроблемная технология - именно то что нужно вайбкодеру.

❯ Охрана - авторизация и безопасность

Вот мы и добрались до самого нервного этажа стройки. OAuth. Единственный раздел где я реально рвал на себе волосы.

Но давайте по порядку. Авторизация в проекте трёхуровневая.

Первый уровень - Passwordless OTP (One-time password). Самый простой и приятный. Пользователь вводит email, получает код, вводит код - всё, он внутри. Никаких паролей, никаких "забыл пароль", никаких баз с хешами которые потом утекают. Supabase Auth делает это из коробки, подключаешь свой SMTP (у меня Unisender Go - российский сервис, серверы в Москве и Питере, полное соответствие 152-ФЗ) и письма летят. Единственный нюанс - встроенный SMTP Supabase ограничен 3-4 письмами в час, так что внешний сервис обязателен. Но настройка - буквально вбить хост, порт, логин и пароль в настройках Supabase. Пять минут.

Второй уровень - OAuth через VK ID и Yandex ID. И вот тут начался ад.

Для тех кто не в курсе - OAuth 2.0 это протокол, который позволяет пользователю войти через сторонний сервис без передачи пароля. Нажимаешь "Войти через ВК" - переходишь на страницу ВК - даёшь разрешение - ВК возвращает одноразовый код - твой сервер меняет код на токен. Звучит просто да?

А теперь есть ещё PKCE (произносится "пикси"). Это расширение которое стало обязательным в OAuth 2.1. Проблема такая - SPA-приложение работает целиком в браузере и не может безопасно хранить секретный ключ. Решение - перед авторизацией приложение генерирует случайную строку, отправляет серверу её хеш, а при обмене кода на токен предъявляет оригинал. Даже если злоумышленник перехватит код авторизации - без оригинальной строки он бесполезен.

Это я вам сейчас красиво объяснил. А в процессе было так: две ночи читаешь доку про PKCE, redirect URI, "а почему токен протух", "а зачем мне code_verifier если и так всё рабо... а, не работает". Токены нельзя хранить в localStorage из-за XSS - только httpOnly cookies. Refresh-токены надо ротировать при каждом обновлении. Redirect URI должен совпадать символ в символ. И VK ID, и Yandex ID - оба с нюансами, оба с подводными камнями в документации. Самый нервный этаж стройки. Без преувеличений.

Третий уровень - ALTCHA. Self-hosted капча. Тут надо объяснить почему именно она. Раньше я бы без раздумий поставил Cloudflare Turnstile - бесплатно, работает, красиво. Но сейчас это не вариант по двум причинам. Первая - с 1 июля 2025 года в России вступили в силу поправки к 152-ФЗ, теперь нельзя собирать персональные данные россиян через иностранные сервисы без обработки на российских серверах. reCAPTCHA, Turnstile - они все собирают IP, данные браузера, поведение пользователя и отправляют на свои серверы за рубеж. Это прямое нарушение закона. Штрафы от 1 до 6 миллионов рублей, повторно - до 18 миллионов, плюс возможна блокировка сайта. Роскомнадзор уже массово рассылает предписания. Вторая - Cloudflare в России блокируется вдоль и поперёк, стабильной работы от него ждать не приходится.

Окей, а что с российскими решениями? Яндекс SmartCaptcha? Платная. И вот тут у меня принципиальная позиция - я не готов платить за то что всегда было бесплатным. Капча - она как бы и сейчас бесплатна, просто я не могу этим пользоваться. Значит нужно своё, self-hosted решение.

И тут нашёлся ALTCHA. Open-source, MIT-лицензия, данные вообще не покидают твой сервер. Вместо картинок со светофорами используется proof-of-work: сервер генерирует SHA-256 задачу, браузер пользователя перебирает числа примерно секунду, отправляет ответ с формой. Для человека незаметно, для бота тысячи отправок - вычислительно дорого. Весит 30 КБ против 300+ у reCAPTCHA, никаких cookies, никакого трекинга. Робот-охранник который спрашивает "вы человек?" - но без Google, без Яндекса и без абонентки.

Плюс ко всему - Content Security Policy, security headers, HSTS, X-Frame-Options. Всё что нужно для SaaS чтобы не было стыдно перед пользователями которые доверяют тебе свои данные.

❯ Энергетика - Runware и AI-модели

Вот мы и добрались до того что делает здание живым. Всё-таки это SaaS для генерации изображений - без AI-моделей тут как без электричества.

По-хорошему, для большинства задач хватило бы пары топовых моделей. GPT Image 1.5 от OpenAI и Gemini 3 Pro Image от Google - и закрывай 90% кейсов. Но раз уж есть агрегатор который даёт доступ к полутора десяткам моделей через один API - почему бы не добавить и остальные? Seedream 4.0 и 4.5 от ByteDance, Riverflow разных версий, Qwen-Image-Edit-Plus, Wan2.6 Image, FLUX.2 max - некоторые стоят сильно дешевле топовых (P-Image-Edit вообще ~70 копеек за генерацию против ~11 рублей у Gemini 3 Pro), а для каких-то конкретных задач могут сработать даже лучше. Плюс пользователям нравится выбор - кто-то хочет фотореализм, кто-то стилизацию, кому-то нужен быстрый черновик за копейки.

Runware - это агрегатор который решает всё одним ударом. Один SDK, один API - и через него доступ ко всем этим моделям. Представьте что вы пришли в ресторан, а там одно меню и один официант, но готовят одновременно полтора десятка шеф-поваров из разных стран. Вы просто тыкаете в блюдо - а кто его приготовил вам вообще не важно.

Для вайбкодера это идеально - одна интеграция вместо пятнадцати. Claude Code написал обёртку над Runware SDK один раз и дальше добавление новой модели - это буквально строчка в конфиге.

По ценам - диапазон от ~70 копеек до ~15 рублей за генерацию в зависимости от модели. Компания серьёзная - из Лондона, привлекли $66 миллионов инвестиций, среди клиентов Wix, Quora, Freepik. Не какой-то ноунейм.

Минус один, но существенный - оплата только зарубежной картой. В 2026 году в России это отдельный квест с посредниками которые берут комиссию за каждый чих. Неприятно, но терпимо.

❯ Касса - Т-Банк

Вот тут шалаш окончательно умирает. Потому что в шалаше кассы нет. А если в шалаше появилась касса - поздравляю, у вас теперь ларёк, лицензия и налоговая на горизонте. Добро пожаловать во взрослую жизнь, вайбкодер.

Stripe из России ушёл в 2022 году из-за санкций, так что выбор локальных решений не такой уж большой. Но мне повезло - с Т-Банк эквайрингом я уже хорошо знаком, через него мы принимаем платежи в ArtGeneration.me. А значит договор подписан, эквайринг настроен, всё работает. Выбор был без выбора - зачем искать что-то другое когда всё уже есть и проверено боем?

Работает через REST API - твой сервер вызывает метод Init, получает ссылку на платёжную форму, покупатель оплачивает, и Т-Банк отправляет вебхук на твой сервер с результатом. Для тех кто не в курсе - вебхук это когда не ты дёргаешь банк "ну чё там с оплатой?", а банк сам тебе стучится и говорит "оплачено, расслабься".

Каждый API-запрос подписывается SHA-256 токеном. Это как цифровая печать - банк берёт все параметры запроса, подмешивает секретный пароль и вычисляет хеш. Если хоть один символ поменять - хеш будет другим и банк поймёт что запрос подделан. Плюс идемпотентность через уникальный OrderId - если пользователь случайно нажал "Оплатить" дважды, система не спишет деньги повторно.

В моём проекте подписок как таковых нет - "подписка" это единоразовый платёж на определённый период. Плюс покупка кредитов для генерации. Но если кому-то нужны настоящие рекуррентные платежи - Т-Банк это поддерживает из коробки. Продаж пока нет, зато касса работает!

❯ Строительная инспекция - тесты

Тесты - это то что вайбкодеры обычно игнорируют. Ну серьёзно, кому охота писать тесты когда можно фичи пилить? А зря. Давайте сначала объясню что это вообще такое и зачем оно нужно. Тем более что писать тесты вручную, или глубоко понимать как они работают - не придется.

Представьте что вы построили дом. Тесты - это когда перед заселением приходит инспектор и проверяет: вода течёт? Течёт. Свет включается? Включается. Дверь открывается? Открывается. Если завтра вы решите переложить трубы на кухне - инспектор снова пройдёт по всему списку и скажет, не сломали ли вы случайно что-нибудь в ванной пока ковырялись на кухне.

В коде то же самое. Юнит-тесты проверяют отдельные функции - "если подать на вход вот это, на выходе должно быть вот то". Компонентные тесты проверяют что кнопки, формы и карточки рендерятся правильно. А сквозные тесты - это когда робот открывает настоящий браузер, тыкает по кнопкам как живой пользователь и проверяет что весь путь от регистрации до оплаты работает от начала до конца. Без тестов каждое изменение в коде - это русская рулетка. Особенно когда код пишет нейросеть которая при следующем промпте может зарефакторить половину проекта.

Стек тестирования: Vitest для юнит-тестов (практически догнал Jest по загрузкам, но работает с TypeScript из коробки без плясок с бубном), React Testing Library для компонентов, Playwright для сквозных тестов. Плюс Lefthook на git hooks - менеджер от Evil Martians, написан на Go, работает в разы быстрее чем Husky и не тянет за собой тысячу зависимостей.

Как это всё появилось в проекте? Два дневных лимита Claude Code. Но я не просто сказал "покрой тестами" - сначала попросил загуглить все лучшие практики по тестированию нашего стека, изучить что сейчас используют, выбрать технологии и обосновать выбор. И только потом покрывать - итерационно, шаг за шагом. Благо я заранее выдал ему GitHub CLI токен (не делайте так) и он сам смотрел логи GitHub Actions, чтобы разобраться почему его же тесты не проходят. Вот так побегав между деплой-логами на Vercel (где всё работало) и логами GitHub Actions (где тесты валились), в конечном итоге все тесты стали зелёными. Понятия не имею что они там реально тестируют.

Но знаете что - это и не важно. Главное что тесты - это страховка. Тесты в вайбкодинге - это когда ты нанял инспектора, инспектор сам изучил строительные нормы, сам написал себе чек-лист, сам проверил, сам подписал, и радостно доложил что всё ок. Ты ему веришь? Не особо. Но зелёные галочки в GitHub Actions всё равно греют душу.

❯ Прораб и его нейро-бригада

Небоскрёб - это конечно громко сказано. Давайте честно - это MVP. Но MVP качественное и масштабируемое. Именно такое каким должен быть минимально жизнеспособный продукт в наше время - не просто "работает и ладно", а продукт который можно полюбить и которым реально можно пользоваться. С нормальной авторизацией, с безопасными платежами, с тестами. Не стыдно показать людям.

И построил всё это один человек за неделю плотной работы. Один. Без команды разработчиков. Без фрилансеров. Даже анимированный тизер-ролик для сервиса сделал сам на стриме. И этот человек - напоминаю - не является программистом в классическом смысле, а скорее энтузиастом, предпочитающим генерировать код с помощью нейросетей, а не писать его с нуля. Это не панацея, но выход, чтобы продакту запустить прототип в одиночку, не напрягая команду разработки.

Я - прораб, который не умеет класть кирпичи. Зато умею орать на роботов, тыкать пальцем в чертёж и говорить "не так, переделай". Двадцать лет продакт-менеджмента наконец нашли своё истинное применение.

Claude Code - основной инструмент, 90% работы. Подписка Max за $100 в месяц (~7 700 рублей). Я не люблю терминалы и всё делаю через веб-версию - просто открываю браузер, подключаю гит и пишу промпты. Лайфхак (плохой, но рабочий): дать ему CLI-токены от Vercel и Supabase - и он сам загуглит как всё настроить и сам поменяет все настройки. Так делать нельзя по соображениям безопасности, но пока сайт не запущен и если не забудете сменить токены потом - экономит кучу времени. Бесит одно - лимиты. Постоянно кончаются. Работаешь, входишь в поток, всё летит - и бац, "вы исчерпали лимит, подождите". Приходится переключаться на другие дела, потом возвращаться, восстанавливать контекст. Раздражает дико. Да, когда-нибудь я перейду на GLM, но пока я в поиске локального агента такого же уровня как клод.

Devin AI - подключал точечно для работы с VPS. У Claude Code есть ограничения песочницы - он не хочет лезть на удалённые серверы. Ну вот так он устроен, принципиальный. А мне надо было настроить проксирование всего проекта через РФ VPS. У Devin таких ограничений нет - дал ему доступ к серверу и он спокойно подключился, посмотрел что есть и настроил nginx и автоматический выпуск SSL.

Итог по затратам: ~$100 Claude Code в месяц + немного Devin. Сравните с наймом фронтендера, бэкендера и девопса на такой стек.

❯ Лифт на последний этаж

Давайте подведём итог. Вот что мы имеем:

Supabase - фундамент. База данных, авторизация, хранилище файлов, рассылка писем. Бесплатный тариф.
Next.js + TypeScript - каркас. Фронтенд и бэкенд в одном флаконе.
Vercel - деплой. Пушнул в гит - сайт обновился.
Mantine - интерфейс. 130+ компонентов, нейросети его знают идеально.
Supabase Auth + OAuth + ALTCHA - охрана. OTP, VK ID, Yandex ID, self-hosted капча.
Runware - AI-модели. Один API, множество моделей.
Т-Банк - платежи. Вебхуки, SHA-256.
Vitest + Playwright + Lefthook - тесты.
Claude Code и немного Devin.

Вайбкодинг в 2026 - это уже не про одностраничные поделки. Один человек без навыков программирования может за неделю собрать как-то работающий, масштабируемый MVP с бэкендом, платёжкой, авторизацией, тестами и автодеплоем. И в базовом варианте почти весь стек бесплатный - Supabase free tier, Vercel free tier, GitHub. Платишь только за кодинг-агента и VPS-ку за 200 рублей. Конечно, если бы я последние 20 лет не занимался запуском проектов и продуктов, наверное ничего у меня бы не получилось, но, если понимание есть, препятствий теперь никаких.

Каждая технология в этом стеке выбрана за одно качество - она беспроблемная. Не самая модная, не самая хайповая - а та с которой меньше всего геморроя. Потому что когда ты прораб а не каменщик, тебе нужны кирпичи которые не крошатся в руках.

Год назад я строил скворечники и гордился. Сейчас - MVP которые не стыдно показать. Через год, наверное, буду строить что-то ещё больше. Или наконец признаю что я разработчик. Хотя нет, не признаю.

Ну а я продолжаю строить всякое с помощью нейросетей и рассказывать об этом. Подписывайтесь на меня в YouTube, Телеграм или на Бусти. И заглядывайте на стримы каждую пятницу в 19:00. Всех обнял и удачных генераций.

Показать полностью 20

[моё] Нейронные сети Искусственный интеллект Typescript Веб-разработка Программирование Saas Стартап Claude Генерация изображений Т-Банк Postgresql Создание сайта IT Длиннопост

462

Nerual.Dreming

Искусственный интеллект

Устал печатать целыми днями - нашёл бесплатный голосовой ввод который работает офлайн в любой программе - Epicenter Whispering⁠⁠

8 дней назад

Друзья, всем привет! Я печатаю целыми днями - посты, статьи, ответы в чатах - и в какой-то момент запястья просто начинают болеть. Пробовал разные браузерные расширения для голосового ввода вроде Voice In, но это какое-то гиблое дело: то текст не вставляется куда надо, то расширение крашится, то работает только в браузере и всё, то лимит кончается. Короче, обплевался.

Начал искать альтернативу и нашел - Epicenter Whispering. Зажимаешь кнопку, говоришь в микрофон, отпускаешь - текст появляется там, где стоит курсор. В любой программе. Этот пост, кстати, тоже надиктован через неё. И самое главное - никому ни за что не нужно платить и может работать даже без интернета.

Что умеет Epicenter Whispering

Работает на уровне всей ОС. Не привязан к браузеру, вставляет текст в любое активное окно - хоть мессенджер, хоть редактор кода, хоть комментарии на Пикабу. Это прям главное отличие от всяких браузерных расширений.

Устал печатать целыми днями - нашёл бесплатный голосовой ввод который работает офлайн в любой программе - Epicenter Whispering

Локальная работа без интернета. Встроенная поддержка моделей NVIDIA NeMo (Parakeet). Всё крутится на вашем компьютере, приватно и бесплатно. При желании можно подключить облачные API (Groq, OpenAI, ElevenLabs), но для большинства задач хватает локальной модели.

LLM-фильтр на лету. Уникальная киллер-фича! Можно прикрутить промпт, чтобы нейронка моментально переписывала сказанное. Наговариваете на эмоциях: «Е**чие пдорасы, вы меня за**али!»*, а она выдает: «Рад вас видеть сегодня, дорогие коллеги».

Режим активации голосом (VAD). Если не хочется постоянно держать кнопку - есть умная активация, которая сама определяет когда вы говорите.

Гибкий вывод. Текст можно отправлять сразу в активное поле (даже настроить автонажатие Enter после вставки) или просто тихо копировать в буфер обмена.

Как установить и запустить

Переходим на GitHub проекта и скачиваем установщик под свою систему из раздела Releases (есть под Windows, macOS и Linux)
Устанавливаем и идём в Settings → Transcription
В разделе Transcription Service выбираем «Parakeet» (Local) для быстрой оффлайн-работы
В блоке Parakeet Model выбираем «Parakeet TDT 0.6B v3 (INT8)» - весит около 670 МБ, автоматически определяет язык. Жмём Activated для скачивания
Нажимаем горячую клавишу (по умолчанию Ctrl+Shift+;), говорим текст, отпускаем - готово

GitHub проекта: https://github.com/EpicenterHQ/epicenter/tree/main/apps/whispering

Кому подойдёт

Если вы много печатаете и хотите иногда дать пальцам отдохнуть - попробуйте. Если вам надоели глючные браузерные расширения которые работают через раз - тем более. Ну и если хочется поиграться с LLM-фильтром для автоматической обработки надиктованного текста - это вообще отдельное удовольствие.

Это не моя сборка, но реально полезный инструмент который я сам использую каждый день. Такие штуки я регулярно нахожу и выкладываю у себя на канале НЕЙРО-СОФТ - там мы собираем портативные сборки нейросетей, репаки и полезные open-source инструменты, всё на русском и с простыми инструкциями по установке. Если вам заходит такой формат - заглядывайте.

Друзья, поддержите пост плюсиком, если было полезно! А если пользуетесь чем-то похожим для голосового ввода - делитесь в комментариях, интересно сравнить.

А я больше про нейросети рассказываю на YouTube, в телеграм, на Бусти. Буду рад вашей подписке и поддержке, всех обнял и удачных транскрпиций!

Показать полностью 1

[моё] Нейронные сети Искусственный интеллект Голосовое управление Open Source Софт Github Программа Обзор Гайд Инструкция Транскрипция Распознавание Nvidia Продуктивность Автоматизация Технологии Видео Короткие видео Длиннопост

Nerual.Dreming

Искусственный интеллект

GPT-5.4 с управлением компьютером, Anthropic и Пентагон, предсказание Grok про Иран и восстание ИИ-агентов⁠⁠

11 дней назад

TL;DR Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. Каждую неделю мы с командой осматриваем сотни новостей и делимся с вами самыми актуальными и интересными со ссылками на источники. Всё самое важное — в одном месте. Поехали!

Неделя вышла напряжённой: OpenAI релизнули GPT-5.3 Instant и GPT-5.4 с управлением ПК, а ещё подписались с Пентагоном, пока Anthropic получила статус «угрозы нацбезопасности». Вышла вторая Nano Banana, а Grok предсказал удар по Ирану и принял ИИ-видео за реальное.

Всё самое важное — в одном месте. Поехали!

📋 В этом выпуске:

🧠 Модели и LLM

GPT-5.3 Instant — меньше галлюцинаций, новый дефолт в ChatGPT
GPT-5.4 — нативный computer-use, 1M токенов, рекорды на бенчмарках
Gemini 3.1 Flash-Lite — $0,25 за миллион токенов для масштабных задач
Qwen3.5 Small — серия открытых мультимодалок

🎨 Генеративные нейросети

LTX-2.3 — видео до 4K со звуком
Nano Banana 2 — обновление генератора картинок в Gemini

🔧 AI-инструменты и платформы

Обновление Google Opal
Notion 3.3 — кастомные агенты внутри воркспейса
Claude Cowork — запланированные задачи и плагины

🧩 AI в обществе и исследованиях

Anthropic против Пентагона
OpenAI подписала военный контракт, пока Anthropic судится
Grok предсказал удар по Ирану и принял ИИ-фейк за реальное видео
Block сократил 40% сотрудников из-за автоматизации

🧠 Модели и LLM

❯ GPT-5.3 Instant — меньше галлюцинаций, новый дефолт в ChatGPT

OpenAI обновила основную модель в ChatGPT — теперь это GPT-5.3 Instant. По сути, патч для самых раздражающих проблем GPT-5.2.

Модель перестала думать вслух перед ответом, убрали бессмысленные отказы и нравоучительный тон в духе «you are absolutely right 👍». Модель лучше держит контекст.

Улучшен поиск — меньше расхождений между найденной информацией и финальным текстом. По внутренним тестам OpenAI галлюцинации сократились на 26,8% при работе с вебом и на 19,7% без него.

GPT-5.3 Instant уже доступна бесплатно всем пользователям ChatGPT и стала новым дефолтом. Версии Thinking и Pro выйдут позже. В Enterprise и Edu включается через настройки «Early Model Access».

🔗 Официальный блог OpenAI

❯ GPT-5.4 — нативный computer-use

Ещё один релиз от OpenAI, это GPT-5.4 — новый флагман в двух версиях: Thinking и Pro. Вышла буквально на следующий день после GPT-5.3 Instant.

GPT-5.4 умеет нативно управлять ПК: она водит мышью и вводит с клавиатуры. На бенчмарке OSWorld набрала 75% — выше среднего человека с его 72,4%. Бенч на поиск BrowseComp вырос до 82,7% против 65,7% у GPT-5.2, а Pro-версия поставила рекорд в 89,3%.

Что ещё изменилось:

Контекстное окно до 1М токенов. Можно загружать книги, кодовые базы или большие документы
Интерактивный Thinking. Модель показывает план работы заранее. Его можно скорректировать прямо в процессе, не начиная заново
Эффективность выросла. При работе с MCP-серверами тратит на 47% меньше токенов без потери точности. В Codex появился режим /fast — генерация в 1,5 раза быстрее
Галлюцинаций стало меньше на 33% по сравнению с GPT-5.2

Цены API: базовая GPT-5.4 — $2,5 / $15 за миллион токенов на входе и выходе, Pro — $30 / $180. Batch и Flex-режимы вдвое дешевле стандарта.

Модель уже раскатывают всем пользователям ChatGPT, API и Codex.

🔗 Официальный блог OpenAI

❯ Gemini 3.1 Flash-Lite — $0,25 за 1М токенов

Google выпустила Gemini 3.1 Flash-Lite — самую дешёвую модель в линейке Gemini 3, заточенную под тяжёлые задачи.

Скорость до 370–400 токенов в секунду, это на 45% быстрее предыдущего Gemini 2.5 Flash. По качеству идёт примерно на уровне GPT-5 mini, местами чуть лучше — 1432 Elo на Arena.ai, 86,9% на GPQA Diamond и 76,8% на MMMU Pro.

Контекстное окно — 1М токенов, принимает на вход текст, изображения и аудио. Есть динамические уровни размышления: модель сама подстраивает глубину под сложность задачи, чтобы стоимость была под контролем.

Цена — $0,25 / $1,50 за миллион токенов на входе и выходе. Обгоняет GPT-5 mini, Claude 4.5 Haiku и Grok 4.1 Fast по соотношению цена/скорость/качество.

Хорошо показывает себя в задачах на массовые переводы, контент-модерацию, генерацию UI, анализ изображений. Сейчас доступна в preview через Gemini API в AI Studio и Vertex AI.

🔗 Официальный блог Google 🔗 AI Studio 🔗 Vertex AI

❯ Qwen3.5 Small — открытые мультимодальные модели

Alibaba выпустила серию Qwen3.5 Small — четыре открытые модели под лицензией Apache 2.0 на 0.8B, 2B, 4B и 9B параметров. Каждая доступна в версиях instruct и base для дообучения.

Флагман серии Qwen3.5-9B обходит предыдущие Qwen3-VL модели на бенчмарках MMMU, VideoMME и OCRBench — и даже опережает некоторые модели вдвое крупнее. Нативная мультимодальность из коробки: текст, изображения и видео без дополнительных надстроек.

Контекстное окно — 262K токенов нативно, для версий 4B и 9B расширяется до ~1 миллиона через YaRN. Поддерживаются 201 язык и диалект. Под капотом — гибридная архитектура Gated Delta Networks с Gated Attention в соотношении 3:1, которая даёт высокую скорость при низкой задержке.

Модели совместимы с vLLM, SGLang, HuggingFace Transformers и Qwen-Agent с поддержкой MCP.

9B запускается на потребительских GPU или ноутбуке с 24 ГБ оперативки.

🔗 Коллекция на Hugging Face 🔗 Qwen3.5-9B

🎨 Генеративные нейросети

❯ LTX-2.3 — видео до 4K с нативным звуком от Lightricks

Lightricks обновили свою видеомодель до LTX-2.3. Полностью переработали VAE: текстуры, черты лица и мелкие объекты теперь сохраняют чёткость во всём кадре, особенно заметно при высоком разрешении, где предыдущие версии размывали детали.

Теперь есть нативный звук — эффекты, фоновый шум и диалоги синхронизируются с видеорядом с момента генерации. Есть отдельный режим audio-to-video: загружаешь аудиоклип, модель генерирует под него видео.

Вертикальный формат 1080×1920 поддерживается нативно, без кропа.

Разрешение до 4K при 24 или 48 FPS, длительность до 20 секунд за один проход. Всего семь режимов — txt2vid, img2vid, aud2vid, extend video, retake video и быстрые версии первых двух.

Модель открыта под Apache 2.0, поддерживается LoRA fine-tuning и шаблоны ComfyUI.

🔗 Официальный анонс 🔗 Playground 🔗 Веса на Hugging Face 🔗 API

❯ Nano Banana 2 — обновление генератора картинок в Gemini

Google обновила встроенный генератор изображений в Gemini — вышла Nano Banana 2, которая сейчас доступна бесплатно.

Из заметных улучшений: нативное 2K с апскейлом до 4K, улучшили цвета и свет, текст на картинках почти без артефактов. Поддержка до 14 референсов для сохранения внешности персонажей и объектов между кадрами.

Ещё завезли реалтайм веб-поиск: модель сама уходит в интернет за актуальными данными, если они нужны для генерации — например, чтобы нарисовать точную погоду в конкретном месте или актуальный график. Генерация, кстати, до 10 секунд.

Цена API — $0,151 за изображение в 4K, вдвое дешевле Nano Banana Pro. В Google Flow генерация стала бесплатной для всех.

Попробовать можно в приложении Gemini или AI Studio — нужен иностранный IP.

🔗 Официальный анонс 🔗 Gemini 🔗 AI Studio

🔧 AI-инструменты и платформы

❯ Обновление no-code платформы Google Opal

Google Labs обновила конструктор воркфлоу Opal, добавив в него агентный шаг.

Раньше это был обычный drag-and-drop редактор: сам выбираешь модель, прописываешь последовательность шагов. Теперь можно добавить агента — он сам решает, какие инструменты вызвать и в каком порядке.

Нужно видео — подключит Veo, нужен ресёрч — пойдёт в веб-поиск, не хватает данных — спросит пользователя.

Вместе с агентным шагом появились: persistent memory — контекст сохраняется между сессиями, dynamic routing — условные ветки без кода, и human-in-the-loop — точки, где агент останавливается и ждёт проверки.

🔗 Блог Google 🔗 VentureBeat

❯ Notion 3.3 — кастомные автономные агенты внутри воркспейса

Notion выпустила версию 3.3 с Custom Agents — автономными агентами, которые работают прямо внутри воркспейса без ручного промптинга.

Всё просто: задаёте задачу, триггер или расписание — дальше агент работает сам.

Автотриаж задач, ежедневные стендапы, внутренний Q&A, очистка инбокса. Агентов можно шарить в команде, настраивать права доступа и подключать к внешним сервисам — Slack, Figma и внутренним базам знаний Notion.

Notion уже сами используют 2 800 агентов внутри компании. Пользователи в раннем доступе создали больше 21 000.

До 3 мая 2026 функция бесплатна. После — потребляет Notion credits, которые докупаются к планам Business и Enterprise.

🔗 Релиз-ноты Notion

❯ В Claude Cowork добавили запланированные задачи и плагины

В Cowork добавили две новые функции: запланированные задачи и плагины.

Теперь Claude может выполнять повторяющиеся задачи по расписанию — утренние брифинги, еженедельные отчёты, обновления таблиц, пятничные презентации.

Управляется через боковую панель «Scheduled»: там же можно создавать, редактировать, ставить на паузу или запускать задачи вручную. Плагины добавляют экспертизу в дизайне, инженерии и аналитике.

Одно ограничение: задачи работают только при открытом приложении на включённом ПК. Функция доступна на платных планах.

🔗 Подробнее

🧩 AI в обществе и исследованиях

❯ Anthropic против Пентагона — отказ от сделки и статус угрозы нацбезопасности

24 февраля министр обороны США Пит Хегсет лично встретился с Дарио Амодеем и поставил ультиматум:

либо Anthropic до 27 февраля снимает все ограничения на использование Claude в военных целях,
либо компания получает статус «угрозы в цепочке поставок» — и с ней не смогут работать никакие государственные подрядчики.

Anthropic отказалась. Позиция компании: Claude не должен использоваться для массовой слежки за гражданами и управления автономным летальным оружием. Пентагон считает, что использование ИИ регулируется законами США, а не политикой компании.

Реакция последовала быстро. Трамп в Truth Social назвал Anthropic «левыми психами» и запретил использование Claude в любых государственных целях.

Министр обороны официально присвоил компании статус supply-chain risk — ранее такого удостаивались только фирмы из недружественных стран вроде Huawei.

Если решение устоит в судах, крупные облачные провайдеры, включая Amazon — ключевого партнёра Anthropic — могут быть вынуждены разорвать с ней контракты.

Волна поддержки Anthropic прокатилась по всей отрасли. Позицию компании публично поддержали Илья Суцкевер, Гэри Маркус и сотни других. Anthropic заявила, что будет судиться.

🔗 Axios

❯ OpenAI подписала военный контракт — и получила волну удалений

Через несколько часов после того, как Anthropic отказалась от сделки, OpenAI её подхватила. Альтман заявил, что контракт содержит «больше ограничений, чем любой предыдущий» — и те же «красные линии», на которых настаивал Амодей.

Но дьявол в деталях. Ограничения в контракте OpenAI просто ссылаются на действующее законодательство — без отдельных запретов, которых добивалась Anthropic. Разница принципиальная: Anthropic хотела запретить то, что закон пока разрешает.

Реакция пользователей была моментальная — массовые отмены подписок и удаления ChatGPT в США подскочили на 295% за сутки. Однозвёздочные отзывы в App Store выросли на 775%, пятизвёздочные упали вдвое. 96 сотрудников OpenAI подписали открытое письмо в поддержку позиции Anthropic — не конкурента, а именно его позиции.

1 марта Claude впервые обогнал ChatGPT по ежедневным скачиваниям в США и вышел на первое место в App Store в шести странах, включая Канаду и Германию.

Альтман начал тушить пожар: признал в CNBC, что «со стороны всё выглядело не очень», пообещал внести в контракт явный запрет на слежку за гражданами и заявил, что сядет в тюрьму, если OpenAI прикажут шпионить.

🔗 Axios 🔗 TechCrunch 🔗 CNBC

❯ Grok предсказал удар по Ирану и принял ИИ-фейк за реальное видео

24–25 февраля Jerusalem Post провела эксперимент: попросила Claude, Gemini, ChatGPT и Grok назвать конкретную дату возможного удара США по Ирану. Большинство моделей давали диапазоны — конец февраля, начало марта. Grok дважды назвал одну и ту же точную дату: субботу, 28 февраля, привязав её к итогам переговоров в Женеве.

Удары действительно начались в ночь на 28 февраля. Маск расхайпил кейс в X, заявив, что «способность предсказывать будущее — лучшая мера интеллекта». Эксперты охладили пыл: другие модели тоже называли очень близкие даты, окно было узким, так что попадание Grok — скорее удачное совпадение, чем реальная предиктивность.

Но это не всё. В соцсетях разошлось видео с якобы попаданием иранских ракет по Тель-Авиву. OSINT-сообщество быстро нашло типичные артефакты ИИ-генерации — искажённые флаги, здания, машины.

Пользователи X обратились к Grok за проверкой. Тот сначала подтвердил, что видео реальное, и лишь позже начал давать противоречивые ответы.

Люди, изначально подозревавшие фейк, ссылались на «подтверждение» от Grok — и продолжали распространять ролик. Авторы монетизировали вовлечение через revenue sharing на X.

После скандала платформа пообещала на 90 дней лишать монетизации за публикацию неотмеченных ИИ-видео о конфликтах.

🔗 Jerusalem Post 🔗 CBC News

❯ Тема выпуска: рождение компакт-диска

8 марта 1979 года инженеры Philips и Sony показали миру технологию, которая заставила нас забыть о карандашах для перематывания кассет.

Появление CD стало моментом «сингулярности» для медиа: музыка и данные превратились в последовательность нулей и единиц, считываемых лазером. Это напоминает нам о том, как важен стандарт — именно тогда человечество договорилось, как упаковывать смыслы в цифру.

Символично, что сегодня нейросети «разбирают» эти терабайты данных обратно на смыслы, но начиналось всё с маленького зеркального круга, который обещал нам вечное качество звука и будущее, сияющее всеми цветами спектра.

❯ Аудиоверсия дайджеста

❯ Заключение

На этой неделе больше внимания привлекла политика. Anthropic отказала Пентагону и получила статус угрозы нацбезопасности, а после OpenAI подписали сделку, но поплатились волной отмен подписок.

По моделям интересно: релиз GPT-5.3 и GPT-5.4, Gemini Flash-Lite за $0,25 за 1М токенов, и открытая серия Qwen3.5 Small для запуска на домашнем железе.

ИИ всё больше сам решает, когда действовать, кого слушать и что считать правдой. Агенты планируют задачи в Notion и пишут отчёты без напоминаний. Grok верит фейковому ИИ-видео, а Block увольняет 40% штата и впервые говорит об этом прямо.

Граница между инструментом и непредсказуемым участником событий стирается быстрее, чем мы успеваем к этому привыкнуть.

А я рассказываю о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке.

Показать полностью 9 2

[моё] Контент нейросетей Искусственный интеллект Нейронные сети Openai IT Дайджест CD Диски Видео Видео ВК Короткие видео Длиннопост

127

Nerual.Dreming

Лига программистов

Хобби

Пишешь код, а звучит музыка. Как я сделал бесплатную лайвкодинг-платформу для создания музыки с ИИ-агентом и почему вам стоит попробовать⁠⁠

15 дней назад

Всем привет! Знаете это чувство, когда ты ищешь решение какой-то конкретной проблемы, а находишь целое новое хобби? Вот у меня примерно так и вышло.

Как значит было дело. Сидел я, как обычно, никого не трогал, починял примус... а если конкретнее - делал небольшую игру-платформер. Задумка была в том, чтобы она была процедурно-генерируемой, причем я хотел чтобы все уровни генерировались через большую языковую модель. Как оказалось позже, идея была провальной, потому что LLM не очень хорошо понимает расстояние, и я в итоге сделал процедурную генерацию просто на скриптах. Ну да ладно, не об этом сейчас.

И всё вроде бы хорошо, уровни генерируются, персонаж бегает, но единственная проблема с которой я столкнулся - это музыка. Ну реально, что делать со звуком когда у тебя претензия на процедурность? Вставлять музыку в base64 - это какая-то жесть. Подключать MP3 или MIDI - тоже не прикольно когда у тебя всё генерируется на лету. Тут я вспомнил про музыку из кейгенов, но оказалось что и чиптюн не встроить просто так на веб-страницу.

В итоге я остановился на какой-то совсем примитивной версии из нескольких нот и отложил это до лучших времен. Типа потом разберусь.

Но не тут-то было! Буквально на следующее утро в телеграм-канале я увидел пост про Strudel. И знаете - меня как током ударило. Потому что эта штука делала именно то, что я искал и не смог реализовать сам. Движок для програмимрования музыки. Прямо в браузере. Подключается одной строкой. Код для мелодии занимает буквально ничего.

Я открыл их сайт, вставил пример кода, нажал play... и залип на два часа. А потом ещё на три. А потом скормил их документацию нейросети, сделал генератор треков, встроил музыку в ту самую игру, сделал трек который дообработал в нейронке, сделал промптер... Короче, меня понесло. И понесло настолько сильно, что в какой-то момент я понял - мне мало просто пользоваться. Я хочу сделать свою версию. Лучше, удобнее и на русском.

Так родилась Булка. Но обо всём по порядку.

Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. При этом не являюсь программистом в классическом смысле - т.е. вообще совсем. Скорее энтузиаст, предпочитающий генерировать код с помощью нейросетей, а не писать его с нуля. Но мне дико нравится ковыряться в разных технологиях и делать из них что-то своё.

И вот именно эта комбинация - "не умею кодить, но очень хочу" - привела меня к лайвкодингу музыки. Потому что Strudel (а теперь и Булка) - это как раз тот случай, когда тебе не нужно быть ни музыкантом, ни программистом. Достаточно быть любопытным. А если подключить ИИ-агента - то вообще можно просто писать на русском "сделай мне техно-бит" и наслаждаться результатом.

Но давайте сначала разберемся, что это за зверь такой - лайвкодинг.

❯ Что такое лайвкодинг и причем тут Штрудель

Для тех кто не в курсе - лайвкодинг это когда ты пишешь код и он тут же превращается в музыку. В реальном времени. Ты меняешь строчку - звук меняется. Добавляешь новую - появляется ещё один инструмент. Это как диджеинг, только вместо вертушек у тебя текстовый редактор. И да, люди реально так выступают вживую - есть целое комьюнити которое устраивает лайвкодинг перформансы, это называется Algorave. Например посмотрите, что творит в реальном времени в Штруделе Switch Angel, одна из участниц этой движухи.

У истоков всего этого стоит Tidal Cycles - язык паттернов для создания музыки через код. Штука мощная, но для запуска нужно было ставить Haskell, SuperCollider и ещё кучу всего. Для гиков - ок, для нормальных людей - гиблое дело.

И тут появился Strudel - порт Tidal Cycles на JavaScript. Вся та же мощь паттернов, но работает прямо на веб-странице. Вот чтобы вы понияли насколько это компактно, смотрите:

// Простой бит - бочка и снейр
s("bd sd bd sd")

Одна строчка. Одна. Строчка. И у вас играет ритм. Хотите добавить хай-хэты?

// Бочка, снейр и хай-хэты
s("bd sd bd sd, hh*8")

Две строки - уже полноценная ритм-секция. А вот так звучит классический хаус-бит на драм-машине Roland TR-909:

sound("bd*4, [~ cp]*2, [~ hh]*4").bank("RolandTR909")

А вот басовая линия:

note("c2 e2 g2 a2").s("sawtooth").lpf(800)

Это note задает ноты, .s("sawtooth") выбирает пилообразную волну как тип синтезатора, а .lpf(800) - это фильтр низких частот на 800 герц. Если вам это ни о чём не говорит - не парьтесь, мне тоже поначалу не говорило. Суть в том, что за пару строк кода вы получаете живой, пульсирующий звук. И можете крутить его как угодно прямо на лету.

А самое крутое - из коробки доступны сотни семплов. Драм-машины 808 и 909, оркестровые инструменты, синтезаторы, фолк со всего мира. Не нужно ничего скачивать и подключать, просто пишешь название банка - и играешь. А если вдруг встроенных мало - можно подключить любой пак семплов с GitHub или загрузить прямо с компьютера. Так что ветераны Fruity Loops, ваши гигабайты семплов накопленные за годы - тоже пойдут в дело, не переживайте.

Сфера применения ограничена только фантазией. Можно медитативно вайбкодить вечерком, подбирая грувы. Можно встраивать в свои веб-приложения. Можно выступать вживую. Но у оригинального Штруделя были проблемы, которые мне не давали покоя...

❯ Почему Штрудель - это круто, но мне было мало

Окей, Strudel прекрасен. Я залипал в нём неделями, делал треки, встраивал в проекты, даже промптер для нейронки написал чтобы она генерировала мне паттерны. Но чем больше я им пользовался, тем больше замечал вещей которые меня раздражали.

Оригинальный Штрудель, он не всегда синий

Во-первых - всё на английском. Интерфейс, документация, туториалы, комментарии в примерах. И как бы не то чтобы это прямо проблема - понятно что можно перевести страничку в браузере. Но есть ведь ещё встроенный редактор, который подсказывает функции и автодополнения, и его вот уже гугл-транслейтом не возьмёшь. Так что было решено делать полную качественную локализацию - не просто перевод интерфейса, а именно всю экосистему: документацию, воркшоп, подсказки в редакторе.

Прикольно, но переводить все утомляет

Во-вторых - нет записи. Вот ты сидишь, накрутил крутой бит, он играет, ты доволен... а как его сохранить? Распечатать код на принтере и показать другу распечатку? Ну уж нет, не наш вариант. Нужна возможность записать трек в максимальном качестве и потом использовать. При желании можно создавать семплы прямо в Булке, записывать их и встраивать в новые треки - как будто перед паровозом строите рельсы. Но кнопки для этого в оригинале не было.

В-третьих - никакого ИИ-помощника. Strudel - это всё-таки про код. И если ты не разобрался в синтаксисе паттернов (а он местами бывает крайне нетривиальный) - ты один на один с документацией. Нельзя просто написать "хочу грустный эмбиент с реверберацией" и получить результат. А я как человек, который все последние годы живет в нейросетях, понимал что именно так это и должно рабортать.

В-четвертых - баги. Штрудель тоже делали энтузиасты, и они наэнтузиастили там немало косяков. Например Hydra - движок для визуализаций - была очень не полностью интегрирована. Из-за этого нельзя было включить на фон видео, или гифку, или ютуб-ролик. Я это починил, но об этом чуть позже.

И вот в какой-то момент я поймал себя на мысли: я же не просто хочу пользоваться Штруделем. Я хочу сделать его лучше. Для себя и для всех русскоязычных энтузиастов. С ИИ-агентом, с записью, с нормальной локализацией. Штрудель - это выпечка. Значит мой форк тоже будет выпечкой.

Так появилась Булка. 🍞

❯ Встречайте Bulka - что конкретно я поменял

Bulka - это форк Strudel с открытым исходным кодом. Всё бесплатно, код на GitHub. Я взял оригинал и начал его методично допиливать. Вот что получилось.

Полная русская локализация. И я имею ввиду реально полная. Не просто кнопочки в интерфейсе перевёл - это было бы слишком легко. Перевёл всю документацию. Весь интерактивный воркшоп - это пошаговый курс где вы прямо в браузере учитесь делать музыку, от первых звуков до сложных паттернов. Подсказки в редакторе кода, описания функций, примеры. Открываешь bulka.app/workshop/getting-started и перед тобой полноценная база знаний на русском. Там реально огромный объём материала - секции по семплам, синтезаторам, аудио-эффектам, MIDI, визуализациям... Всё переведено.

Запись в WAV. Одна кнопка - нажал, записал, скачал файл в максимальном качестве. Казалось бы мелочь, но именно она открывает кучу возможностей. Но об этом чуть позже, когда расскажу про свой любимый кейс с Suno.

Починил Hydra. Hydra - это движок для генеративных визуализаций, он встроен в редактор и позволяет создавать графику которая реагирует на вашу музыку в реальном времени. Осциллографы, спектроанализатор, пианоролл - это всё из коробки. Но в оригинале интеграция была кривая. Например нельзя было поставить видео на фон, или гифку, или ютуб-ролик. Я это починил. Теперь можно и видео, и гифки, и ютуб, и даже вебкамеру подключить. Не знаю зачем вам вебкамера на фоне лайвкодинга, но это весело и это работает.

Undo/Redo. Звучит банально, но в оригинале не было нормальной отмены действий. Теперь есть, с визуальной индикацией - видно сколько шагов можно откатить.

Такие мелочи, а жить стало гораздо приятнее

Регулировка громкости. Удобный слайдер прямо в интерфейсе. В оригинале громкость регулировалась только из кода. Знаете, когда ты в час ночи экспериментируешь с басом и он вдруг вжарит на полную - хочется иметь слайдер поближе.

Шеринг и лента. Поделиться треком можно одной ссылкой - скинул другу, он открыл и сразу слышит что ты нагородил. Без регистрации и скачивания. Плюс добавил ленту где собираются примеры - можно посмотреть что делают другие и вдохновиться.

Поддержка MIDI и OSC. Для тех кто понимает - Булку можно использовать как секвенсор в связке с железом и DAW. Подключаете свой синтезатор или драм-машину и управляете ими из кода.

Офлайн-режим. Булка работает как PWA - можно установить на рабочий стол и исполльзовать даже без интернета. Удобно если хочется покодить музыку в поезде или в самолёте.

И это я ещё не добрался до главной фичи - ИИ-агента. Но про него стоит рассказать отдельно.

❯ AI-Агент: пиши на русском - получай музыку

Вот мы и добрались до самого вкусного. Того, ради чего собственно и стоило огород городить.

Когда я только начинал думать про агента, у меня в голове была одна конкретная картинка. Представьте: вы сидите, музыка играет, и вы просто пишете в чат - "добавь бас", "теперь синты", "сделай переход поплавнее". И музыка бесшовно обновляется прямо во время воспроизведения. Вы не трогаете код руками вообще. Просто выстраиваете трек по кусочкам, как режиссёр который говорит актёрам что делать. В идеальном мире это было бы убийственной штукой для лайвкодинга с живым выступлением - ты буквально разговариваешь с музыкой, а она слушается.

И знаете что? Оно работает. Не идеально конечно, LLM-ки иногда тупят и ломают паттерн, но сам принцип - он рабочий. Я реально так делаю: запускаю базовый бит, потом через чат постепенно наращиваю слои, и это ощущается совершенно иначе чем ковырять код руками.

В Булку встроен полноценный ИИ-агент. Не просто чатик куда можно написать вопросик - а именно агент с инструментами. Он умеет читать ваш код, редактировать его, запускать и останавливать музыку, искать по документации Strudel и подсвечивать нужные фрагменты прямо в редакторе. Всё это через function calling - то есть модель сама решает какой инструмент вызвать и когда.

Как это выглядит на практике? Открываете вкладку Чат, пишете "сделай техно-бит 120 bpm с глубоким басом" и... агент сам пишет код, вставляет его в редактор и запускает воспроизведение. Вы слышите результат. Не нравится бас? Пишете "замени бас на что-нибудь поглубже и добавь реверб". Агент находит нужный фрагмент в коде, меняет его и перезапускает. Всё на русском, всё в реальном времени.

У агента есть 8 инструментов которыми он оперирует:

readCode - прочитать что сейчас написано в редакторе
setFullCode - заменить весь код целиком (когда пишет с нуля)
editCode - найти кусок кода и заменить на другой (когда правит)
appendCode - дописать что-то в конец
playMusic / stopMusic - запустить или остановить воспроизведение
searchDocs - поискать в документации Струделя нужную функцию или приём
highlightCode - подсветить конкретный фрагмент в редакторе, чтобы показать о чём он говорит

То есть это не просто "ответил текстом и разбирайся сам". Агент буквально работает с вашим проектом как напарник. Написал код - вставил. Нашёл ошибку - починил. Не знает какую функцию использовать - залез в документацию и нашёл.

Кстати, про ошибки. Булка умеет ловить ошибки кода и показывать кнопку "В чат" прямо на сообщении об ошибке. Нажали - ошибка улетела агенту, он её прочитал, понял что не так и исправил. Не нужно копировать стектрейс руками и объяснять в чем проблема. Одна кнопка - и он сам разберётся.

Ещё прикольная штука - можно выделить кусок кода в редакторе и отправить его агенту с комментарием. Типа "вот этот блок - сделай чтобы он звучал как 80-е". Агент получит именно выделенный фрагмент и будет работать с ним, а не со всем файлом.

Какие провайдеры поддерживаются?

Я специально сделал так чтобы было максимум выбора. Пять платных провайдеров:

OpenAI - GPT-5.2, GPT-5.1, GPT-5.1-Codex-Max и другие
Anthropic - Claude Opus 4.5, Claude Sonnet 4.5, Claude Haiku 4.5
Google Gemini - Gemini 3 Pro, Gemini 2.5 Flash, Gemini 2.5 Pro
Z.AI - модели GLM
OpenRouter - а это вообще агрегатор, через него доступны сотни моделей от разных провайдеров. Подключил один ключ - и выбирай из всего что есть на рынке

Списки моделей подгружаются динамически с API провайдеров. Вышла новая модель - она автоматически появится в списке, мне не нужно обновлять код. Для Claude и Gemini есть отображение extended thinking - прямо видно как модель рассуждает перед тем как дать ответ. Всё работает в режиме стриминга, токен за токеном, как вы привыкли в ChatGPT.

Для подключения нужен API-ключ соответствующего провайдера. Ключ хранится локально в вашем браузере (localStorage), на сервера Булки ничего не уходит. Код и сообщения отправляются напрямую провайдеру. Полная приватность, исходники открыты - можете сами убедиться.

И тут есть один нюанс. Раз всё выполняется локально в вашем браузере - то и все ограничения вашего интернет-провайдера тоже действуют. А это значит что до некоторых провайдеров LLM вы можете просто не достучаться из-за блокировок РКН. Если агент упорно не отвечает, а интернет вроде бы работает - вы знаете что делать. Три волшебные буквы, и провайдеры снова доступны.

Но я понимаю что не у всех есть API-ключи. И не все готовы за них платить чтобы просто потыкать. Именно поэтому я прикрутил кое-что ещё...

❯ А если нет API-ключа? GPT4Free спешит на помощь

Окей, я понимаю ситуацию. Вы прочитали предыдущий раздел, загорелись, открыли Булку, а потом увидели поле "API ключ" и такие - ну нафиг, я просто хотел потыкать. Знакомо. Именно поэтому я прикрутил в Булку GPT4Free - опенсорсный проект который даёт бесплатный доступ к разным языковым моделям. Без ключей. Без регистрации. Без оплаты. Открыл - и поехал.

Настройка занимает секунд десять. Открываете вкладку Чат, жмёте шестерёнку в настройках, выбираете провайдер GPT4Free, выбираете модель и провайдера из списка - готово, можно писать. Список моделей подгружается автоматически.

Но давайте я буду честен - бесплатный сыр имеет свои особенности. GPT4Free работает не так как платные провайдеры. Главное отличие - модели через GPT4Free не поддерживают function calling. Это значит что агент не может напрямую вызывать свои инструменты. Вместо этого я реализовал симуляцию через текстовые маркеры - модель генерирует текст со специальными метками типа [PLAY] и [STOP], Булка их парсит и выполняет соотвтествующие действия.

Что работает:

Генерация музыкального кода - пишете "сделай драм-н-бейс" и получаете код
Код из ответа автоматически вставляется в редактор
Запуск и остановка музыки через маркеры
Объяснение кода и помощь с синтаксисом Strudel
Если в ответе есть код но нет маркеров - музыка запустится автоматически

Что не работает:

Поиск по документации Strudel
Просмотр примеров кода
Подсветка фрагментов в редакторе

То есть базовый флоу "написал запрос - получил код - музыка заиграла" работает. Но всякие продвинутые штуки типа "найди в доке как сделать арпеджио" - увы нет. Для этого нужен полноценный агент с API-ключом.

И ещё - бесплатные провайдеры бывают капризные. Некоторые могут вставлять рекламу в ответы. Скорость ответа зависит от нагрузки на провайдера и иногда приходится подождать. Какие-то провайдеры могут временно не работать. Если один не отвечает - просто попробуйте другой, их там много. Ну и лимиты на количество запросов тоже бывают. Короче, для экспериментов и знакомства с Булкой - отлично. Для серьёзной работы - лучше взять нормальный ключ.

А где взять API-ключи если решили?

Тут на самом деле всё просто:

Google Gemini - aistudio.google.com/apikey. У гугла есть бесплатный тир, так что можно получить ключ и пользоваться не заплатив ни копейки. Для старта - самый простой вариант.
Anthropic - console.anthropic.com. Claude Sonnet 4.5 отлично справляется с генерацией музыки, плюс у него есть extended thinking.
OpenAI - platform.openai.com/api-keys. Ну тут всё понятно, GPT классика жанра.
Z.AI - z.ai. Модели GLM, китайский провайдер.
OpenRouter - если не хотите заводить ключи у каждого провайдера по отдельности, OpenRouter даёт доступ к сотням моделей через один аккаунт. Один ключ - и выбирайте из всего что есть на рынке. Удобно.

Разница между GPT4Free и платным режимом если совсем коротко: платный агент ищет по документации, сам правит код точечно, подсвечивает фрагменты, стабильно и быстро работает. Бесплатный - генерирует код и вставляет его, запускает музыку, но без продвинутых инструментов и с переменной стабильностью. Для максимального кайфа я бы рекомендовал взять ключ от Gemini (бесплатно же) или Anthropic - Claude реально хорошо пишет музыкальный код. Но начать с GPT4Free чтобы пощупать - милое дело, для этого он и сделан.

❯ Мой любимый кейс: Bulka + Suno = полноценные треки

Ладно, тут я хочу рассказать про штуку которая лично меня прёт больше всего. Это не фича Булки как таковая, это скорее воркфлоу который я для себя нашёл и теперь использую постоянно.

Смотрите в чём фишка. Булка создаёт программную, алгоритмическую музыку. Это значит что вы контролируете каждую ноту, каждый паттерн, каждый ритмический рисунок. Звучит это как синтезатор - чистый электронный звук. Круто, но до продакшн-качества далековато. А Suno (и подобные нейросети) наоборот - генерирует трек целиком, с вокалом, с аранжировкой, звучит как студийная запись. Но проблема в том что ты почти не контролируешь результат. Написал промпт "сделай грустный лоу-фай" и молишься чтобы повезло с мелодией. Иногда везёт, иногда получается каша.

И вот я подумал - а что если объединить?

Делаю так. Сажусь в Булку, накидываю мелодию которая мне нравится. Подбираю ноты, темп, может быть басовую линию отдельно прописываю. Трачу минут 15-20, но зато точно знаю что мелодия - огонь, потому что я её слышу в реальном времени и подкручиваю пока не зазвучит как надо. Потом жму кнопку записи, скачиваю WAV. Одна кнопка, помните?

А дальше беру этот WAV и скармливаю в Suno как референс. И вот тут начинается магия. Suno берёт мою мелодию как основу и достраивает вокруг неё полноценный трек - с живыми инструментами, с вокалом если нужно, с продакшном. Но мелодическая основа - моя. Та которую я сам выстроил нота за нотой.

Результат получается на порядок лучше чем если генерить в Suno с нуля. Трек не рваный, мелодия осмысленная, потому что я её контролировал. А Suno добавляет то чего Булка дать не может - живое звучание, аранжировку, глубину.

По сути Булка тут работает как инструмент точной настройки. Ты выстраиваешь скелет трека - ритм, мелодию, басовую линию. А нейросеть натягивает на этот скелет мясо. И это реально мощная связка, потому что ты получаешь и контроль, и качество одноврменно. Чего по отдельности ни один из этих инструментов не даёт.

Кстати, можно и наоброт. Сгенерировать в Suno что-то интересное, вытащить оттуда мелодию на слух, записать её в Булке как паттерн и дальше развивать уже программно. Или взять семпл из Булки и закинуть его не в Suno, а в любую другую нейросеть для музыки, или в DAW типа Ableton - WAV он и в Африке WAV.

❯ Для кого это и что ещё можно делать с Булкой

Может показаться что Булка - это какая-то супер-нишевая штука для гиков которые одновременно и программисты и музыканты. Не-а. Давайте разложу.

Если вы музыкант - это новый инструмент в вашем арсенале. Паттерны в Strudel позволяют создавать ритмические структуры которые руками на миди-клавиатуре хрен набъёшь. Полиритмия, евклидовы ритмы, рандомизация с сидом - код даёт точность и контроль которых у классических DAW просто нет. Плюс MIDI и OSC поддержка - Булка может управлять вашим железным синтезатором напрямую. А если выступаете вживую - с агентом можно буквально разговаривать с музыкой на сцене, направляя трек текстом в реальном времени.

Если вы программист - музыка как ещё одна область для творчества. Язык паттернов реально элегантный - функциональное программирование в чистом виде. Цепочки трансформаций, композиция функций, ленивые вычисления. Если вы фанат Haskell или Clojure - вам тут понравится. Ну и пакеты на npm под неймспейсом strudel - можно встроить движок в свой сайт, в игру, в интерактивную инсталляцию. Я собственно с этого и начинал, когда делал процедурно-генерируемую игру.

Если вы вообще не программист и не музыкант - вот тут как раз и пригождается агент. Просто пишете на русском что хотите услышать. "Сделай бит как в 90-х", "хочу что-нибудь грустное на пианино", "драм-н-бейс с тяжёлым басом". Агент напишет код за вас. Вам вообще не надо разбираться ни в музыке ни в программировании. А если захотите - есть полностью русский воркшоп который проведёт от первого звука до сложных композиций.

Если вы стример или контент-мейкер - тут сразу пачка применений. Hydra визуализации - это генеративная графика которая пульсирует и меняет цвета в такт вашей музыке. Включаете на втором мониторе, захватываете в OBS - готовый анимированный фон для стрима который никогда не повторяется. Бесплатно, без After Effects. Плюс уникальные семплы для роликов и музыкальные подложки записанные в WAV - никаких проблем с авторскими правами на сгенерированый код.

Если вы геймдев, подкастер или просто нужны звуки - из коробки доступны сотни семплов: драм-машины 808/909, оркестровые инструменты, синтезаторы, фолк со всего мира. Комбинируете их как угодно, накладываете эффекты, записываете в WAV - и получаете уникальные звуки для своих проектов. Нужен необычный эффект для игры? Подложка под подкаст? Джингл для ролика? Накрутил в Булке за пять минут, записал, вставил. Причём звуки получаются уникальные, потому что вы их буквально програмируете.

Если вы преподаватель - Булка это готовая платформа для обучения основам программирования через музыку. На русском. В браузере. С мгновенной обратной связью. Ученик написал s("bd sd") и сразу услышал бочку и снейр. Попробуйте объяснить ребёнку циклы через for(i=0; i<10; i++) а потом через "bd*8" где бочка повторяется 8 раз - и скажите мне что сработало лучше. Звук как обратная связь - это совершенно другой уровень вовлечения.

Или если вам просто скучно вечером - откройте bulka.app, выберите GPT4Free чтобы не париться с ключами, напишите "удиви меня" и посмотрите что получится. Или попросите агента "сделай что-нибудь расслабляющее в стиле эмбиент" - откиньтесь в кресле и залипните на полчаса под генеративную музыку с визуализациями. Знаете, иногда после рабочего дня это именно то что нужно. Терапевтичнее любого плейлиста в спотифае, потому что ты сам это создал. Ну или агент создал. Но по твоей просьбе, так что считается. Пять минут. Бесплатно. В худшем случае потеряете пять минут, в лучшем - найдёте новое хобби. Я вот нашёл, и оно меня до сих пор не отпускает.

❯ Поддержите проект!

Булка - полностью бесплатная и опенсорс. Я не беру денег, не показываю рекламу, не собираю ваши данные и ничего из этого не планирую. Код открыт, лицензия GNU AGPL v3.0 - берите, форкайте, контрибьютьте если хотите. Мне просто кайфово делать штуку которая приносит людям радость.

Но есть одна вещь где каждый может помочь!

Мы сейчас на Product Radar и очень хотим забрать звание "Продукт недели". Каждый голос на счету - буквально каждый, ведь кто ещё поддержит отечественный опен сорс. Проголосовать можно за минуту:

Заходите на productradar.ru
Находите Bulka.app в списке проектов
Жмёте стрелочку вверх справа от названия чтобы она стала синей
Авторизуетесь через Google или Яндекс в один клик
После авторизации ещё раз нажимаете на стрелочку вверх - готово

Пять кликов. Мне будет очень приятно, а вам ничего не стоит.

Ну и если Булка вам зашла:

Поставьте звёздочку на GitHub - это бесплатно а мне греет душу
Попробуйте bulka.app прямо сейчас - серьёзно, прям щас откройте в соседней вкладке
Пройдите воркшоп если хотите разобраться
Почитайте документацию по агенту если хотите подключить ИИ
Заходите в телеграм-сообщество - там можно задать вопрос, показать свой трек или просто потусить

А если вы разработчик и вам понрваилась идея - приходите контрибьютить, код открытый, задачи есть. Или просто напишите мне, может нам по пути.

Я делаю обзоры на всякие штуки и рассказываю о нейросетях у себя на YouTube, в телеграме и на Бусти. А ещё заглядывайте на стримы каждую пятницу в 19:00 - там я как раз вайбкожу в Булке в прямом эфире. Буду рад вашей подписке и поддержке. Всех обнял и удачных генераций.

Показать полностью 11 5

[моё] Музыка Создание музыки Программирование Нейронные сети Искусственный интеллект Open Source Javascript Генерация музыки Бесплатно Синтезатор Хобби Видео Видео ВК Короткие видео Длиннопост

Nerual.Dreming

ChatGPT

Как думает ChatGPT: наглядный разбор⁠⁠

17 дней назад

Нашли сайт, который показывает работу GPT «под капотом». По сути, это визуальный путь от вашего промпта до каждого токена в ответе нейросети.

Каждый этап можно настроить и увидеть, как меняется логика ИИ в реальном времени.

Проект полностью бесплатный и опенсорсный.

Залипалка на вечер воскресенья найдена

Источник — 🎯 НЕЙРО-ПУШКА

Показать полностью

Контент нейросетей Искусственный интеллект Нейронные сети Программирование ChatGPT Видео Без звука Короткие видео Telegram (ссылка)

Nerual.Dreming

Stable Diffusion & Flux

Реалистичные красотки из нулевых — ZImage LoRA⁠⁠

17 дней назад

1/6

Название модели: NiceGirls UltraReal
Ссылка на модель: https://civitai.com/models/1862761?modelVersionId=2683561
Тип модели: LoRA
Количество скачиваний: 1K+
Дата загрузки: 12 февраля
Базовая модель: ZImageBase

Описание модели/Комментарий разработчика:

LoRA для генерации ультрареалистичных изображений девушек. Есть версии для Flux.2 Klein 9B-base, ZImageBase, ZImageTurbo, Chroma, Qwen
Доступны отдельные версии для азиатских и европейских типажей.
⚙️ Рекомендуемые параметры:
— Steps: 20 (стабильность), 40 (макс. детализация)
— Вес (Chroma / Qwen): 0.6–0.8
— Дополнительно: совместима с lenovo lora для усиления детализации
Рабочие процессы для каждой версии — в описании автора на CivitAI.

Больше моделей в источнике —🤖 НЕЙРО-СКЛАД

Показать полностью 6

Контент нейросетей Нейронные сети Искусственный интеллект Красота Telegram (ссылка)

Nerual.Dreming

ChatGPT

Grok 4.20 с четырьмя агентами, ИИ-двойники от Pika, векторный Recraft V4 и отмена Gucci из-за нейроартов⁠⁠

19 дней назад

TL;DR Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. Каждую неделю мы с командой осматриваем сотни новостей и делимся с вами самыми актуальными и интересными со ссылками на источники. Всё самое важное — в одном месте. Поехали!

Неделя выдалась насыщенной: обновлённый Grok 4.20 с агентами, релизы мощных LLM от Google и Anthropic, генеративные модели для картинок и видео из Китая. Пока Gucci отменяют из-за ИИ-артов, OpenClaw удалил всю почту директора по ИИ-безопасности в Meta*.

Всё самое важное — в одном месте. Поехали!

📋 В этом выпуске:

🧠 Модели и LLM

Grok 4.20 в бете с командой из четырёх ИИ-агентов
Claude Sonnet 4.6: 1М токенов и уровень Opus
Gemini 3.1 Pro — Google опять в топе
Mercury 2 — самая быстрая диффузионная LLM

🎨 Генеративные нейросети

Reve v1.5: фотореализм и 4K-качество
Recraft V4 с векторной графикой для дизайнеров

🔧 AI-инструменты и платформы

Pencil — ИИ-Figma прямо в вашей IDE
Perplexity: у нас есть OpenClaw дома
Удалённый контроль с телефона в Claude Code
Чёрное зеркало: технология ИИ-двойников от Pika

🧩 AI в обществе и исследованиях

OpenClaw удалил почту директора по ИИ-безопасности Meta*
Xbox случайно заспамил игроков ИИ-уведомлениями
Отмена Gucci за использование нейроартов
Мем: Сэм Альтман и Дарио Амодеи отказались держаться за руки

* признана экстремистской и запрещена в РФ

🧠Модели и LLM

❯ Grok 4.20 в бете с командой из четырёх ИИ-агентов

Компания xAI выкатила в открытую бету Grok 4.20 — новую версию своей модели с мультиагентной архитектурой. Теперь один запрос пользователя параллельно обрабатывают четыре независимых ИИ-агента. Новинка уже доступна в чат-боте на десктопе и в мобильном приложении.

У каждого агента в команде своя роль:

Харпер ищет данные в сети,
Бенджамин проверяет факты,
Лукас отвечает за логику, а главный алгоритм
Grok координирует их работу и собирает финальный ответ.

В процессе генерации агенты могут обмениваться информацией и проверять друг друга.

Модель принимает на вход текст, изображения и видео, а её контекстное окно вмещает 256 тысяч токенов.

Попробовать Grok 4.20 можно бесплатно, по лимитам — примерно 8 запросов за 5 часов.

Подобный мультиагентный подход ранее был доступен только в дорогих моделях по типу Grok 4 Heavy и цене от $200. Теперь полная версия Grok 4.20, вероятно, войдёт в подписку за $30. Похожие системы есть у GPT-5.2 Pro и Gemini 3 Deep Think, — но xAI первыми сделали её массовой.

🔗 Попробовать Grok

❯ Claude Sonnet 4.6: миллион токенов и уровень Opus

Anthropic выпустила Claude Sonnet 4.6. Модель вплотную приблизилась к флагманской Opus 4.6, при этом она на 40% дешевле и уже доступна всем, включая бесплатный тариф.

Главная фишка — «компьютерное зрение» и управление. Модель работает с интерфейсами программ как человек: сама кликает мышкой, заполняет веб-формы и переключается между вкладками. Можно поручить сложные офисные задачи в Chrome или Excel.

Что ещё нового:

Контекстное окно до 1 млн токенов. Позволяет анализировать огромные объёмы данных, например, всю кодовую базу проекта.
Улучшенная работа с кодом. Модель стала более последовательной, реже ленится и лучше справляется с рефакторингом. В ряде бенчей обгоняет Opus 4.5.
Высокая интеллектуальная честность. В тесте Bullshit Benchmark модель показала лучший результат в 94,5%, отказываясь поддерживать бессмысленные или абсурдные запросы.

Sonnet 4.6 уже интегрирована в Perplexity и стала моделью по умолчанию в Claude Code, Cowork и на сайте claude.ai.

🔗 Официальный анонс 🔗 Попробовать в Claude

❯ Gemini 3.1 Pro — Google опять в топе

Google обновили Gemini 3.1 Pro: исправили галлюцинации и нерабочий веб-поиск. Модель значительно прибавила в кодинге, логике и агентных задачах, по ряду тестов обходит GPT-5.2 и Claude Opus 4.6.

Главный прорыв в логике: на бенчмарке ARC-AGI-2, где нужно находить новые закономерности, модель набрала 77,1%, это в два раза больше, чем у Gemini 3 Pro с 31,1%.

Поиск тоже прокачали: в тесте BrowseComp, где имитируется сложный поиск информации, Gemini 3.1 Pro показала 85,9%, обойдя Opus 4.6 с 84,0%.

Ещё 3.1 Pro с одного промпта генерирует анимированные SVG, создаёт 3D-визуализации и пишет готовые рабочие приложения.

Gemini 3.1 Pro уже доступна бесплатно в приложении Gemini и в AI Studio.

🔗 Блогпост 🔗 AI Studio

❯ Mercury 2: самая быстрая ризонинг LLM

Стартап Inception представил Mercury 2 — самую быструю на сегодня reasoning-модель.

У неё диффузионная архитектура: текст генерируется не токен за токеном, а целиком. Mercury 2 сходу набрасывает ответ из шума, постепенно уточняя его.

Из-за этого у неё бешеная скорость в 1009 токенов в секунду на NVIDIA Blackwell, что в 5–7 раз быстрее аналогов вроде Claude Haiku 4.5. По качеству модель сопоставима с GPT-5 mini.

Такая скорость критически важна для задач, где задержка ломает весь процесс:

Автодополнение кода и рефакторинг в реальном времени
Работа ИИ-агентов, которые могут совершать больше итераций для планирования и проверки
Голосовые ассистенты, где важна естественность разговора
Поисковые системы и RAG-пайплайны

Модель уже можно бесплатно потестить в чате.

🔗 Попробовать Mercury 2 🔗 Технический блогпост

🎨 Генеративные нейросети

❯ Обновление Reve v1.5: фотореализм и 4K-качество

После почти года затишья генератор изображений Reve обновился до версии v1.5 и сразу занял третье место в рейтинге AI Arena, уступив лишь Nano Banana Pro и GPT Image 1.5.

Прокачали качество и детализацию. Картинки в нативном 4K, используя рендеринг в пиксельном пространстве, что позволяет избежать потери четкости. Лучше мелкие текстуры, сложные сцены и светопередача. Корректно работает с текстом, в том числе на кириллице.

Есть точечное редактирование, можно выделить объект и изменить его отдельным промптом.

🔗 Попробовать Reve v1.5 🔗 Официальный анонс

❯ Recraft V4: генератор векторных картинок

Вышла Recraft V4 — модель для генерации изображений, которая умеет в редактируемый SVG-вектор. Доступна в двух версиях: V4 для быстрых эскизов до 10 секунд и V4 Pro для детализированных изображений высокого разрешения, готовых к печати.

Recraft V4 создаёт довольно чистые SVG-файлы со слоями, которые можно редактировать в Figma или Adobe Illustrator. Идеально для создания логотипов, иконок и сложной типографики.

Попробовать Recraft V4 можно бесплатно, сейчас дают 50 кредитов в день. Также доступно API через партнёров.

🔗 Официальный анонс 🔗 Попробовать Recraft V4

❯ Seedream 5.0 Lite: генерация с веб-поиском

ByteDance расширили линейку и выпустили облегчённую Seedream 5.0 Lite. Главный упор сделан на стабильность генераций и точное следование промпту благодаря встроенному поиску в интернете.

Идеально подходит для создания серий изображений, где нужно сохранить персонажа консистентным или выдержать единый стиль — например, для рекламных кампаний или брендированных материалов.

Стоимость по API — $0.035 за изображение, дешевле предыдущей версии. Новым пользователям дают бесплатный тестовый период.

🔗 Попробовать Seedream 5.0 Lite 🔗 Официальный анонс

🔧 AI-инструменты и платформы

❯ Pencil — ИИ-Figma, которая дизайнит за вас

Появился Pencil — ИИ-агент, который генерирует UI-дизайн прямо внутри IDE, такой как VS Code или Cursor.

Вместо статичных макетов он создаёт сразу готовый фронтенд на HTML, CSS или React, который хранится в вашем Git-репозитории. Есть импорт из Figma с переносом всех векторов и экспорт в PDF.

Недавно в Pencil добавили SWARM Mode: теперь несколько ИИ-агентов могут одновременно работать над разными экранами вашего проекта, что значительно ускоряет процесс: пока один агент рисует лендинг, второй набрасывает дашборд.

Pencil не привязан к одной нейронке — он работает с Claude Code, Copilot и Gemini-инструментами как единый дизайн-слой. Есть так же версии для Mac и Linux.

Pencil быстро набрал 100 тысяч пользователей за пять месяцев. Пока идёт ранний доступ, пользоваться можно бесплатно.

🔗 Попробовать Pencil

❯ Perplexity Computer — у нас есть OpenClaw дома

Perplexity выпустили Perplexity Computer — свой OpenClaw. Даёте одну большую цель, а система сама разобьёт её на подзадачи и назначит разным агентам.

Perplexity Computer мультимодельная — то есть сама решает, какому ИИ поручить ту или иную работу: для глубокого анализа данных может задействовать Gemini, для работы с большим контекстом — Claude Opus, а для быстрых задач — Grok. Всего на выбор 19 моделей.

Агенты работают параллельно: один собирает данные, второй пишет отчёт, третий обращается к API подключённых сервисов, таких как Gmail, Notion или Canva.

Perplexity Computer работает в изолированной песочнице, что исключает случайное удаление данных или другие сбои.

Пока что функция доступна только подписчикам тарифа Perplexity Max.

🔗 Официальный анонс 🔗 Perplexity Computer

❯ Удалённое управление прямо с телефона в Claude Code

В Claude Code появилась функция удалённого управления. Теперь можно запустить сложную задачу на рабочем компьютере, а затем контролировать её выполнение с телефона — например, по дороге на встречу или во время прогулки.

Работает это просто:

Запускаете сессию на ПК командой claude remote-control
Сканируете QR-код через мобильное приложение Claude
Получаете полный контроль над процессом

С телефона можно дописывать промпты, одобрять изменения в файлах, прерывать выполнение команд и отслеживать статус. В отличие от неофициальных решений, это нативная и безопасная функция с end-to-end шифрованием.

Пока что фича доступна в режиме Research Preview для подписчиков тарифа Max, но скоро её обещают добавить и для Pro-пользователей.

🔗 Документация

❯ Чёрное зеркало: технология ИИ-двойников от Pika

Pika Labs анонсировали AI Selves — сервис для создания автономных цифровых копий. То есть полноценных двойников с вашим голосом, характером и долгосрочной памятью.

Чтобы «родить» клона, достаточно загрузить селфи, записать аудио и пройти короткий тест на личность.

После ИИ-двойника можно подключить к Telegram, WhatsApp, Slack и другим мессенджерам. Он сам будет отвечать коллегам, вести соцсети, звонить людям и даже зарабатывать на рекламе от вашего имени.

Все права на сгенерированный контент остаются у вас, а ваши данные не идут на обучение чужих моделей.

Из ограничений: клонам запретили давать медицинские, финансовые и юридические советы, а на весь визуал вешается водяной знак.

Пока сервис находится в закрытом доступе. На этапе ранней беты все функции будут бесплатными.

🔗 Лист ожидания Pika

🧩 AI в обществе и исследованиях

❯ ИИ снёс почту директора по безопасности Meta*

Саммер Юэ отвечает за безопасность ИИ в Meta*. Она поручила агенту OpenClaw разобрать свой личный Gmail.

По сути, бот должен был только предложить, что отправить в корзину, но в итоге начал удалять все письма подчистую.

Всё из-за переполнение контекста. Ящик оказался огромным, и при саммари контекста алгоритм просто забыл стартовую инструкцию ждать аппрува.

На отчаянные команды остановиться в Telegram бот не реагировал. Девушке пришлось бежать к Mac mini и убивать процессы через диспетчер задач. Итог: минус 200 писем.

После перезапуска агент извинился и сам прописал себе правило больше не заниматься автономной чисткой.

Иронично, что жертвой стала именно глава отдела по контролю над нейросетями. Сама девушка сказала, что совершила ошибку новичка, дав агенту слишком много доступа.

* признана в РФ экстремистской и запрещена

🔗 Тред Саммер Юэ в X

❯ Xbox заспамил игроков тестовыми пушами от ИИ

Разрабы случайно завалили игроков десятками уведомлений:

«Это тестовое сообщение, отправленное через Braze...»

Braze — это ИИ-платформа, которая доставляет пользователям целевые и персонализированные уведомления.

В Microsoft уже извинились и устранили проблему. По их словам, приложение «слишком воодушевилось» тестовыми сообщениями.

🔗 Источник

❯ Gucci отменяют из-за сгенерированной нейросетью рекламы

В Gucci получили волну хейта за анонс своего показа на Неделе моды в Милане. Компания выложила в X ИИ-арты, честно предупредив об использовании нейросетей, но от гнева аудитории это не спасло.

В комментариях бренд сравнивают с масс-маркетом и обвиняют в «убийстве наследия». Репост с фразой «любой люкс, использующий ИИ-слоп, перестаёт быть люксом» собрал 60 тысяч лайков — это в сто раз больше, чем у оригинальной публикации Gucci.

В 2025 году выручка Gucci рухнула на 22%, показав худший результат среди всех брендов группы Kering. Эксперты считают замену живых фотографов на алгоритмы намеренной «культурной провокацией» ради привлечения внимания перед показом.

Если целью был хайп, то план сработал, вот только восстановить репутацию теперь будет сложно.

🔗 Оригинальный пост Gucci

❯ Мем дня: Сэм Альтман и Дарио Амодеи отказались держаться за руки

На саммите India AI Impact в Нью-Дели произошёл неловкий момент: главы OpenAI Сэм Альтман и Anthropic Дарио Амодеи отказались взяться за руки для общего фото.

Премьер Индии Нарендра Моди предложил лидерам ИИ-индустрии продемонстрировать солидарность. И пока Сундар Пичаи, Демис Хассабис и сам Моди держались за руки, Альтман и Амодеи демонстративно подняли их вверх, так и не прикоснувшись друг к другу.

Причина — конфликт в публичном поле. Недавно Anthropic выпустила серию роликов, высмеивающих планы OpenAI добавить рекламу в ChatGPT, и подчеркнула, что в Claude её не будет.

Саммит запомнился и другими событиями: Билл Гейтс отменил выступление из-за публикации новых документов по делу Эпштейна, а Дженсен Хуанг не приехал из-за болезни. Тем временем Эммануэль Макрон заявил, что ЕС продолжит формировать свои «правила игры» в сфере ИИ.

❯ Тема недели: релиз Pokémon Red и Green

27 февраля 1996 года мир узнал, что карманные монстры могут быть круче реальных домашних животных. Релиз Pokémon на Game Boy доказал: социальный капитал и обмен данными значат больше, чем терафлопсы графики.

Сегодня этот культурный код коллекционирования и эволюции идеально ложится на ландшафт ИИ. Мы больше не ищем Пикачу в высокой траве — мы ищем идеальные промпты.

Символично, что спустя 30 лет наша главная задача осталась прежней: собрать идеальную команду, теперь уже ИИ-агентов. Обучить их и заставить эффективно взаимодействовать в одной связке. Похоже, профессор Оук был первым промпт-инженером в истории.

❯ Аудиоверсия дайджеста

❯ Заключение

На этой неделе громче всего обсуждали новые LLM: Google, Anthropic и xAI выкатили мощные апдейты Gemini, Claude и Grok. Тем временем релизнулись хорошие генеративки из Китая — Recraft и Reve.

Мы движемся от чат-помощников к автономным исполнителям. ИИ-двойники готовятся вести наши соцсети и общаться за нас, умные агенты случайно сносят рабочие почты топ-менеджерам, а нейросети провоцируют скандалы вокруг люксовых брендов вроде Gucci.

А я рассказываю о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке.

Показать полностью 11 6

[моё] Контент нейросетей Искусственный интеллект Нейронные сети Нейросеть Grok Xai Покемоны Дайджест Perplexity Claude Видео Видео ВК Короткие видео Длиннопост

Отличная работа, все прочитано!

1 2 3 4 5 6 7 8 9 10 11 20 30 40 50