Удаление SynthID от Google с изображений в стиле pixel art
Что такое SynthID:
SynthID встраивает цифровые водяные знаки непосредственно в изображения, аудио, текст или видео, созданные искусственным интеллектом. Водяные знаки встраиваются во все потребительские продукты Google на основе генеративного искусственного интеллекта и незаметны для человека, но могут быть обнаружены с помощью технологии SynthID.
Для начала пишем промт для создания изображения в стиле pixel art при помощи Nano Banana Pro (Gemini-3-Pro-image):
Кактус в глиняном горшке, пиксельный, низкое разрешение, квадратные пиксели, ретро-видеоигровой, ограниченная цветовая палитра, плоские цвета без градиентов, чёткие контуры, минималистичное моделирование форм, отсутствие теней и объёма, стилизованная текстура, вид, характерный для 16-битных игр, сглаживание отсутствует, контрастные акценты, упрощённая анатомия, без текстовых подписей, чистый белый фон, 2D.
У нас получилось такое изображение:
Дальше мы скачиваем unfake.js (https://github.com/jenissimo/unfake.js). Из-за строгих правил безопасности современных браузеров мы не можем просто открыть "index.html" и использовать этот инструмент и поэтому нам нужно скачать Visual Studio Code (https://code.visualstudio.com/Download), чтобы с его помощью запустить локальный веб-сервер.
После его скачивания мы переходим в меню для управления расширениями:
Тут нам нужно скачать расширение под названием "Live Server" от Ritwick Dey:
Затем мы внутри Visual Studio Code открываем папку "browser-tool" и выбираем файл "index.html". Находясь в этом файле, нажимаем в любом его месте правой кнопкой мыши и выбираем "Open with Live Server":
У нас открылась страница в браузере в которую мы переходим.
Теперь мы в меню программы unfake.js, и нам нужно добавить наше изображение в поле для оригинала, выбрав его или же перетащив.
Мы его добавляем, нажимаем "Process" и ждём результата:
В итоге у нас есть готовое изображение без SynthID:
Теперь мы можем проверить наличие SynthID в чате с Gemini, где у модели есть возможность вызова инструмента для обнаружения SynthID на изображении.
Пишем запрос в чат и получаем ответ:
Найди SynthID
Результат до обработки:
Результат после обработки:
На этом всё!
Вышла новая модель для генерации и редактирования изображений Qwen-Image-2.0
Представили новую модель генерации изображений Qwen-Image-2.0 объединяющую два предыдущих направления "генерации" (точный текст, детализация) и "редактирования" (одно/много-изображений, согласованность).
Она поддерживает профессиональную типографику, генерируя инфографику (PPT, постеры) по сложным инструкциям (до 1к токенов). У неё высокое качество и детализация, обеспечивающие нативную поддержку 2K разрешения для фотореалистичных сцен. Точное отображение текста в ней получается благодаря объединению генерации и редактирования в одной модели, а эффективная архитектура обеспечивает ей меньший размер и высокую скорость работы.
Среди сильных сторон модели можно выделить точность чёткого следования сложным инструкциям и создания презентаций, а также способность обработки объёмных промтов для детальной инфографики. Кроме того, она поддерживает красивую эстетичную компоновку текста и изображений (календари, стихи), обеспечивает реализм фотореалистичного наложения текста на разные поверхности (доски, одежду) и структурированность благодаря аккуратному выравниванию элементов (комиксы, схемы).
Благодаря универсальной архитектуре во много раз улучшилось редактирование, связанное с наложением текста на изображения и фотореалистичной правкой (совмещение людей, изменение стиля).
В результате тестов на сайте AI Arena (раньше сайт назывался LM Arena) в разделе генерации по тексту она заняла 3-е место (Elo 1029), а по редактированию изображений она получила 2-е место (Elo 1034).
Вышла новая модель для генерации и редактирования изображений Z-Image
Появилась открытая модель с эффективной однопоточной архитектурой диффузионного трансформера (S3-DiT) под названием Z-Image (https://huggingface.co/Tongyi-MAI/Z-Image). Она была создана для решения проблемы того, что современные мощные модели генерации изображений либо проприетарные, либо слишком большие (20B-80B параметров), что делает их дорогими в обучении и использовании.
Эффективность ей обеспечивает наличие всего 6 миллиардов параметров, а при её создании полный цикл обучения имел низкую стоимость, потребовав 314K GPU-часов на H800 (~$630K). Такие результаты им дало использование оптимизированного пайплайна и системной оптимизации всего жизненного цикла, начиная от курирования данных до стратегии обучения, благодаря чему по качеству она сопоставима или превосходит топовые модели в фотореалистичности и рендеринге двуязычного текста (англ./кит.).
Также были созданы производные модели. Одной из них стала Z-Image-Turbo, которая является ускоренной версией для вывода за 8 шагов, генерируя результат менее чем за секунду на H800 и работая на потребительском GPU (<16GB VRAM). Другой моделью стала Z-Image-Edit, предназначенная для точного редактирования изображений по инструкции.
В отличие от Z-Image-Turbo модель Z-Image поддерживает CFG, негативные промты и возможность дообучения, требуя для работы от 28 до 50 шагов и обеспечивая высокое разнообразие при высоком визуальном качестве. В свою очередь Z-Image-Turbo работает без поддержки CFG, негативных промтов и дообучения, но за счёт применения RL (обучения с подкреплением) она выдаёт очень высокое визуальное качество всего за 8 шагов, хотя и обладает низким уровнем разнообразия.
Стеганографический шум на изображении
Посмотрите на это изображение:
На первый взгляд, с ним всё нормально, но на самом деле всё оно покрыто невидимым для глаз стеганографическим шумом.
Что же это такое?
Наверное, абсолютно все вы видели всевозможные водяные знаки, которые добавляют на изображения. Они видны всем и портят качество изображения своим присутствием:
В свою очередь стеганографический шум, хоть и не заметен для человеческого глаза, может быть найден специальной программой.
Можно считать стеганографический шум более продвинутой версией вотермарки.
Стеганография изображений нужна для сокрытия данных внутри графических файлов, чтобы скрыть сам факт наличия информации, не меняя внешний вид картинки.
Так вот, в данном случае тут используется искусственный шум, намеренно добавленный в цифровое изображение. Он имитирует естественный шум и позволяет выявить использование созданного вами изображения, минимально изменяя данные пикселей.
В отличие от естественного шума, представляющего собой случайные искажения яркости/цвета пикселей и ухудшающего качество, вызванный физикой сенсора, высоким ISO, длительной выдержкой и температурой.
Чтобы обнаружить добавленный стеганографический шум, используют анализ аномалий в шумовом паттерне, поскольку у оригинала шум однороден, а после редактирования он нарушается. Для решения этой задачи применяют такие методы, как анализ энтропии шума и использование ИИ, например сверточных нейросетей, для поиска статистических несоответствий.
Теперь как же добавить стенографический шум на любое изображение? Для примера я возьму OpenStego (https://github.com/syvaidya/openstego/releases).
Для демонстрации беру оригинальную фотографию:
Вначале я должен сгенерировать файл подписи.
В качестве подписи я решил использовать этот текст:
Vse taynoe stanovitsya yavnym
Дальше я добавляю стеганографический шум на оригинальное изображение, выбирая его и файл подписи:
И всё, невидимая подпись добавлена.
Мы можем проверить проверить наличие шума до и после.
До обработки процент обнаружения нашей подписи равен нулю:
А после добавления невидимой подписи у нас уже все 100 процентов:
На этом всё.
Все горячие кнопки Пикабу и Windows, включая одну новую1
Кто знал, что Ctrl + Y отменяет то, что отменил Ctrl + Z? Я как узнал, сразу стал применять.
Часто пишу тексты. Мышкой и тачпадом не пользоваться, когда можно горячими кнопками быстрее. Долго искал, как писа́ть нормальное тире (—), а не убогий дефис (-)? Вариант с Alt + 0151 не подходит, потому что нет малой цифровой. Почти случайно сегодня ткнул Win + "-" и получил короткое тире (–). Потом нашёл длинное тире (—) по Win + Shift + "-". Ура!!!
Этой инфы нигде нет. Проверил уже зная комбинацию. Зато нашёл ещё прикольные штуки. Например, Win + "." и Win + ";" запускают окно с эмодзи. Там можно найти любые emoji, различные символы и даже гифки. В английской Википедии сказано, что это в Win10 появилось. В русском варианте шутят:
Win + "+" открывает лупу: увеличивает экран и голосом читает текст. Закрыть: Win + Esc.
Очень смешно русские голоса Ирина и Павел читают английский текст.
Все остальные горячие клавиши Windows в комментарии.
И на десерт: горячие кнопки Пикабу. 😁 (Ctrl+Alt+1 заголовок)
Ctrl + Shift + 2 выделяет цитатой. Полезно даже в комментах.
Чтобы выйти из цитирования, нажать Enter два раза подряд.
Ctrl + B = жирный, Ctrl + I = курсив, Ctrl + Shift + X = зачёркнуто работают и в комментариях.
Ctrl + Shift + M = маркер, Ctrl + Shift + S = спойлер для создания постов.
Просто Enter создаёт новый абзац, а Shift + Enter и Ctrl + Enter — новая строка без отступа.
Вот ссылка на список всех горячих клавиш для Пикабу.
Для получения авторского лайка плюса работает специальный пост щедрости. ❤️
Сохраняют пост чаще, чем плюсуют. 😂 Ну ладно. Пользуйтесь на здоровье!
P.S. Некоторые используются типографскую раскладку Ильи Бирмана. Как раз её я сегодня ставил. Там для тире нужно нажимать Alt + "-", но у меня не сработало. Удалил.
Разные способы как упростить жизнь, я пишу эксклюзивно в сообществе ПОЛЕЗНЫЕ ПРИВЫЧКИ на Пикабу. Заходи!
Вышла новая модель для генерации и редактирования изображений FLUX.2 [klein]
Опубликовали новое семейство моделей FLUX.2 [klein] (https://huggingface.co/black-forest-labs/FLUX.2-klein-9B), которые самые быстрые и компактные для генерации и редактирования изображений, давая высочайшее качество с выводом < 1 сек., и они работают на потребительском железе (от ~ 13 ГБ VRAM).
Их скорость генерации/редактирования <0.5 сек., а универсальность им обеспечивает единая модель для T2I, I2I, multi-reference.
В плане доступности 4B модель предоставляется с Apache 2.0 для локального запуска (RTX 3090/4070). В свою очередь 9B модель выложена с лицензией FLUX NCL.
По качеству модели соответствуют или превосходят модели в 5 раз больше.
Есть несколько вариантов моделей, и первые из них FLUX.2 [klein] 9B/4B (дистиллированные), нужные для быстрого вывода. Потом идут полноценные модели FLUX.2 [klein] Base 9B/4B, предназначенные для тонкой настройки и исследований. А в конце находятся квантованные версии (FP8/NVFP4), созданные совместно с NVIDIA для ещё большей скорости и экономии VRAM.





























