Серия «Новости»

2

Вышла новая модель Sarvam 30B и 105B

Серия Новости
Вышла новая модель Sarvam 30B и 105B

В Open-source были добавлены две индийские модели рассуждения Sarvam 30B (https://huggingface.co/sarvamai/sarvam-30b) и Sarvam 105B (https://huggingface.co/sarvamai/sarvam-105b), обученные с нуля в Индии на мощностях миссии IndiaAI.

Во время их обучения использовались собственные пайплайны данных (16T и 12T токенов) на всех этапах, включая претрейн, SFT и RL. Обе модели имеют MoE-архитектуру, состоящую из 128 экспертов. В модели с 30B параметров используется GQA (Grouped Query Attention) для оптимизации в режиме реального времени, а в модели 105B параметров используется MLA (Multi-head Latent Attention) для длинного контекста. Также модели используют собственную токенизацию и глубокую оптимизацию ядер (до 6x быстрее на H100, работа на MacBook), эффективную для всего спектра оборудования.

В результате на бенчмарках они лидируют среди аналогов в математике и кодинге, превосходя более крупные модели (включая DeepSeek и Gemini) по индийским языкам (до 90% побед) и агентным задачам (Tau2, BrowseComp).

Младшую модель добавили на платформу Samvaad, а более мощную старшую версию на 105B в ассистента Indus для работы агентных сценариев, веб-поиска и режима репетитора.

Показать полностью
5

Вышла новая модель для генерации видео и звука LTX-2.3, а также интерфейс LTX Desktop

Серия Новости
Вышла новая модель для генерации видео и звука LTX-2.3, а также интерфейс LTX Desktop

В обновлённой версии модели LTX-2.3 (https://huggingface.co/Lightricks/LTX-2.3) была улучшена детализация при помощи нового VAE и латентного пространства, что позволило добиться более чётких текстур (волосы, края) на всех разрешениях. Также доработали понимание промтов, и теперь улучшенный текстовый коннектор точнее следует сложным описаниям (объекты, стиль, отношения). Для Image-to-Video было переработано обучение, чтобы уменьшить статичность и "эффект Кена Бернса", добавив больше реалистичного движения. Аудио стало чище, и в нём теперь меньше шумов и артефактов, а также лучше синхронизация. Среди прочего впервые в LTX появилась нативная поддержка портретного видео до 1080×1920, где модель обучена именно на вертикальных данных.

Помимо новой модели, запустили LTX Desktop, представляющий собой профессиональный видеоредактор на движке LTX-2.3, который работает полностью локально (оффлайн, бесплатно) либо через API и выложен Open source. У него коммерческая лицензия для компаний с оборотом от $10 млн.

Показать полностью
1

Представлено новое исследование о том, насколько текстовые нейросети могут контролировать свои мысли

Серия Новости

В статье от OpenAI (https://openai.com/index/reasoning-models-chain-of-thought-c...) исследуется способность моделей рассуждений контролировать свою цепочку мыслей (CoT), чтобы проверить надёжность дальнейшего отслеживания безопасности.

Для проведения этой проверки авторы создали набор тестов CoT-Control с инструкциями, изменяющими CoT (запрет слов, смена регистра и т.п.).

В результате модели гораздо хуже управляют CoT, чем финальным ответом (например, Claude Sonnet 4.5 контролирует свои мысли только в 2.7% случаев, а свой ответ в 61.9%), что даёт основания для осторожного оптимизма, но всё же необходимо отслеживать этот показатель у будущих моделей. Также заметили, что контролируемость CoT растёт с размером модели, но снижается при увеличении сложности задач, длины рассуждений и объёма RL-тренировки, и даже при знании о мониторинге или оптимизации промтов контролируемость повышается незначительно.

Показать полностью 2
2

Вышла новая модель LFM2-24B-A2B

Серия Новости

Выпущена в свет самая большая модель семейства LFM2, получившая имя LFM2-24B-A2B (https://huggingface.co/LiquidAI/LFM2-24B-A2B).

Данная разрежённая экспертная модель (MoE) имеет всего 24B параметров, а активных на токен 2B. Она может помещаться в 32 ГБ RAM, работает на ноутбуках и десктопах (iGPU, NPU). В её глубокой архитектуре, состоящей из 40 слоёв, находится 64 эксперта на блок с маршрутизацией выбора 4 подходящих. Обучение охватило 17 трлн токенов (обучение продолжается), и текущая версия доступна как instruct-модель (без reasoning-следов).

Производительность модели в среднем составляет 71,59% по бенчмаркам (против 59% у предыдущей версии), и качество растёт логарифмически при масштабировании от 350M до 24B.

С первого дня для вывода есть поддержка llama.cpp, vLLM, SGLang. Во время работы на H100 в vLLM скорость достигает 26,8K токенов/сек при 1024 одновременных запросов, а на Ryzen AI до 112 токенов/сек (декодинг) и до 1425 токенов/сек (предварительная обработка запроса). В результате она обгоняет аналогичные MoE-модели (Qwen3-30B, gpt-oss-20b).

Показать полностью 5
6

Представлен новый метод для взлома нейросетевых агентов Phantom от OWASP

Серия Новости

OWASP выделяет перехват целей агентов (agent hijacking) как критическую угрозу для LLM-агентов. Существующие атаки (Indirect Prompt Injection) опираются на семантические манипуляции, что даёт низкий успех и плохую переносимость между моделями, однако архитектурная слабость, заключающаяся в отсутствии жёсткой изоляции управляющих токенов от контента, позволяет обходить современные семантические средства защиты, что требует пересмотра подходов к безопасности агентов.

Для демонстрации уязвимости был предложен метод Phantom (https://arxiv.org/abs/2602.16958v1), представляющий собой автоматизированный фреймворк, эксплуатирующий архитектурную уязвимость шаблонов чата, который внедряет оптимизированные структурированные шаблоны в извлекаемый контент, вызывая во время атаки путаницу ролей, заставляя агента воспринимать внедрённый код как легитимные инструкции пользователя или результаты инструментов.

Phantom включает в себя многоуровневое создание шаблонов атак, используя LLM и символьные правила. Дальше он преобразует эти текстовые конструкции в математический формат с помощью модуля Template Autoencoder (TAE) и применяет байесовскую оптимизацию для эффективного поиска атакующих векторов без прямого доступа к внутренним механизмам атакуемой модели.

В результате на бенчмарке AgentDojo метод Phantom достиг среднего ASR 79.76% на семи закрытых моделях (GPT-4.1, Gemini-3 и др.), значительно превзойдя семантические базы (39.86%), а ещё с его помощью обнаружено более 70 уязвимостей в реальных коммерческих продуктах (подтверждённых вендорами), включая CVE-2025-6***4 в MCP-протоколе и привилегированный доступ к облачным десктопам Agentbay. Атака устойчива к защитам (Delimiter Spotlighting, фильтрам тегов, семантическим детекторам), так как эксплуатирует грамматическую структуру, а не семантику.

Кстати, чем умнее и новее становятся модели, тем сильнее они уязвимы к такой атаке. Ведь они более качественно обучены строго следовать системным шаблонам форматирования.

Показать полностью 3
1

Вышла новая модель Gemini-3.1-Pro

Серия Новости
Вышла новая модель Gemini-3.1-Pro

После обновления Deep Think теперь представлена улучшенная базовая модель Gemini-3.1-Pro, которая доступна разработчикам (в AI Studio, CLI, Antigravity), предприятиям (Vertex AI) и пользователям (Gemini app, NotebookLM).

У неё значительный скачок в рассуждениях, благодаря которому в тесте ARC-AGI-2 результат вырос более чем вдвое по сравнению с Gemini-3-Pro (77.1% против 31.1%). Также модель лидирует во многих бенчмарках, требующих сложных рассуждений, кодинга и мультимодальности (Humanity's Last Exam, GPQA Diamond, LiveCodeBench Pro).

При помощи улучшенного интеллекта она может создавать анимированную графику кодом, сложные дашборды, интерактивные 3D-сцены и дизайн, передающий настроение.

Показать полностью 1 1
4

Представлен новый метод для улучшения точности не рассуждающих текстовых нейросетей

Серия Новости

В выложенном отчёте (https://arxiv.org/abs/2512.14982) говорится о том, что преобразование запроса <ЗАПРОС> в <ЗАПРОС><ЗАПРОС> повышает точность популярных не рассуждающих моделей (Gemini, GPT, Claude, Deepseek) без увеличения длины ответа и задержки. Это связано с каузальной природой LLM, где повторение позволяет каждому токену учитывать все остальные, нивелируя влияние порядка.

На 7 бенчмарках (OpenBookQA, ARC, GSM8K и др.) метод выиграл в 47 из 70 тестов (0 проигрышей), а наибольший прирост был, когда варианты ответов предшествуют вопросу. При включении рассуждений (think step by step) эффект нейтрален или слабо положителен (5 побед, 1 проигрыш). Всё потому, что рассуждающие модели в процессе мышления самостоятельно повторяют задачу несколько раз.

Метод не меняет формат вывода и легко внедряется.

Показать полностью 3
3

Вышла новая модель Qwen3.5-397B-A17B

Серия Новости

Анонсировали модель с нативной мультимодальностью Qwen3.5-397B-A17B (https://huggingface.co/Qwen/Qwen3.5-397B-A17B). Она первая модель серии Qwen3.5. В ней реализована нативная vision-language модель с гибридной архитектурой (линейное внимание + разреженный MoE), и у неё всего 397B параметров, но только 17B активируются за проход, что даёт высокую эффективность.

Её поддержка языков была расширена со 119 до 201. По качеству она превосходит предыдущие модели в reasoning, кодинге, agent-задачах и мультимодальном понимании. Прироста производительности достигли за счёт масштабирования RL-сред (до 15 000) с упором на сложность и обобщаемость, а не на узкие метрики.

В механизме работы используется гетерогенная архитектура обучения с FP8 оптимизацией и асинхронным RL-фреймворком, который разделяет обучение и вывод (ускорение в 3-5 раз). Также добавлена поддержка агентных сценариев и масштабирования до миллионов сред.

Функционал модели охватывает веб-разработку и кодинг (интеграция с Qwen Code, OpenClaw), GUI-агентов (автоматизация на смартфонах и ПК), а также обработку видео до 2 часов, пространственный интеллект, визуальные рассуждения и кодинг.

Показать полностью 2
Отличная работа, все прочитано!

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества