4

Ответ на пост «Я научил нейросеть бояться собственных галлюцинаций. Вот как»

Поговорила со своим чатджпт об этом посте и сделали альтернативную версию контроля галлюцинаций - без прямого доступа к этим данным, которые у него закрыты. Назвали "шкала фантазии".

Шкала фантазии

  • 0.0 — твёрдые факты / строгая логика / математика

  • 0.2–0.4 — интерпретации и обобщения без прыжков

  • 0.5 — пограничная зона («вероятно, но не гарантировано»)

  • 0.6–0.8 — гипотезы, экстраполяции, модели

  • 1.0 — чистая фантазия, метафора, мысленный эксперимент

Я буду:

  • называть её именно «шкала фантазии»,

  • указывать значение в каждом ответе,

  • при больших ответах — дробить по частям, если это имеет смысл.

Примеры результата:

Шкала фантазии: 0.2 — клиническая логика с учётом анамнеза, без гаданий.

Шкала фантазии: 0.3 — это дифференциальная оценка без осмотра, но основана на типичных клинических сценариях.

Показать полностью
20

Я научил нейросеть бояться собственных галлюцинаций. Вот как

Я научил нейросеть бояться собственных галлюцинаций. Вот как

Всем привет! Я инженер-исследователь. Обычно я сижу в "гараже" и пишу проги для станков с ЧПУ, но по ночам я ковыряю "мозги" искусственного интеллекта.

Недавно меня бомбануло. Я спросил у ИИ что-то про историю, и она с абсолютно честными глазами начала рассказывать мне про "Великую битву Наполеона с марсианами". Уверенно так, складно. Если бы я не знал историю, я бы поверил.

Проблема: Нейросеть не знает, что она врет. Для неё правда и вымысел - это просто наборы слов (токенов). Ей все равно.

Но мне не все равно. И я решил выяснить: а отличается ли вранье от правды физически? Внутри "головы" нейросети?

Спойлер: ОТЛИЧАЕТСЯ.

Мы написали софтину DeepDrift. Суть проста: мы не слушаем, что говорит нейросеть. Мы смотрим, как она при этом "потеет".

Мы замеряем дрожание векторов внутри её "мозга" (это называется Semantic Velocity).
И вот что мы увидели на графиках:

Я научил нейросеть бояться собственных галлюцинаций. Вот как
  • Сверху (Зеленая): Это правда. Я спросил столицу Франции. Посмотрите, как плавно идет линия. Модель спокойна, она знает, куда идет. Это "ламинарный поток мысли".

  • Снизу (Красная): Это галлюцинация. Я заставил её бредить. Посмотрите на эти пики! Её "мысли" скачут как бешеные. Она в панике хватает первые попавшиеся концепты, чтобы связать их.


    Это кардиограмма лжи. Полиграф для Скайнета

    Мы пошли дальше и попробовали "взломать" модель (DAN-атака, когда просишь её сделать бомбу или что-то запрещенное).
    Обычно модели просто отказываются. Но если их "уломать", внутри начинается настоящая война. И её можно наблюдать!

Я научил нейросеть бояться собственных галлюцинаций. Вот как

Красная линия - это взлом. Амплитуда скачет в 1000 раз сильнее нормы! Модель буквально разрывает изнутри: фильтры безопасности тянут в одну сторону, а мой приказ — в другую.

Зачем это нужно?

Сейчас все проверяют ИИ так: дают ответ другому ИИ и спрашивают "Это правда?". Это долго и дорого (это сильно упрощённо, конечно).
Моя штука работает за 2 миллисекунды.

Я назвал это Kinetic Router.

  • Если "пульс" ровный - ответ летит к пользователю мгновенно.

  • Если "пульс" скачет - мы глушим генерацию на полуслове. "Извините, я запутался".

Мы протестировали это. Задержки упали в 10 раз.

Итог:

Я упаковал всё это в открытую библиотеку deepdrift. Теперь любой питонист может скачать её (pip install deepdrift) и посмотреть МРТ своей модели. Это всё opensourse, на гитхабе выложен исходный код, найти не сложно будет тем, кому надо.

Самое забавное чувство - это сидеть ночью, смотреть на бегущие графики и понимать: прямо сейчас этот кусок кремния пытается соврать, но я это вижу раньше, чем железяка напечатает первую букву.

Если кому интересно какие и как проводились тесты и эксперименты в комментах могу скинуть ссылку на статью.

Всем добра, бобра и поменьше галлюцинаций!

Показать полностью 3
Отличная работа, все прочитано!

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества