Почему ChatGPT выдаёт ложные факты

Исследователи OpenAI опубликовали работу, в которой представили математическое объяснение причины появления так называемых «глюков» у крупных языковых моделей. Под этим термином понимаются уверенные, но ложные ответы, которые генерирует ИИ.

Авторы доказывают, что проблема носит фундаментальный характер и сохраняется даже при использовании идеальных обучающих данных.

Поскольку языковые модели предсказывают ответы слово за словом, вероятность ошибок неизбежно накапливается. В результате общее число неточностей при генерации текста в два раза выше, чем при ответах на простые вопросы «да/нет».

Кроме того, вероятность ошибки растёт, если факт редко встречался в обучающем наборе. Так, при запросе о дате рождения одного из авторов статьи — Адама Калая — современные модели трижды дали разные, но одинаково неверные ответы.

Учёные также выявили проблему в системе оценки ИИ. Девять из десяти популярных бенчмарков, включая используемые Google и OpenAI, не различают ситуацию, когда модель отвечает «не знаю», и когда она выдаёт ошибочный факт. Это стимулирует алгоритмы «угадывать» вместо признания неопределённости.

Предложенное решение заключается во внедрении механизмов самооценки уверенности в ответах и корректировке систем тестирования.

Однако такой подход приведёт к заметному снижению числа уверенных ответов — до 30% запросов могут заканчиваться фразой «не знаю», что, по мнению исследователей, ухудшит пользовательский опыт.

Кроме того, такие модели требуют значительно больших вычислительных ресурсов, что увеличивает стоимость работы систем. Поэтому в массовых потребительских продуктах приоритет пока остаётся за быстрыми и «уверенными» ответами, даже если они содержат ошибки.

Авторы делают вывод: до тех пор, пока бизнес-модель и система оценки ИИ ориентированы на уверенность, а не точность, проблема «глюков» будет сохраняться.

Источник: ScienceAlert

OpenAI объяснила причины «глюков» ChatGPT и других языковых ИИ

Ваш комментарий: Отменить ответ

Статьи по теме

Трамп распорядился заменить ИИ Claude на ChatGPT во всех ведомствах США

В США юзеры начали массово удалять ChatGPT из-за сделки с Пентагоном

SRSLY: в Японии представили первого робота-буддиста с ИИ

В Uber создали ИИ-клона гендиректора для тренировки перед встречами

Anthropic лишилась госконтрактов США из-за отказа Пентагону в доступе к ИИ

Эксклюзив

Мелисса лекарственная — противовирусное средство, применение, сбор, обработка, бизнес-идея

Душица — польза и применение в народной и современной медицине

Шалфей — польза и применение в народной и современной медицине

Как выбрать качественный зерновой кофе и правильно приготовить

Топ-3 бизнес-идей по продаже напитков

Новое на ГИПОРТ

Двух девушек из Калмыкии задержали в Москве в ходе антимигрантского рейда

Как продвигать в интернете сайт завода или промышленного предприятия

Попавшие под винты речного трамвая в Москве являлись ветеранами гребного спорта

Врач Пятикова: при аллергии следует избегать прогулок в ветреную погоду

Нейросеть Grok посчитала фальшивым видео с опровергающим свою смерть Нетаньяху

Как замешать гипс для формы из силикона

В Ярославле педагог отсудила компенсацию за сгенерированное ИИ-видео

Остекление балконов и лоджий в Беларуси: теплый и холодный профиль

Франко-российский журналист Андриан Боке оказался объектом санкций ЕС

Твердотельные реле Autonics: понятный гид по выбору

Новое на Форуме