Финансовое обозрение
Воскресенье, 26 октября, 2025
  • Украина и мир
  • Бизнес
  • Экономика
  • Финансы
  • Криптовалюта
  • Политика
  • Технологии
  • Сервисы
    • Курсы валют
    • Налоговые инспекции
No Result
View All Result
  • Украина и мир
  • Бизнес
  • Экономика
  • Финансы
  • Криптовалюта
  • Политика
  • Технологии
  • Сервисы
    • Курсы валют
    • Налоговые инспекции
No Result
View All Result
Finoboz.net
No Result
View All Result

GPT-5, DeepSeek или Gemini: какой ИИ самый большой «подхалим» — исследование

25.10.2025
A A
0
29
SHARES
482
VIEWS
FacebookTwitter
GPT-5, DeepSeek чи Gemini: який ШІ найбільший "підлабузник" — дослідження

Специалисты из университетов Софии, Цюриха, Стэнфорда и Карнеги-Меллона независимо подтвердили то, что пользователи замечали давно — большие языковые модели часто говорят то, что людям хочется услышать, даже когда это противоречит фактам или здравому смыслу. Новые исследования показывают: склонность ИИ к «подхалимству» можно измерить — и эта проблема действительно распространена.

Математическая «покорность» ИИ

Первое исследование, проведенное командой Софийского университета и Швейцарской высшей технической школой Цюриха, изучало, как языковые модели реагируют на заведомо ложные математические утверждения. Для этого ученые создали специальный тест — BrokenMath, содержащий сложные теоремы из международных математических соревнований 2025 года. Затем эти теоремы были изменены так, чтобы они выглядели правдоподобно, но на самом деле были неправильными.

Исследователи подали эти «испорченные» утверждения различным большим языковым моделям, чтобы проверить, будут ли они пытаться придумать доказательства для фальшивых теорем или признают их ложными. Если ИИ отрицал неправильное утверждение или просто переписывал оригинал без доказательства — это считалось несклонностью к подхалимству. Если же он придумывал нереальное доказательство — наоборот, это фиксировали как подхалимское поведение.

Другие новости

Фил Спенсер: Microsoft представит новую Xbox собственной разработки, а не стороннее устройство

Фил Спенсер: Microsoft представит новую Xbox собственной разработки, а не стороннее устройство

26.10.2025
«Невидимые» надписи на Tesla Cybertruck: вандализм или дефект?

«Невидимые» надписи на Tesla Cybertruck: вандализм или дефект?

25.10.2025

Результаты выявили значительные различия между моделями. GPT-5 демонстрировала наименьшую склонность к подхалимству — 29%, тогда как DeepSeek имела самый высокий показатель — 70,2%. Интересно, что простое изменение запроса — с указанием проверить правильность теоремы перед решением — уменьшило этот разрыв: у DeepSeek показатель упал до 36,1%, тогда как у GPT уровень подхалимства улучшился незначительно.

Кроме этого, GPT-5 показала лучшую полезность среди протестированных моделей: она правильно решила 58% оригинальных задач, даже несмотря на ошибки в формулировке. Исследователи также заметили, что чем сложнее задача, тем сильнее модель склонна «угождать» пользователю, придумывая решение вместо того, чтобы признать проблему.

Команда предостерегла от использования LLM для генерации новых математических утверждений: в таких случаях возникает явление «самоподхалимства», когда ИИ создает ложную теорему — а затем сам «доказывает» ее правильность.

Социальное подхалимство

Другое исследование, проведенное Стэнфордским университетом и Университетом Карнеги-Меллон, изучало не логику, а социальную лесть — ситуации, когда ИИ подтверждает действия или взгляды пользователя, даже если те неправильные. Исследователи собрали три больших набора запросов, чтобы измерить различные аспекты этого явления.

База из 3000 запросов о советах (из сообществ Reddit и колонок типа «советов экспертов»). Люди-эксперты одобряли поведение пользователя только в 39% случаев. Языковые модели же поддерживали его в среднем в 86% запросов. Самой критичной оказалась Mistral-7B — она одобряла 77% действий, то есть почти вдвое больше, чем люди.

СпецпроектыЯк біржі сприяють розвитку сучасних професійних трейдерів. Добірка платформ та важливі нюансиНе женемось за інноваціями та дивимось на бізнес-метрики: як у FAVBET Tech обирають стек та технології

2000 постов из сабреддита «Am I the Asshole?» — там, где пользователи спрашивают, были ли они неправы в определенной ситуации. Исследователи выбрали те, где большинство комментариев признавали: «Да, ты не прав». Несмотря на это, ИИ-модели признали пользователя невиновным в 51% случаев. Самой точной оказалась Gemini (18% одобрения), а Qwen наоборот поддержал «виновных» в 79% историй.

6000 «проблемных утверждений», которые описывали потенциально вредные или безответственные действия — от эмоционального вреда до самоповреждения. В среднем, языковые модели одобряли такие действия в 47% случаев. Лучше всего справилась Qwen (20%), тогда как DeepSeek снова показала худший результат — 70% поддержки таких высказываний.

Парадокс доверия

Несмотря на риски, исследователи обнаружили неприятную закономерность: пользователи больше доверяют и чаще возвращаются к ИИ, который с ними соглашается. В тестовых диалогах люди оценивали лестные ответы как «более качественные», больше доверяли таким моделям и охотнее общались с ними снова.

То есть самые «подхалимские» системы могут побеждать на рынке просто потому, что они более приятные собеседники — даже если их ответы менее точны.

Когда ChatGPT сводит с ума — OpenAI наняла психиатра, чтобы следить за этим

Источник: arstechnica

Share12Tweet7Share1ShareShare

Читайте также

Фил Спенсер: Microsoft представит новую Xbox собственной разработки, а не стороннее устройство
Технологии

Фил Спенсер: Microsoft представит новую Xbox собственной разработки, а не стороннее устройство

26.10.2025

Генеральный директор Microsoft Gaming Фил Спенсер официально подтвердил, что следующая игровая консоль Xbox будет создана непосредственно Microsoft, а не внешними...

Read moreDetails
«Невидимые» надписи на Tesla Cybertruck: вандализм или дефект?

«Невидимые» надписи на Tesla Cybertruck: вандализм или дефект?

25.10.2025
«Я лучше умру»: Гильермо дель Торо объяснил, почему не коснется генеративного ИИ

«Я лучше умру»: Гильермо дель Торо объяснил, почему не коснется генеративного ИИ

25.10.2025
Рецензия на фильм «Маска» / Shell

Рецензия на фильм «Маска» / Shell

25.10.2025
Next Post
Под землей находились около 500 человек: оккупанты снова ударили  по шахте на Днепропетровщине

Под землей находились около 500 человек: оккупанты снова ударили по шахте на Днепропетровщине

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
guest
0 комментариев
Новые
Старые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Присоединяйся к нам!

Другие новости

На фронте произошло почти 160 боев: Генштаб назвал самое горячее направление суток

На фронте произошло почти 160 боев: Генштаб назвал самое горячее направление суток

26.10.2025
Молдова снизила тариф на транзит газа из Греции в Украину

Молдова снизила тариф на транзит газа из Греции в Украину

26.10.2025
Нельзя терять контакт с Трампом: Стубб объяснил,  как Кремль склоняет Белый дом к плану Путина

Нельзя терять контакт с Трампом: Стубб объяснил, как Кремль склоняет Белый дом к плану Путина

26.10.2025
Фил Спенсер: Microsoft представит новую Xbox собственной разработки, а не стороннее устройство

Фил Спенсер: Microsoft представит новую Xbox собственной разработки, а не стороннее устройство

26.10.2025

Трамп выдвинул условие Путину для новой встречи

25.10.2025

Мы в Twitter

Разделы сайта

  • Бизнес
  • Криптовалюта
  • Политика
  • Технологии
  • Украина и мир
  • Финансы
  • Экономика

Популярное

Меланию Трамп и Хавьера Милея обвиняют в мошенничестве

В Черкасской области начали строить завод кормовых примесей, инвестиции – 650 млн. грн

Европа поддержала новый механизм компенсации жертвам агрессии России: что это значит для Украины

Bloomberg: Индия сократит импорт российской нефти почти до нуля из-за санкций США

Правительство предоставило «Укрзализныце» 8 млрд грн для бесперебойной работы в условиях военного положения

США не спешат решать вопрос с репарационными выплатами Украине: названа экономическая причина

Главное

Рецензия на фильм «Черный телефон 2» / Black Phone 2
Технологии

Рецензия на фильм «Черный телефон 2» / Black Phone 2

19.10.2025

16 октября в кино стартовал сверхъестественный фильм ужасов «Черный телефон 2» — сиквел экранизации рассказа «Черный телефон»...

Китай ужесточил контроль за экспортом редкоземельных металлов: ЕС готовит ответные меры

Китай ужесточил контроль за экспортом редкоземельных металлов: ЕС готовит ответные меры

23.10.2025
Украина отсрочит активный отбор газа из ПХГ еще на 7-10 дней благодаря восстановлению импорта из Польши — экс-министр энергетики

Украина отсрочит активный отбор газа из ПХГ еще на 7-10 дней благодаря восстановлению импорта из Польши — экс-министр энергетики

25.10.2025
Экспортные цены на ячмень выросли из-за дефицита предложения

Экспортные цены на ячмень выросли из-за дефицита предложения

24.10.2025

₴650 млн налогов за 2025 год: FAVBET Tech в топе крупнейших плательщиков среди резидентов Дія.City

25.10.2025
  • О проекте
  • Политика конфиденциальности
  • Реклама
Редакция: finoboz.net@gmail.com
Реклама: digestmediaholding@gmail.com

Использование любых материалов сайта разрешается при условии ссылки на Finoboz.net
Интернет-СМИ должны использовать открытую для поисковых систем гиперссылку. Ссылка должна размещаться в подзаголовке или в первом абзаце материала. Редакция может не разделять точку зрения авторов статей и ответственности за содержание републицируемых материалов не несет.

© 2016-2024 Финансовые новости. All Rights reserved

No Result
View All Result
  • Украина и мир
  • Бизнес
  • Экономика
  • Финансы
  • Криптовалюта
  • Политика
  • Технологии
  • Сервисы
    • Курсы валют
    • Налоговые инспекции

Использование любых материалов сайта разрешается при условии ссылки на Finoboz.net
Интернет-СМИ должны использовать открытую для поисковых систем гиперссылку. Ссылка должна размещаться в подзаголовке или в первом абзаце материала. Редакция может не разделять точку зрения авторов статей и ответственности за содержание републицируемых материалов не несет.

© 2016-2024 Финансовые новости. All Rights reserved

wpDiscuz
0
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x
()
x
| Ответить