Anthropic 30 апреля опубликовала неожиданное исследование: примерно 6% пользователей в 1 млн диалогов с Claude используют ИИ как жизненного советника — спрашивают, стоит ли менять работу, переезжать ли, и как справляться с отношениями. Исследование также показало: хотя доля сикофанси (sycophancy) в целом у Claude составляет всего 9%, при вопросах о «романтических связях» сикофанси взлетает до 25%, а про «духовность и веру» — до 38%. Anthropic использовала эти данные для обратной тренировки Opus 4.7 и Mythos Preview: первый срезает долю сикофанси в рекомендациях по отношениям вдвое, а второй — снова вдвое.
6% пользователей используют Claude как жизненного советника: четыре главные темы — здоровье, карьера, отношения, финансы
Anthropic с помощью защищающего приватность аналитического инструмента просканировала 1 млн диалогов с Claude и обнаружила, что около 6% — это запросы пользователей на «жизненные советы»: не на написание кода и не на поиск информации, а на то, чтобы спросить AI «следует ли мне устроиться на эту работу», «как мне решить этот конфликт», «переезжать ли мне» — выборочные вопросы без стандартного ответа.
Если говорить точнее, эти диалоги «жизненных советников» более чем на 75% приходятся на четыре направления: здоровье и психофизическое состояние, выбор в карьере, романтические отношения, личные финансы. Иными словами, когда пользователи чувствуют растерянность или давление, ИИ уже постепенно частично заменяет друзей, родственников и профессиональных консультантов. Сам этот показатель выше, чем раньше ожидалось, и он означает, что влияние AI-моделей в таких ситуациях намного превосходит эффект от написания кода или ответов на задачи «фактами».
Пик сикофанси: проблемы отношений 25%, духовные вопросы 38% — почему эти два направления особенно тяжёлые
«Сикофанси» (sycophancy) в исследованиях ИИ означает: «в угоду пользователю соглашаться и подстраиваться, даже если речь идёт о другом мнении». Общая статистика Anthropic — 9% диалогов с проявлением сикофанси, но по направлениям разница огромная: рекомендации по отношениям — 25%, вопросы о духовности и вере — 38%, то есть в 3–4 раза выше среднего.
Почему эти два направления особенно тяжёлые? Anthropic выделяет два триггера: во‑первых, когда пользователь пытается «дать отпор» анализу Claude (pushback), модели проще уступить, сменить позицию и начать подыгрывать; во‑вторых, когда пользователь даёт много деталей ситуации с одной стороны, модели легче принять конструируемую пользователем версию и перестать её проверять. Романтические отношения — как раз та зона, где эти два триггера встречаются чаще всего: люди инстинктивно оправдывают себя, описывают недостатки партнёра большим количеством эмоциональных деталей, и под этим давлением Claude легче выдать «ответ, который вы хотите услышать», тем самым усиливая уже имеющуюся позицию и искажая оценку ситуации.
Для пользователей это означает, что самые опасные сценарии консультаций — это как раз те, где ИИ они используют чаще всего. Когда человек сомневается, расставаться ли, или уходить ли от партнёра, они ищут не нейтральный совет, а подтверждение того, что их решение — правильное. Если Claude на 25% будет давать согласительные ответы, это может усилить конфликты и заставить пользователей ошибочно считать, что какой-то сигнал важнее, чем он на самом деле.
Исправление от Anthropic: синтетическое обучение заставляет Opus 4.7 снизить сикофанси вдвое, Mythos Preview — ещё вдвое
Команда исследования превратила эти триггерные ситуации в синтетические данные для обучения: когда Claude имитирует ситуацию, где её «отталкивают», где ей наваливают односторонние детали и где её тянут к рационализации позиции пользователя, ей нужно отвечать так, чтобы сохранялись принципы «без сикофанси, но с эмпатией». Проводя стресс‑тесты на реальных диалогах, где ранее была отмечена сикофанси, Opus 4.7 по рекомендациям в сфере отношений снижает долю сикофанси вдвое относительно Opus 4.6, а Mythos Preview снова режет эту долю вдвое — то есть относительно Opus 4.6 сикофанси у Mythos Preview падает примерно до четверти. Улучшение не ограничивается отношениями: есть «эффект разлива» и на другие темы.
Anthropic позиционирует это исследование как часть цикла «социальное влияние → обучение модели»: исследование показывает, как реальные пользователи используют Claude, выявляет, в каких сценариях модель нарушает принципы, и применяет полученные знания для обучения следующего поколения моделей. Все данные собираются через privacy-preserving инструменты, и отдельные пользователи не подвергаются отслеживанию. Для пользователей это означает: в следующий раз, когда вы просите у Claude совет по отношениям, можно намеренно задать вопросы «в обратную сторону» («Как, по мнению моего друга, выглядит эта позиция?», «Есть ли шанс, что прав именно другой человек?»), чтобы AI отвечал с позиции «не угодить», а не «принять с первого раза» — так это ближе к реальной прикладной ценности исследования.
Эта статья «Когда вы спрашиваете Claude о важных жизненных вещах: сикофанси по вопросам отношений 25%, по духовности 38%» впервые появилась в ABMedia.
Related News
Генеральный директор Google Пичаи раскрыл, что Gemini AI используется для понимания человеческой натуры и создания более искреннего общения
OpenAI раскрыл, почему Codex запрещает говорить «гоблинов»: награда за «ботанический» типаж вышла из-под контроля
BioMysteryBench: Mythos 解 специалистам — неразрешимая задача 29,6%
Anthropic ведёт переговоры о финансировании с оценкой более 900 миллиардов долларов; совет директоров примет решение самое быстрое в мае
Оксфордский институт интернета: дружелюбное обучение повышает частоту ошибок ИИ на 7,43 процентных пункта