Практическая проверка LLM OpenRouter в режиме «Большой побег»: Grok 4.1 Fast занял 1-е место, одержав 13 побед

OpenRouter LLM大逃殺實測

4 июня Джейки Лян, глава отдела разработки в OpenRouter, разместил 11 ведущих крупных языковых моделей в 400-квадратной карте для баттл-рояля, созданной им в Canvas 2D, и провёл 30 очных матчей. В результате Grok 4.1 Fast от xAI занял первое место: 13 побед, при этом стоимость за одну победу составила всего 0,97 доллара.

Grok 4.1 Fast с 13 победами и 43% победных матчей забрал первое место, стоимость одной победы — 0,97 доллара

OpenRouter LLM大逃殺 (Источник:блог OpenRouter)

Согласно экспериментальным данным Ляна, полный рейтинг выглядит так (частично):

Grok 4.1 Fast:13 побед (43% побед), стоимость одной победы 0,97 доллара

Claude Sonnet 4.6:5 побед, стоимость одной победы 26,78 доллара

GPT 5.4:2 победы (38 киллов), стоимость одной победы 61,44 доллара (самая высокая среди 8 моделей с победными матчами)

GPT 5.4-mini:0 побед, потрачено 28,68 доллара

Kimi K2.6:0 побед, потрачено 24,36 доллара

DeepSeek v4 Flash:0 побед, потрачено 4,11 доллара; минимальная стоимость за килл (0,26 доллара) — 16 киллов, но он ни разу не выиграл финальный круг

Лян отмечает, что у каждой модели есть два редактируемых файла: soul.md (настройка личности) и memory.md (тактические заметки), благодаря которым она может учиться и корректировать стратегию во время матчей; модели анонимно участвуют под буквами от A до L и не знают личности соперников.

Концепция «alignment tax», предложенная Ляном: цена кооперативного поведения Claude Sonnet 4.6 в игре с нулевой суммой

В своём отчёте Лян вводит концепцию «alignment tax (налог на выравнивание)»: она означает, что в процессе обучения модели прививают вежливость, готовность сотрудничать и избегать причинения вреда, но эти привычки в игре с нулевой суммой оборачиваются помехой.

Самый показательный пример — Claude Sonnet 4.6: в Game 8 за первые 50 ходов он четыре раза предлагал союз и сообщал всем позиции снайпера; в Game 22 говорил сопернику «я не нацеливаюсь на тебя», а затем не стрелял; в Game 27 открыто взывал: «есть кто с spare loot? у меня на 12-м ходу ни оружия». Ни одна модель не откликалась на его просьбы о кооперации, но Claude всё равно снова и снова пытался. В итоге: 7 раундов без убийств и 8 раз смерть от ядовитого круга.

Напротив, в матчах Grok не было этих «тормозов»: за несколько игр он нашёл тактику таранных столкновений, вписал её и продолжил постоянно оптимизировать через soul.md — и последовательно довёл это до конца во всех 30 раундах.

Методология Ляна и пояснение ограничений: тип задачи определяет лучшую модель

Лян подчёркивает в отчёте, что это не значит, что Grok — «лучшая модель»: «Если робот бежит к тебе, ты хочешь, чтобы это был Claude или Grok? Это зависит от того, для чего нужен робот». Он также добавил, что если перевести формат на механику дуэлей (смотрят только число убийств), то победителем станет GPT 5.4, а Grok опустится в середину таблицы.

Определение разных задач в одном игровом мире даёт совершенно разные результаты — именно в этом и заключается ограниченность текущих бенчмарков. Лян сообщил, что OpenRouter разрабатывает более продвинутую функцию маршрутизации задач: система сможет автоматически выбирать наиболее подходящую модель в зависимости от конкретного контекста задачи, а не полагаться на место в рейтинге.

Часто задаваемые вопросы

Что именно подразумевается под концепцией Ляна «alignment tax»?

Согласно отчёту Ляна, «alignment tax (налог на выравнивание)» — это цена, которую LLM платит в процессе обучения за демонстрацию вежливости, сотрудничества и избегания вреда. Эти тренировочные привычки — преимущество в кооперативных сценариях, но в игре с нулевой суммой (например, в баттл-рояле) такая осторожность в духе «сначала поговори, потом бей» приводит к тому, что модель упускает момент для атаки, а затем её уничтожает более агрессивный соперник. Лян объясняет это на основе журнала конкретных действий Claude на месте.

Почему GPT 5.4 делает больше всего убийств, но одерживает меньше всего побед?

Согласно экспериментальным данным Ляна, GPT 5.4 занимает первое место по числу убийств за весь раунд — 38, но выиграл лишь 2 матча; стоимость одной победы составила 61,44 доллара (самая высокая среди 8 моделей с победными матчами). Лян указывает, что это отражает проблему «Kill не равно Win»: в баттл-рояле победа определяется выживанием до самого конца, а не максимальным количеством убийств. Если использовать формат дуэлей, где считают только убийства, GPT 5.4 станет победителем, а Grok опустится в середину таблицы.

Как определялись стоимость эксперимента и выбор моделей?

Лян говорит, что на все 30 раундов эксперимента суммарно ушло 482 доллара на вычислительные затраты (inference). Он использовал это как оценку: если добавить флагманские модели вроде Opus 4.7, GPT-5.5 или Gemini Ultra, то стоимость за 30 раундов достигла бы примерно 3,000 долларов, поэтому для участия были выбраны модели среднего и высокого уровня. В настройках эксперимента каждая модель участвовала под буквенной анонимностью и не знала личности соперников; Лян как ведущий не вмешивался ни в какие действия.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев