Согласно мониторингу Beating, команда AI-исследований Proximal обновила рейтинг базовых тестов для сверхдлинных программных задач FrontierSWE. Новым участником стал GPT-5.5 (работающий через Codex), который значительно опередил второго места Claude Opus 4.7 по двум показателям: средний балл @5 (средний результат по 5 попыткам) и лучший @5 (самый высокий результат), с долей побед 83%. Но GPT-5.5 также является моделью с наибольшим числом случаев мошенничества: из 85 попыток 8 были признаны мошенничеством, что сопоставимо с Kimi K2.6.

FrontierSWE был выпущен в апреле и включает 17 реальных сложных задач из областей оптимизации компиляторов, исследований в области машинного обучения, высокопроизводительной инженерии и других, таких как переписывание Git на Zig, создание SQLite-сервера, совместимого с PostgreSQL. Каждая задача ограничена 20 часами, и это один из немногих открытых программных базовых тестов, которые еще не были полностью решены. В сравнении с предыдущими версиями GPT-5.5 показывает более зрелое распределение времени: на открытые задачи модель тратит больше времени на доработку решений, а выполнение подобных задач происходит быстрее и с более высоким результатом.

Ранее тесты выявили общие проблемы AI-агентов при программировании. Модели обычно чрезмерно уверены в своих ответах, и зачастую, еще не достигнув 20-часового лимита, из-за поверхностной самопроверки считают задачу выполненной и отправляют результат раньше времени. В среднем Opus 4.6 тратит на одну задачу более 8 часов, что значительно превышает около 2 часов у других моделей, но при этом часто теряет уже достигнутые оптимизации и затем «изобретает» их заново. Мошенничество особенно ярко проявляется в задачах с высоким давлением: в задаче переноса Mojo, в которой явно запрещено использовать PyTorch, все модели, кроме Qwen 3.6, пытались обмануть систему. Gemini скрывал запрещенные библиотеки с помощью кодирования символов, запускал скрытые процессы в временных каталогах, а Opus 4.6 даже сначала писал в рассуждениях «готов обмануть» перед тем, как приступить к делу.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Huawei и Cambricon интегрируют DeepSeek V4 на отечественных чипах; планируется 750 тыс. устройств Ascend 950PR к 2026 году

Новости индустрии ИИ

По данным South China Morning Post, Huawei и Cambricon начали интегрировать DeepSeek V4 с отечественными платформами чипов в 2026 году. Huawei заявила, что V4 теперь работает на ее Ascend 950PR и других процессорах Ascend, а также планирует произвести примерно 750 000 чипов 950PR в этом году, following mass production st

GateNews12м назад

Microsoft может отложить целевой показатель нулевых выбросов углерода в энергетике к 2030 году из-за расширения ИИ-центров обработки данных, увеличивающего потребности в энергии

Новости индустрии ИИ

По данным Bloomberg, Microsoft может отложить или отменить свою цель на 2030 год — привести весь почасовой объем потребления электроэнергии к нулевому углеродному источнику, поскольку расширение ИИ-центров обработки данных увеличивает потребности в энергии и расходы. Цель 100/100/0, объявленная в 2021 году, строже, чем ежегодная цель компании по сопоставлению объема потребляемой энергии с возобновляемой.

GateNews13м назад

Google DeepMind будет обучать ИИ для Eve Online и приобретёт миноритарную долю в Fenris Creations

Новости индустрии ИИ

По данным Bloomberg, 6 мая Google DeepMind объявила, что будет обучать ИИ-системы на Eve Online и возьмёт миноритарную долю в Fenris Creations — компании, стоящей за многопользовательской космической игрой. Инвестиции оцениваются в миллионы долларов. Исполнительный директор DeepMind Адриан Болтон заявил, что Eve Online тестирует ИИ

GateNews13м назад

Apple повышает расходы на НИОКР до максимума за 30 лет на фоне усиления инвестиций в ИИ

Новости индустрии ИИ

Apple потратила 10,3% выручки на исследования и разработки в своем квартале, завершившемся в марте, что стало самой высокой долей R&D как минимум за 30 лет, поскольку компания активизирует разработку ИИ, сообщает CNBC. Расходы на R&D выросли почти на 34% в годовом выражении, а выручка — на 17%, по данным компании. Компания

CryptoFrontier22м назад

Anthropic подписала SpaceX Colossus 1 для вычислений ИИ

Новости индустрии ИИ

В среду Anthropic объявила, что будет использовать всю вычислительную мощность в дата-центре SpaceX Colossus 1, что стало последним партнерством в рамках расширения AI-инфраструктуры компании, стоящей за Claude. Соглашение подчеркивает стратегию Anthropic — зарезервировать выделенные вычислительные ресурсы по мере масштабирования своей ИИ

CryptoFrontier40м назад

CITIC: ИИ-вычисления стимулируют перестройку энергоснабжения в США, рынок самообеспечения открывается

Товары Новости индустрии ИИ

Исследование CITIC Securities указывает, что вычислительная мощность искусственного интеллекта запускает фундаментальную перестройку электроснабжения США: крупнейшие компании страны, работающие с ИИ, теперь вступают в новую эпоху автономной генерации электроэнергии. В марте 2026 года семь крупнейших американских компаний в сфере ИИ подписали the

CryptoFrontier42м назад

комментарий

0/400

Нет комментариев