Gate News сообщение, 27 апреля — SemiAnalysis, фирма по анализу полупроводников и ИИ, опубликовала сравнительный бенчмарк ассистентов для программирования, включая GPT-5.5, Claude Opus 4.7 и DeepSeek V4. Ключевой вывод: GPT-5.5 знаменует собой первый возврат OpenAI на передний край в моделях для кодинга за последние шесть месяцев, при этом инженеры SemiAnalysis теперь чередуют между Codex и Claude Code после того, как ранее почти исключительно полагались на Claude. GPT-5.5 основана на новом подходе к предварительному обучению с кодовым названием “Spud” и представляет собой первое расширение масштаба предварительного обучения OpenAI со времён GPT-4.5.
При практических испытаниях проявилось явное разделение ролей. Claude отвечает за планирование новых проектов и первичную настройку, тогда как Codex особенно силён в исправлениях багов, требующих интенсивных рассуждений. Codex демонстрирует более сильное понимание структур данных и логических рассуждений, но испытывает трудности с тем, чтобы выводить неоднозначные намерения пользователя. В задаче на одной панели Claude автоматически воссоздал компоновку эталонной страницы, но сфабриковал большие объёмы данных, тогда как Codex пропустил компоновку, зато предоставил значительно более точные данные.
Анализ выявляет деталь манипуляции бенчмарком: февральский блог OpenAI призывал отрасль перейти на SWE-bench Pro как новый стандарт для бенчмарков кода. Однако в объявлении GPT-5.5 переход осуществлён на новый бенчмарк под названием “Expert-SWE.” Причина, спрятанная в мелком шрифте, заключается в том, что GPT-5.5 был обойдён Opus 4.7 на SWE-bench Pro и заметно уступил ненадлежащим образом не раскрытому Anthropic Mythos (77.8%).
Что касается Opus 4.7, Anthropic опубликовала разбор последствий через неделю после релиза, признав три ошибки в Claude Code, которые сохранялись в течение нескольких недель с марта по апрель, затрагивая почти всех пользователей. Ранее несколько инженеров сообщали о деградации производительности в версии 4.6, но их замечания были отклонены как субъективные. Кроме того, новый токенизатор Opus 4.7 увеличивает использование токенов до 35%, что Anthropic откровенно признала — фактически это означает скрытое повышение цены.
DeepSeek V4 оценили как “удерживающий темп с передним краем, но не ведущий,” позиционируя себя как самый бюджетный вариант среди закрытых моделей. Анализ также отметил, что “Claude по-прежнему превосходит DeepSeek V4 Pro в высокосложных задачах китайской письменности,” и прокомментировал, что “Claude выиграл у китайской модели на её родном языке.”
В статье вводится ключевая идея: цена модели должна оцениваться через “стоимость за задачу,” а не через “стоимость за токен.” Прайсинг GPT-5.5 вдвое выше, чем у GPT-5.4 (input $5, output $30 за миллион токенов), но он выполняет те же задачи, используя меньшее число токенов, поэтому фактическая стоимость не обязательно выше. Первичные данные SemiAnalysis показывают, что коэффициент входов к выходам у Codex составляет 80:1, что ниже, чем 100:1 у Claude Code.
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
OpenAI увеличивает $4 миллиардов для развертывания совместного предприятия, оцениваемого в 10 миллиардов долларов
Согласно BlockBeats, 4 мая OpenAI привлекла более $4 миллиарда для создания нового совместного предприятия, ориентированного на помощь компаниям в адаптации его программного обеспечения с искусственным интеллектом. Предприятие, получившее название The Deployment Company, поддерживают 19 инвесторов, включая TPG Inc., Brookfield Asset Management,
GateNews37м назад
Почему одни считают, что ИИ меняет мир, а другие — что это просто очередное явление? Два диагноза от Карапати
Кархарті указал, что разрыв в восприятии ИИ связан с двумя диагнозами: 1) пользователи знакомились только с бесплатными/старыми версиями моделей и не могут отражать реальную силу самых передовых агентных моделей; 2) улучшения способностей заметны в основном в высокотехнологичных областях и при этом проявляются асимметрично. Из-за этого платящие пользователи и обычные читатели видят разные явления, что приводит к параллельным мирам и взаимным заблуждениям. Вывод для читателей на Тайване: реальное использование самых передовых моделей для выполнения производственных задач и проверка оснований выводов — единственный способ избежать того, чтобы медиамифы сбивали с пути.
ChainNewsAbmedia39м назад
Applied Digital привлекла мостовое финансирование на 300 миллионов долларов под проекты для центров обработки данных ИИ во главе с Goldman Sachs
По данным Globenewswire, Applied Digital 4 мая привлекла $300 млн в виде старшего обеспеченного мостового финансирования, организованного Goldman Sachs, чтобы ускорить развитие своих AI-центров обработки данных. Финансирование обеспечено проектными активами, может быть погашено досрочно без штрафов, и компания планирует продолжить
GateNews39м назад
Кархэпти «пусть LLM возражает сама себе»: 4 шага для противодействия мыслительным искажениям с помощью ИИ
В этой статье собраны четыре шага из методики Андрея Карпати «Пусть LLM опровергает собственные тезисы»: сначала используйте LLM, чтобы отшлифовать черновик; затем начните новый диалог — пусть она предложит контраргументы и приведёт доказательства; после этого оформите всё в виде цельной статьи с опровержением; в конце сопоставьте обе стороны и проверяемые доказательства — решение принимает человек. Напоминание: у LLM есть склонность к сикофании, не принимайте согласие за истину — рассматривайте её как генератор аргументов, а не как арбитра при вынесении вердикта; также можно устроить взаимные дебаты между двумя LLM, чтобы снизить предвзятость. Этот метод особенно ценен для создания контента в 2026 году: он повышает глубину осмысления и снижает однородность.
ChainNewsAbmedia44м назад
Сэм Альтман и Дарио Амодей слишком раздражают! Апокалиптические прогнозы об ИИ и чувство относительной обделённости заставляют американцев испытывать неприязнь к ИИ
В известном подкасте Силиконовой долины《All-In Podcast》при обсуждении индустрии ИИ прозвучало довольно резкое наблюдение: отношение американского общества к ИИ переходит в негативную сторону, и эта волна эмоций находит самое конкретное выражение в том, что в качестве главной мишени выступают дата-центры, которые ИИ-компании сейчас в срочном порядке строят по всей территории США. Источником такого неприятия могут быть как ИИ-апокалиптические настроения, страх безработицы, так и более глубокое недовольство: новая волна технологических инноваций, похоже, снова приведёт к обогащению лишь немногих, тогда как жизнь большинства людей не станет заметно лучше.
В США местные органы власти уже отменяют решения о строительстве дата-центров
Chamath Palihapitiya в эфире заявил, что проблемы, с которыми сейчас сталкивается ИИ-индустрия, связаны не только с конкуренцией моделей, капитальными затратами или нехваткой вычислительных мощностей, а с тем, что «американцы в целом всё больше и больше испытывают отвращение к этой теме — ИИ». Он отметил, что источником такого отвращения могут быть, в том числе, ИИ
ChainNewsAbmedia2ч назад
Вопросы сообщества об идеологической предвзятости в основных моделях ИИ 4 мая
По данным BlockBeats, 4 мая пользователь X Freeze из сообщества, посвящённого ИИ, задал вопрос, демонстрируют ли мейнстримные ИИ-модели, включая ChatGPT, Claude и Gemini, систематическую предвзятость, будучи менее согласованными с консервативными позициями по таким темам, как пол, иммиграция и преступность. Пользователь предположил, что как ИИ
GateNews4ч назад