DeepSeek V4 получает идеальный результат на Putnam-2025, делит первое место с Axiom в формальном математическом рассуждении

Gate News сообщение, 24 апреля — DeepSeek V4 опубликовала результаты оценок формального математического рассуждения, набрав идеальные 120/120 на Putnam-2025, разделив первое место с Axiom.

В практическом режиме с использованием LeanExplore и ограниченной выборки V4-Flash-Max набрала 81.00 по бенчмарку Putnam-200 Pass@8, значительно обойдя Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) и Seed-1.5-Prover (26.50). Результаты в режиме frontier показали, что V4 опережает Seed-1.5-Prover (110/120) и Aristotle (100/120).

V4 использует гибридный подход к формально-неформальным рассуждениям: неформальные рассуждения генерируют кандидаты решений на естественном языке, самопроверка отфильтровывает результаты, а формальный агент завершает строгие доказательства в Lean. Результаты в режиме frontier использовали масштабирование вычислений в больших объемах, тогда как оценки в практическом режиме лучше отражают возможности стандартного развертывания.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Маск объявил о том, что xAI официально переименована в SpaceXAI, и что весь проект полностью объединён с SpaceX

Согласно объявлению Илона Маска (Elon Musk) в X от 6 мая по местному времени, xAI больше не существует как отдельная компания: она полностью вошла в SpaceX и была переименована в SpaceXAI. В тот же день SpaceXAI и AI-исследовательская компания Anthropic завершили соглашение о сотрудничестве в области вычислительных мощностей, которое позволяет ей использовать суперкомпьютер Colossus 1 с вычислительными ресурсами более 300 мегаватт (МВт).

MarketWhisper9м назад

Основатель Pi Network выступил на Consensus 2026 с докладом о верификации личности в эпоху ИИ

Согласно объявлению официального аккаунта Pi Network в X, сооснователь Pi Network Чэндиао Фань (Chengdiao Fan) выступил 6 мая на конференции Consensus 2026 в Майами (США) с докладом на тему «практическая интеграция Web3, AI и блокчейна», а Кокарис — 7 мая принял участие в дискуссии с названием «как доказать, что вы человек, в мире AI».

MarketWhisper16м назад

Apple согласилась выплатить 250 млн долларов в рамках коллективного мирового соглашения по иску, связанному с Apple Intelligence

По сообщению BBC от 6 мая, компания Apple 5 мая подала в федеральный суд в Калифорнии предложенное соглашение о мировом урегулировании, согласившись выплатить 250 млн долларов (около 184 млн фунтов стерлингов) для урегулирования коллективного иска, в котором утверждается, что она вводила в заблуждение рекламой относительно функций Apple Intelligence и Siri на базе ИИ; Apple в соглашении отрицает любые неправомерные действия, и соглашение подлежит одобрению судьей.

MarketWhisper31м назад

Предпросмотр Tencent Hunyuan Hy3 показывает рост токенов в 10 раз за две недели

С момента запуска две недели назад предварительная версия Hy3 от Tencent Hunyuan показала 10-кратный рост числа обращений к токенам по сравнению с предыдущей моделью Hy2. Особенно резко увеличилось использование токенов в сценариях с кодом и агентами; об этом сообщают приложения WorkBuddy, Codebuddy и Qclaw, указавшие на рост

GateNews39м назад

Маск рассматривал идею объединить OpenAI с Tesla в конце 2017 года, суд заслушал показания

Согласно показаниям на федеральном суде в Окленде, Калифорния, Илон Маск в конце 2017 года и в начале 2018 года рассматривал вариант объединить OpenAI с Tesla — об этом заявила Шивон Зилис, руководитель Neuralink и бывший член совета директоров OpenAI. Зилис показала, что Маск изучал возможность предложить Сэму Альтману место в совете директоров Tesla

GateNews59м назад

Рост пользователей Gemini и Claude ускоряется в апреле, тогда как рост ChatGPT замедляется до 30% год к году

Согласно последнему отчёту Bank of America, Gemini и Claude в апреле показали сильный рост числа пользователей, в то время как расширение ChatGPT замедлилось. В США по веб-посещениям ChatGPT вырос на 30% год к году до 34 миллионов посещений (что эквивалентно 6% трафика Google), тогда как Claude взлетел на 715% год к году до 7,1 миллионов.

GateNews1ч назад
комментарий
0/400
Нет комментариев