Сообщение Gate News, 20 апреля — Топовые AI-модели отлично решают сложные задачи вроде олимпиады по математике, но испытывают трудности с рутинной корпоративной работой, согласно Дэвиду Мейеру из Databricks. Некоторые модели могут исправить неверный номер счета-фактуры вместо того, чтобы пометить его как ошибку, а инструменты для кодирования вроде Claude также могут хуже справляться с задачами по data engineering.

Разрыв связан с фундаментальными различиями между корпоративными данными и публичным текстом веба, который используют для обучения больших моделей. Корпоративные данные часто содержат расплывчатые названия колонок, множество пустых полей и коды, хранящиеся в виде обычного текста. В одном академическом исследовании показатель F1 AI-модели, который балансирует точность и полноту, упал с 0.94 на публичных данных до 0.07 на корпоративных данных для задачи по data engineering. Кроме того, большие модели часто по умолчанию опираются на знакомые шаблоны из обучения; некоторые по умолчанию подставляли Structured Query Language (SQL) даже после получения инструкций и документации для проприетарного языка запросов компании.

Небольшие модели с открытым исходным кодом, настроенные с помощью обучения с подкреплением, могут справляться с конкретными задачами более эффективно и при существенно более низких затратах на обучение, чем большие универсальные модели. Databricks разрабатывает меньшие AI-агенты для конкретных рабочих процессов, например KARL, который использует обучение с подкреплением для многошагового рассуждения с документами компании. Индустрия смещается от опоры на гигантские модели к гибридным архитектурам, где небольшие эффективные модели обрабатывают типовой объем, а затем эскалируют только неясные или сложные случаи в более крупные и дорогие системы.

Недавно Databricks приобрела Quotient AI, чтобы помочь крупным предприятиям запускать AI-агентов более надежно. Конкуренция в AI-бизнесе сейчас сосредоточена на том, чтобы пройти весь жизненный цикл AI, включая системы обратной связи для отслеживания ошибок и непрерывного улучшения моделей со временем, благодаря чему инструменты для оценки и настройки становятся все более ценными после внедрения.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

04-20 04:51

Губернатор Мэриленда принимает Microsoft и лидеров в области ИИ, чтобы обсудить риски кибербезопасности со стороны передовых ИИ‑систем

04-20 01:46

Еженедельный объем обращений к моделям ИИ в Китае упал на 23,8%, США впервые за два месяца обогнали Китай

04-18 01:01

AI 生成的缺陷报告令 cURL 维护团队不堪重负

04-17 23:01

DeepSeek стремится к $300M при оценке $10B миллиард, поскольку оценки OpenAI и Anthropic вызывают дебаты на рынке

04-17 09:21

OpenAI обновляет Codex до ИИ-агента, который управляет рабочим столом и автоматизирует процессы разработки

комментарий

0/400

Нет комментариев