Топовые AI-модели отстают в рутинных корпоративных задачах: Databricks говорит, что небольшие специализированные модели справляются лучше

Сообщение Gate News, 20 апреля — Топовые AI-модели отлично решают сложные задачи вроде олимпиады по математике, но испытывают трудности с рутинной корпоративной работой, согласно Дэвиду Мейеру из Databricks. Некоторые модели могут исправить неверный номер счета-фактуры вместо того, чтобы пометить его как ошибку, а инструменты для кодирования вроде Claude также могут хуже справляться с задачами по data engineering.

Разрыв связан с фундаментальными различиями между корпоративными данными и публичным текстом веба, который используют для обучения больших моделей. Корпоративные данные часто содержат расплывчатые названия колонок, множество пустых полей и коды, хранящиеся в виде обычного текста. В одном академическом исследовании показатель F1 AI-модели, который балансирует точность и полноту, упал с 0.94 на публичных данных до 0.07 на корпоративных данных для задачи по data engineering. Кроме того, большие модели часто по умолчанию опираются на знакомые шаблоны из обучения; некоторые по умолчанию подставляли Structured Query Language (SQL) даже после получения инструкций и документации для проприетарного языка запросов компании.

Небольшие модели с открытым исходным кодом, настроенные с помощью обучения с подкреплением, могут справляться с конкретными задачами более эффективно и при существенно более низких затратах на обучение, чем большие универсальные модели. Databricks разрабатывает меньшие AI-агенты для конкретных рабочих процессов, например KARL, который использует обучение с подкреплением для многошагового рассуждения с документами компании. Индустрия смещается от опоры на гигантские модели к гибридным архитектурам, где небольшие эффективные модели обрабатывают типовой объем, а затем эскалируют только неясные или сложные случаи в более крупные и дорогие системы.

Недавно Databricks приобрела Quotient AI, чтобы помочь крупным предприятиям запускать AI-агентов более надежно. Конкуренция в AI-бизнесе сейчас сосредоточена на том, чтобы пройти весь жизненный цикл AI, включая системы обратной связи для отслеживания ошибок и непрерывного улучшения моделей со временем, благодаря чему инструменты для оценки и настройки становятся все более ценными после внедрения.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

MoonPay запускает MoonAgents Card — виртуальную Mastercard для AI-агентов — в пятницу

По данным The Block, MoonPay в пятницу запустила MoonAgents Card — виртуальную дебетовую карту Mastercard. Карта предназначена как для AI-агентов, так и для пользователей: она конвертирует стейблкоины в фиат непосредственно в момент оплаты и позволяет тратить средства у любого онлайн-торговца по всему миру, который принимает Mastercard. Карточка i

GateNews2ч назад

AI-агент Манфред создаёт компанию и готовится торговать криптовалютой к концу мая

AI-агент Manfred уже основал компанию и получил криптокошелёк вместе с учётными данными для найма сотрудников, совершения платежей и ведения бизнеса. Агент планирует начать криптотрейдинг к концу

GateNews3ч назад

Пользователи ChatGPT теперь могут получать доступ к подпискам на платформе OpenClaw — Сэм Альтман объявил

Согласно объявлению Сэма Альтмана сегодня, пользователи ChatGPT теперь могут входить в агентскую платформу OpenClaw, используя свои аккаунты ChatGPT, и напрямую получать доступ к своим существующим подпискам ChatGPT на платформе.

GateNews8ч назад

AI-агент Манфред создаёт компанию и планирует начать торговать криптовалютой к концу мая

Агент AI Manfred создал собственную компанию и получил криптокошелёк вместе с реквизитами для найма сотрудников, выполнения платежей и ведения бизнеса, сообщают источники. Агент планирует начать торговать криптовалютой к концу

GateNews9ч назад

AI-агенты берут под полный контроль управление компаниями! В Сан-Франциско автоматы с ИИ для автоматизированной торговли раскрывают новые возможности бизнеса

В этой публикации говорится, что торговый автомат Valerie приводится в действие OpenClaw, позволяя AI-агентам вести реальное повседневное управление бизнес-операциями, ценами, запасами, сообществом и даже банковскими счетами. Испытания показывают, что AI способен имитировать управленческие решения руководителей компаний, но возникают ценовые галлюцинации, например, когда протеиновый батончик поднимают до 15 долларов. Юридические препятствия вроде KYC, открытия банковского счета и разрешений на продукты питания пока не преодолены; хотя существуют механизмы, такие как трасты, позволяющие AI-агентам владеть компанией, на практике по-прежнему много сложностей.

ChainNewsAbmedia12ч назад

AI-агент Манфред создает компанию, получает криптокошелек перед запуском торгов в конце мая

AI-агент Manfred создал собственную компанию и получил криптокошелёк вместе с учётными данными для найма сотрудников, проведения платежей и ведения бизнеса. Агент не планирует начинать торговать криптовалютой до конца

GateNews15ч назад
комментарий
0/400
Нет комментариев