Сообщение Gate News, 17 апреля — Google представила Gemini 3.1 Flash TTS, усовершенствованную модель преобразования текста в речь с расширенными функциями выражения эмоций и контроля, 15 апреля. Новая модель будет поэтапно внедряться через API для разработчиков, корпоративную платформу Vertex AI и инструменты для совместной работы.
Ключевые возможности модели включают аудиотеги на основе естественного языка для тонкой настройки скорости, интонации и эмоций, а также «Director Mode» для указания сцен и ролей персонажей, чтобы генерировать более нюансированную голосовую подачу. Функция нескольких спикеров позволяет одновременно генерировать диалоги, обеспечивая более естественные сценарии общения, подходящие для подкастов, аудиоконтента и ИИ‑ассистентов. Модель поддерживает более 70 языков и диалектов, отражая региональные акценты и выражения для локализованного голосового опыта по всему миру.
Google подчеркнула производительность и эффективность по стоимости, добившись высоких результатов на бенчмарках слепой оценки людьми, одновременно снижая вычислительные затраты благодаря архитектуре Flash — она предназначена для масштабного корпоративного внедрения. Сгенерированное аудио включает водяной знак SynthID, чтобы идентифицировать контент, сгенерированный ИИ, и бороться с дезинформацией.
Этот шаг отражает усиливающуюся конкуренцию в голосовых интерфейсах. OpenAI объединяет функции реального времени для голоса с разговорным ИИ для взаимодействий, похожих на человеческие, а Meta расширяет инвестиции в ИИ‑персонажей с голосовыми социальными сценариями. Наблюдатели отрасли отмечают, что хотя высокоуровневое актерское мастерство и креативная работа, вероятно, пока останутся в основном ориентированными на людей, повторяющиеся и массовые рынки производства могут постепенно перейти к использованию ИИ в дубляже, рекламе и сегменте аудиокниг.
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
Amazon расширяет сотрудничество с OpenAI: модели размещены в Bedrock, эксклюзив Microsoft завершён
3 мая OpenAI объявила о расширении сотрудничества с облачными сервисами Amazon (AWS): модели OpenAI и кодирующие агенты Codex будут доступны клиентам AWS через Amazon Bedrock. Согласно сообщению CNBC, это расширение стало ключевым следующим шагом после того, как в конце апреля OpenAI и Microsoft прекратили облачный эксклюзивный контракт: OpenAI перешла от формата «только Microsoft Cloud» к многооблачному развертыванию. AWS к этому моменту уже завершила первоначальную интеграцию продуктов OpenAI на платформе Bedrock.
Контекст: завершение эксклюзивного контракта OpenAI—Microsoft и продление IP-лицензии до 2032 года
В конце апреля OpenAI и Microsoft заключили новое соглашение: прежняя структура «Microsoft — эксклюзивный доступ к продуктам OpenAI и IP» завершилась, Op
ChainNewsAbmedia4ч назад
Исследователи внедряют технологию DPN-LE для редактирования личностных черт ИИ, изменяя всего 0,5% нейронов
По данным BlockBeats, 3 мая исследователь ИИ Брайан Роммель сообщил, что его Zero-Human Company внедрила технологию DPN-LE (Dual Personality Neuron Localization and Editing) для точной настройки
GateNews4ч назад
Клод проверяет часы каждые 15 минут после получения доступа к инструменту корректировки времени
По словам разработчика Ом Патель, Claude AI начал часто проверять время после получения доступа к инструменту для работы со временем 3 мая, при этом модель проверяла его каждые 15 минут. Наблюдение подчёркивает, что ранее большие языковые модели не имели встроенного восприятия времени и не знали о текущем времени или
GateNews6ч назад
Founders Fund закрывает флагманский фонд на $6 миллиардов — крупнейший с момента основания — 3 мая
По данным Bloomberg, Founders Fund завершил сбор средств для своего последнего флагманского фонда на сумму $6 миллиардов 3 мая, что существенно превысило предыдущий фонд примерно $3,4 миллиарда. Фонд, сооснователем которого является миллиардер Питер Тиль, будет ориентирован на быстрорастущие сектора, включая искусственный
GateNews6ч назад
Последний опрос POLITICO: 45% американцев считают, что инвестирование в криптовалюту слишком рискованно, 44% опасаются, что ИИ развивается слишком быстро
Согласно опросу POLITICO, несмотря на то что индустрии ИИ и криптовалют внесли значительные политические средства в выборы в Конгресс США 2026 года, американская общественность по-прежнему в целом настроена скептически по отношению к обеим сферам. Опрос показал, что 45% американцев считают, что инвестирование в криптовалюту не на сумму
GateNews7ч назад
OpenAI высказывает Флейр призывает к IPO в 2027 году, а Атман поддерживает выход на биржу в Q4 2026
Финансовый директор OpenAI Сара Фрайер относится к графику IPO на 2026 год с осторожностью: она отмечает, что недавние контракты на вычислительные мощности и дата-центры на сумму почти 1 триллион долларов существенно превышают текущую годовую выручку в 25 млрд долларов; если рост не сможет перекрыть взятые обязательства, риск будет закладываться рынком через дисконт. Это проявляет расхождения с публичной позицией генерального директора Сэма Альтмана, который выступает за выход на биржу в 2026 году в IV квартале. Фрайер склонна отложить IPO до 2027 года, чтобы выстроить финансовую дисциплину; компания неоднократно выпускала заявления, опровергающие наличие внутренних разногласий.
ChainNewsAbmedia9ч назад