Google объявила Gemini 3.5 Live Translate — AI-модель для перевода «речь-в-речь» (speech-to-speech), обеспечивающую мгновенный перевод голоса в голос более чем на 70 языков. Выпуск расширяет доступность перевода в реальном времени по сравнению с прежними требованиями для отдельных телефонов или наушников Google, предлагая более низкую задержку, чем предыдущие реализации. Google занимается переводом в реальном времени уже несколько лет как одним из своих пионерских экспериментов в сфере машинного обучения: ранее компания запускала ограниченный перевод в реальном времени в приложении Translate год назад, прежде чем сегодня развернуть его шире.
Gemini 3.5 Live Translate: технические характеристики и семейство моделей
Gemini 3.5 Live Translate входит в семейство версии 3.5, которое дебютировало на I/O. До сегодняшнего дня Google выпустила только версию Flash, а модель Pro, как ожидается, выйдет в ближайшие недели. Модель «речь-в-речь» настроена на автоматическое определение и перевод более чем на 70 языков.
По словам Google, Gemini 3.5 Live Translate достаточно быстра, чтобы идти в темпе обычного разговора: перевод отстает от говорящего всего на несколько секунд, при этом сохраняя интонацию, темп и высоту голоса. Модель выдает голосовой ответ, который звучит ближе к исходному говорящему, чем к абстрактному «роботу». Google опубликовала демо, записанные в контролируемых условиях, демонстрирующие эти возможности.
Развертывание по экосистеме Google и доступ пользователей
Gemini 3.5 Live Translate развертывается в нескольких частях экосистемы Google. Модель доступна в Google Meet для речевого перевода во время видеозвонков. Пользователи могут пользоваться возможностями перевода, не дожидаясь длительных периодов дополнительной проверки.
Доступ к API для разработчиков и функции автоматической обработки
Разработчики могут начать работу, используя публичный предпросмотр в Gemini Live API или AI Studio. Модель непрерывно обрабатывает речь и автоматически работает со всеми многоязычными входными данными, избавляя разработчиков от ручной настройки параметров. Она также фильтрует фоновый шум в шумных окружениях.
FAQ
На какие языки рассчитан Gemini 3.5 Live Translate?
Gemini 3.5 Live Translate поддерживает более 70 языков с автоматическим определением и функциями перевода.
Где пользователи могут получить доступ к Gemini 3.5 Live Translate?
Модель развертывается в нескольких частях экосистемы Google, включая Google Meet для речевого перевода, а разработчики могут получить доступ через публичный предпросмотр Gemini Live API или AI Studio.
Как Gemini 3.5 Live Translate обрабатывает речь?
Модель непрерывно обрабатывает речь, автоматически работает с многоязычными входными данными без ручной настройки и фильтрует фоновый шум в шумных окружениях, при этом сохраняя интонацию, темп и высоту голоса говорящего.