Загрузка...

Новый инструмент преобразования текста в речь от Google переключает языки на лету.

262Опубликовано 21.05.2025 в 01:48Категория: ИИИсточник

Google Gemini TTS

Google совершенствует функцию преобразования текста в речь (TTS) в Gemini. Во вторник на Google I/O 2025 компания представила новую функцию TTS, основанную на нативном аудиовыводе, которая позволяет Gemini "вести беседу более выразительно". Тульси Доши (Tulsee Doshi) из Google продемонстрировала быструю демонстрацию TTS-моделей Gemini 2.5 на сцене в Маунтин-Вью. Она показала голосовой помощник на основе искусственного интеллекта, который звучит более естественно и менее роботизированно, с более тонкими нюансами.

TTS может общаться более чем на 24 языках, плавно переключаясь между ними. В демонстрации модель начала говорить на английском языке, затем переключилась на хинди и вернулась обратно к английскому. Во всех случаях использовался один и тот же голос, что помогало создать иллюзию того, что это один и тот же человек. TTS также может переключаться на шепот (который прозвучал немного жутковато) на лету.

Новая функция преобразования текста в речь уже сегодня доступна в Gemini API. Также во вторник Gemini Live API получит 2.5 Flash preview нативной аудио-диалоговой системы.

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...