Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Google совершенствует функцию преобразования текста в речь (TTS) в Gemini. Во вторник на Google I/O 2025 компания представила новую функцию TTS, основанную на нативном аудиовыводе, которая позволяет Gemini "вести беседу более выразительно". Тульси Доши (Tulsee Doshi) из Google продемонстрировала быструю демонстрацию TTS-моделей Gemini 2.5 на сцене в Маунтин-Вью. Она показала голосовой помощник на основе искусственного интеллекта, который звучит более естественно и менее роботизированно, с более тонкими нюансами.
TTS может общаться более чем на 24 языках, плавно переключаясь между ними. В демонстрации модель начала говорить на английском языке, затем переключилась на хинди и вернулась обратно к английскому. Во всех случаях использовался один и тот же голос, что помогало создать иллюзию того, что это один и тот же человек. TTS также может переключаться на шепот (который прозвучал немного жутковато) на лету.
Новая функция преобразования текста в речь уже сегодня доступна в Gemini API. Также во вторник Gemini Live API получит 2.5 Flash preview нативной аудио-диалоговой системы.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...