Кыргызстанская модель синтеза речи Kani TTS 2 оказалась в топе на платформе Hugging Face

Евгения Комарова Общество / Эксклюзив
VK X OK WhatsApp Telegram

Команда кыргызстанского стартапа NineNineSix вновь продемонстрировала свои достижения на международной технологической арене, о чем сообщили в Парке высоких технологий (ПВТ) Кыргызстана.

Недавно стартап представил обновленную версию своей модели синтеза речи — Kani TTS 2, которая уже успела занять одно из первых мест среди TTS-моделей на Hugging Face, крупнейшей мировой платформе для искусственного интеллекта.

Kani TTS 2 является значительным шагом вперед по сравнению с предыдущей версией, обеспечивая возможность генерации до 40 секунд речи за один проход, что более чем в два раза превышает возможности первой модели.

По словам представителей ПВТ, для открытой модели из Кыргызстана такое достижение в топе TTS на Hugging Face является редким и важным событием.

О команде NineNineSix

NineNineSix — это группа кыргызстанских разработчиков, специализирующихся на технологиях в области искусственного интеллекта и языковых решений.

Ранее команда разработала первую версию Kani TTS, а также создала AI-ассистента AkylAi и голосовую колонку, который стал первым искусственным интеллектом, говорящим на кыргызском языке.

Голоса для языков с малым количеством ресурсов

Значительная часть крупных компаний в сфере AI ориентируется на английский и другие широко используемые языки, оставляя малоресурсные языки без внимания. Однако NineNineSix выбрала другой путь.

Kani TTS 2 поддерживает кыргызский, английский и испанский языки, а архитектура модели позволяет обучать её для других языков, акцентов и диалектов.

Одной из ключевых особенностей проекта является то, что команда поделилась полным кодом предварительного обучения, что дает возможность другим странам или исследовательским группам создавать свои собственные голосовые модели на основе Kani TTS 2.

Сооснователь nineninesix.ai Нурсултан Бакашов отметил: «Kani TTS 2 — это следующий этап после нашей первой версии: мы сделали генерацию речи более стабильной и научили модель обрабатывать длинные фрагменты. Наша цель — создание компактных и открытых моделей, которые легче запускать и адаптировать под различные языки и акценты, включая малоресурсные. Мы хотим продемонстрировать, что технологии мирового уровня могут развиваться в Кыргызстане, поэтому открыли как веса модели, так и весь код для предварительного обучения, чтобы любая команда могла обучить TTS с нуля для своего языка.»

Kani TTS 2 включает в себя следующие улучшения:

* Генерация речи до 40 секунд за один проход;

* Поддержка zero-shot voice cloning, что позволяет клонировать голос на основе короткого аудиофрагмента;

* Полностью открытая архитектура и код обучения;

* Вход в топ-3 TTS моделей на Hugging Face.

Как отметили в ПВТ, модель обладает около 400 миллионами параметров, была предобучена на примерно 10 000 часов речевых данных и может функционировать на GPU с 3 ГБ видеопамяти, что делает её доступной для локального и серверного применения.

В ПВТ подчеркнули, что Kani TTS 2 — это не просто еще одна модель AI. Это подтверждение того, что кыргызстанские специалисты способны разрабатывать технологии мирового уровня и конкурировать на глобальном рынке искусственного интеллекта. NineNineSix показывает, что Кыргызстан может не только потреблять, но и создавать передовые AI-решения.
VK X OK WhatsApp Telegram

Читайте также: