0s
200s
Не менее 3 звезд
Показывать сначала:
5/5
GPT-Audio-Mini - облегчённая аудио модель, которая умеет генерировать аудио на основе текста и аудио.
Средняя скорость генерации ~ 5.55 сек
GPT-Audio - аудио модель, которая умеет генерировать аудио на основе текста и аудио.
Средняя скорость генерации ~ 7.82 сек
Nemotron ASR — модель для преобразования речи в текст с настраиваемым уровнем ускорения обработки.
Средняя скорость генерации ~ 22.01 сек
Nova SR повышает качество аудио, меняет битрейт под выбранный формат и очищает звук.
Средняя скорость генерации ~ 2.08 сек
Voice Changer — это современная модель для изменения голоса в аудио, позволяющая трансформировать голос в выбранный стиль.
Средняя скорость генерации ~ 2.73 сек
Silero Vad – сверхлегкая модель для распознавания речи, которая предназначена для распознования речи в аудиофайле
Средняя скорость генерации ~ 15.11 сек
DeepFilterNet3 — удаление шумов из аудио
Средняя скорость генерации ~ 13.13 сек
Maya — Text-to-Speech (генерация речи из текста)
Средняя скорость генерации ~ 121.89 сек
VibeVoice — лёгкая и быстрая модель для синтеза речи, идеальная для реального времени и ресурсоограниченных приложений.
Средняя скорость генерации ~ 48.32 сек
MiniMax Speech 2.6 Turbo — модель синтеза речи, создающая реалистичное аудио по текстовому описанию.
Средняя скорость генерации ~ 34.36 сек
MiniMax Music — Text-to-Audio (v1.5 & v2) — нейросеть для генерации аудио по текстовому описанию. Она создаёт музыку, атмосферные звуки и фоновые композиции в разных жанрах и стилях.
Средняя скорость генерации ~ 151.86 сек
Silero TTS – это высокоскоростная нейросетевая модель синтеза речи (text-to-speech), которая мгновенно преобразует текст в реалистичную, естественно звучащую речь.
Средняя скорость генерации ~ 1.05 сек
Silero STT – это высокоскоростная нейросетевая модель распознавания речи (speech-to-text), которая мгновенно преобразует речь в текст.
Средняя скорость генерации ~ 1.45 сек
Elevenlabs TTS Turbo-v2.5 – это высокоскоростная нейросетевая модель синтеза речи (text-to-speech), которая мгновенно преобразует текст в реалистичную, естественно звучащую речь.
Средняя скорость генерации ~ 6.00 сек
Eleven-v3 специализируется на естественном преобразовании текста в речь с поддержкой стриминга и коммерческим использованием.
Средняя скорость генерации ~ 1.85 сек