Audio & Speech

AI tools for text-to-speech, music generation, speech recognition, and audio processing.

7 open-source tools in this category

Whisper (OpenAI)

General-purpose speech recognition. Transcribes audio to text in 100+ languages.

Deep learning text-to-speech toolkit. 1100+ languages, multiple voices, fine-tunable models.

High-performance speech-to-text in C/C++. Runs Whisper models locally on CPU efficiently.

Text-prompted generative audio model. Generates speech, music, sound effects from text.

Meta's audio generation library. MusicGen + AudioGen for music and sound effect generation.

Stable diffusion for real-time music generation. Generates music from text prompts via spectrograms.

Soundscape generation and synthesis. Mixes sound events to create realistic audio scenes.