pyttsx3 是一个离线文本转语音(TTS)库,支持 Windows、macOS 和 Linux 平台,无需网络连接即可运行。它提供简单的接口用于将文本转换为语音输出,适用于构建语音助手、无障碍阅读器、教育软件等应用。
PyAudio 是一个用于处理音频流的 Python 库,基于 PortAudio 构建,支持跨平台的音频录制、播放和实时音频处理。它允许开发者直接操作原始音频数据,适用于开发录音工具、语音识别前端、音频可视化等应用。虽然其 API 相对底层,但提供了灵活的音频输入输出控制能力。
SpeechRecognition 是一个简单易用的语音识别库,封装了多个语音识别引擎和 API 接口,如 Google Web Speech、Sphinx、Wit.ai、Microsoft Bing Voice 等。用户可以通过几行代码实现从麦克风或音频文件中提取文本的功能,非常适合初学者入门语音识别项目。
gTTS 是一个基于 Google Translate 文本转语音服务的 Python 库,能够将文本转换为自然流畅的语音,并支持多国语言。该库通过调用 Google 的在线 TTS 接口生成语音文件,适用于需要高质量语音输出的应用场景,如语音播报、教学视频配音等。
LibROSA 是一个专注于音乐和音频分析的 Python 库,广泛应用于音频特征提取、节奏检测、音高识别等领域。它提供丰富的音频处理函数,支持加载、显示、变换和分析音频信号,常用于机器学习中的音频预处理和特征工程。LibROSA 基于 NumPy 和 SciPy 实现,具有良好的性能和可扩展性。
Mozilla DeepSpeech 是一个开源的语音识别引擎,基于深度学习技术,使用 TensorFlow 构建。它实现了 Baidu 的 Deep Speech 模型架构,支持自定义训练和本地部署,具备较高的准确率和低延迟特性。DeepSpeech 特别适合需要离线语音识别的场景,如嵌入式设备、隐私敏感型应用等。