python系列&deep_study系列：阿里云通义SenseVoice与CosyVoice两款语音基座模型正式开源

阿里云通义SenseVoice与CosyVoice两款语音基座模型正式开源

阿里云通义SenseVoice与CosyVoice两款语音基座模型正式开源

阿里云通义SenseVoice与CosyVoice两款语音基座模型正式开源

近日，阿里云通义宣布正式开源两款前沿的语音基座模型SenseVoice与CosyVoice，这两款模型分别针对语音识别与语音生成领域，以其卓越的性能和广泛的应用潜力见长，其中SenseVoice在语音识别方面的表现尤为突出，其识别效果已超越行业标杆OpenAI Whisper。

SenseVoice作为一款专注于高精度多语言语音识别的模型，其独特之处在于其广泛的语言覆盖、强大的情感辨识能力以及高效的推理性能。该模型基于超过40万小时的多样化语音数据训练而成，能够支持超过50种语言的识别，展现出卓越的跨语言识别能力。与市场上其他主流模型相比，SenseVoice在识别精度上实现了显著提升，特别是在复杂场景下的表现尤为出色。

除了基本的语音识别功能外，SenseVoice还具备丰富的情感识别与音频事件检测能力。它能够精准捕捉语音中的情感波动，如喜悦、悲伤、愤怒等，并在测试数据上展现出与当前最佳情感识别模型相媲美甚至更优的性能。同时，SenseVoice还内置了声音事件检测功能&#x