微软亚洲研究院语音组的研究成果

微软亚洲研究院语音组的研究方向主要是语音识别\语音合成\ 人际间语音互动\音频分析检索.

语音合成
研究方向：自然用户界面

研究小组：语音组 2007/01/01
我们的任务是，让计算机像人一样自然的说话。我们的研究包括：预测及实现自然韵律；可大可小的语音合成及文字预处理平台；主观与客观评估语音质量等。我们开发了多语言的、可供文语转换的通用研究平台，综合文本分析、韵律分析以及单元选择和拼接等。

详细内容:
请听在线演示自然流利的普通话和英文文语转换“木兰”合成系统（网址：http://www.research.microsoft.com/speech/tts.asp）。

音乐导航
研究方向：自然用户界面

研究小组：语音组 2008/11/18
音乐导航（Music Steering），是指通过音乐内容分析、推荐和筛选，交互式生成音乐列表，使你可以方便地找到想听的歌曲。当用户有几千首歌储存在音乐播放器中（比如iPod, Zune,和智能手机），如何选择想要听得音乐便成了一个问题。

详细内容:
用户可能没有时间从中选择所有想听的音乐；而且用户在不同的时候也想听不同的音乐。目前音乐播放器提供的“shuffle” 功能，基本上是随机播放音乐，只能满足用户最基本的需求。“音乐导航”提供给用户“smart shuffle” — 一种便捷的方式来选择和欣赏音乐。通过“音乐导航”中，用户可以只选择一首音乐，系统就会自动生成一个”音乐电台”，推荐给用户一些相似的音乐。用户可以欣赏推荐的歌曲，也可以选择喜欢或删除不喜欢的歌曲。基于用户的反馈和偏好，歌曲推荐列表(电台中的音乐)就会自动地调整。用户还可以通过音乐筛选来选择适合不同场景下听的音乐，比如在阅读时听柔和的音乐。其中的主要技术是自动音乐内容分析，并对每一首歌检测50个音乐属性，包括风格、乐器、音调、和节奏等。基于这些属性来推荐音乐，生成音乐电台。

能说会唱的小人头
研究方向：自然用户界面

研究小组：语音组 2008/11/18
“能说会唱的人小人头”展示一个新的音频/视频人机界面。经此界面可由隐马可夫统计模型将文字转成语音，词与谱换为歌唱，此外头部动作与嘴型同步的视频信号也将与说/唱的音频信号一同播放。

详细内容:
统计模型由音频与视频的信息和相关的文字，歌词与音符（旋律）批量资料进行训练。以音频与视频的信息及其运动轨迹建成参数化的统计模型。语音参数模型由语音音位的频谱包络，音长与基频之音高三部分组成。歌唱模型则由歌词与旋律训练而成。

基于最大似然度的统计模型既由个人之语音和歌唱数据客观生成，个人化之语音和歌唱信号亦可依同一客观准则合成。在视频中，自然的头部动作，同步的发声口型也可由相关的韵律变更和音位的次序而产生。如有需要，头部动作与嘴型变换也可以互动模式由人工进行调整。

posted on 2012-11-21 21:21 sunfoot 阅读(588) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

微软亚洲研究院语音组的研究成果

导航

公告