摘要:
PodSumm:播客音频摘要 论文地址 简介 最近播客的流行给现有的内容发现和推荐系统带来了巨⼤的机遇和⼀系列独特的挑战。与听音乐不同,播客通常需要听众长时间积极关注。演讲者的演讲风格、幽默类型或制作质量等主观属性可能会影响听众的偏好,但很难从文本描述中辨别出来。 在视频领域,电影预告片允许观众预览 阅读全文
摘要:
LAS LAS是一个做语音识别的经典seq2seq模型,主要分为三个部分Listen、Attention、Spell Listen Listen部分就是一个encoder。 输入声学特征向量,提取信息、消除噪声,输出向量。 encoder可以是RNN 也可以是CNN。比较常见的是先用CNN,再用RN 阅读全文