摘要: 强化学习的概念 在监督学习中,我们会给学习算法一个训练集,学习算法尝试使输出尽可能接近训练集给定的真实值y;训练集中,对于每个样本的输入x,都有确定无疑的正确输出y 在强化学习中,我们只会给学习算法一个奖励函数(reward function),用这个函数来提示学习主体(learning agent 阅读全文
posted @ 2018-07-19 19:00 YongkangZhang 阅读(621) 评论(0) 推荐(0) 编辑
摘要: 问题描述 鸡尾酒会问题 在一个酒会上,n个人站在不同的位置同时说话,另外有n个麦克风放在房间不同的位置录音,由于每个麦克风、人的位置不同,所以n个麦克风录下的声音是有差别的。现在要用n个麦克风的录音,还原n个人的说话声音。 建立模型 为了简化问题,我们把某时刻某个声音看作一个实数。令n维列向量$s^ 阅读全文
posted @ 2018-07-19 10:32 YongkangZhang 阅读(274) 评论(0) 推荐(0) 编辑