Fork me on GitHub
摘要: 编辑距离概念描述: 编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。 例如将kitten一字转成sitting: 俄罗斯科学家Vladimir Levenshtein在196 阅读全文
posted @ 2017-02-13 20:21 ranjiewen 阅读(970) 评论(0) 推荐(0) 编辑
摘要: 坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。 通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下:1. 计算每一个特征与响应变量的相关性:工程上常用的手段有计算皮尔逊系数 阅读全文
posted @ 2017-02-13 17:09 ranjiewen 阅读(527) 评论(0) 推荐(0) 编辑
摘要: 看来了一下EM算法的推导,感觉信号检测与估值的课需要复习了。。。 斯坦福大学机器学习——EM算法求解高斯混合模型(系列) 下面主要介绍EM的整个推导过程。 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的( 阅读全文
posted @ 2017-02-13 15:18 ranjiewen 阅读(326) 评论(0) 推荐(0) 编辑