摘要: 引言: Normal Equation 是最基础的最小二乘方法。在Andrew Ng的课程中给出了矩阵推到形式,本文将重点提供几种推导方式以便于全方位帮助Machine Learning用户学习。 Notations: RSS(Residual Sum Squared error):残差平方和 β: 阅读全文
posted @ 2017-03-25 12:03 XiaoliSmile 阅读(3521) 评论(0) 推荐(0) 编辑
摘要: 1.Mongo和MongoClient的关系 MongoClient继承自Mongo,使用Mongo也可建立连接,但是需要使用与Mongo适应的MongoOptions,MongoURI等类型。 2.建立连接 在MongoDB Java Driver API中,要操作MongoDB的第一步和使用其他 阅读全文
posted @ 2017-02-03 16:49 XiaoliSmile 阅读(3074) 评论(0) 推荐(0) 编辑
摘要: MinHash 首先它是一种基于 Jaccard Index 相似度的算法,也是一种 LSH 的降维的方法,应用于大数据集的相似度检索、推荐系统。下边按我的理解介绍下MinHash 问题背景 给出N个集合,找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合。当N比较小时,比如K级,Jacca 阅读全文
posted @ 2016-12-26 11:46 XiaoliSmile 阅读(2005) 评论(0) 推荐(0) 编辑
摘要: 在学习nlp自然语言处理的过程中,免不了要使用中文分词资源作为分词依据或前期调研。所以想研究中文分词,第一步需要解决的就是资源问题。 作为中文信息处理的壁垒,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法(正向、逆向)等需要一个好的词 阅读全文
posted @ 2016-09-03 14:25 XiaoliSmile 阅读(1395) 评论(0) 推荐(0) 编辑
摘要: 由于在工作中应用到xgboost做特征训练预测,因此需要深入理解xgboost训练过程中的参数的意思和影响。 通过search,https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-w 阅读全文
posted @ 2016-08-02 19:52 XiaoliSmile 阅读(4324) 评论(1) 推荐(0) 编辑
摘要: 本文以NMF和经典SVD为例,讲一讲矩阵分解在推荐系统中的应用。 数据 NMF 关于NMF,在浅谈隐语义模型和NMF已经有过介绍。 用户和物品的主题分布 运行后输出: 可视化物品的主题分布: 结果: 从距离的角度来看,item 5和item 6比较类似;从余弦相似度角度看,item 2、5、6 比较 阅读全文
posted @ 2016-03-01 17:56 XiaoliSmile 阅读(1899) 评论(0) 推荐(0) 编辑
摘要: 本文从基础介绍隐语义模型和NMF. 隐语义模型 ”隐语义模型“常常在推荐系统和文本分类中遇到,最初来源于IR领域的LSA(Latent Semantic Analysis),举两个case加快理解。 向用户推荐物品 在推荐系统中,可以通过隐含语义模型将用户(user)和物品(item)自动分类,这些 阅读全文
posted @ 2016-03-01 17:52 XiaoliSmile 阅读(2168) 评论(0) 推荐(0) 编辑
摘要: 题目内容 百度搜索框的suggestion,比如输入北京,搜索框下面会以北京为前缀,展示“北京爱情故事”、“北京公交”、“北京医院”等等搜索词。如何设计使得空间和时间复杂度尽量低。 题目分析 在字符串集合S中,找出相同前缀P的字符串。 设size(S) = N,查询次数为M。 1.朴素方案 朴素得, 阅读全文
posted @ 2016-03-01 14:15 XiaoliSmile 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 导读 最近在研究”基于时序行为的协同过滤算法“中重点提到了矩阵分解模型,因此总结下最近比较火的算法:矩阵分解模型。 经过kddcup和netflix比赛的多人多次检验,矩阵分解可以带来更好的结果,而且可以充分地考虑各种因素的影响,有非常好的扩展性,因为要考虑多种因素的综合作用,往往需要构造cost 阅读全文
posted @ 2016-03-01 14:07 XiaoliSmile 阅读(3372) 评论(0) 推荐(0) 编辑
摘要: 前言: 蓄水池抽样:从N个元素中随机的等概率的抽取k个元素,其中N无法确定。 适用场景: 模式识别等概率抽样,抽样查看渐增的log日志(无法先保存整个数据流然后再从中选取,而是期望有一种将数据流遍历一遍就得到所选取的元素,并且保证得到的元素是随机的算法)。 伪代码: 解释:先选中第1到k个元素,作为 阅读全文
posted @ 2016-02-24 17:49 XiaoliSmile 阅读(3158) 评论(0) 推荐(0) 编辑