随笔分类 - 数据挖掘/机器学习
摘要:原文地址 本文内容 软件 步骤 控制相关性 总结 参考资料 本文介绍如何用带 Apache Mahout 的 MapR Sandbox for Hadoop 和 Elasticsearch 搭建推荐引擎,只需要很少的代码。 This tutorial will give step-by-step i
阅读全文
摘要:迁移到:http://www.bdata-cap.com/newsinfo/1741432.html 本文内容 用户评分表 曼哈顿(Manhattan)距离 欧式(Euclidean)距离 余弦相似度(cos simliarity) 推荐算法以及数据挖掘算法,计算“距离”是必须的~最近想搭一个推荐系
阅读全文
摘要:本文内容 最近看《写给程序员的数据挖掘指南》,研究推荐算法,书中的测试数据集是 Book-Crossing Dataset 提供的亚马逊用户对书籍评分的真实数据。推荐大家看本书,写得不错,立刻就能对推荐算法上手,甚至应用到你的项目中。 Book-Crossing Dataset 提供两种格式的数据集:CVS 格式和 SQL dump,问题是: 如果你有 UE 打开 cvs 文件...
阅读全文
摘要:原文地址 en cn 本文内容 表现平平的 MATLAB 貌似强大的 Julia 本身无错的 R 语言 逐渐没落的 Perl 老而弥坚的 Python 我个人很喜欢 Python~ 随着科技的发展,拥有高容量、高速度和多样性的大数据已经成为当今时代的主...
阅读全文
摘要:最近收到一封公司内部邮件,说,有个机器人程序——**小助手,上线(不知道哪个部门写的),让大家没事的时候,测试,顺便让程序学习一下,超过 50 条聊天,有抽奖机会~我大概试了一下,有点无语,这写得是个神马玩意啊,这么烂,基本聊不上 3 句,最多也就是,“你是谁”,“多大了”,即便我顺着程序说,也是驴唇不对马嘴~你要是让程序学习,互联网这么大,还用得着让人来吗,即便让人来,自己也得差不多才行啊...
阅读全文
摘要:在美国 2006 年机器学习和知识发现年会,数据挖掘(Data Mining)哪些算法使用率较高?现场投票结果可以给我们一点线索。数据挖掘有十大经典算法为:C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,KNN,NB 和 CART。 表 美国2006年机器
阅读全文