摘要: 总结:此聚类的模型相对简单, 模型: 集合{ itemN:{col1:n1,col2:n2,col3:n3,...,coln:n} } 二维表形式:column1 column2 column3 ... columnN item 关键在于数据准备阶段,比如,对博客进行聚类的时候,按照"每个单词在出现 阅读全文
posted @ 2017-01-07 10:21 成金之路 阅读(872) 评论(0) 推荐(0) 编辑
摘要: 1.用于文档分类的贝叶斯分类器: 监督算法 优点: 训练和查询数据的高效性 每次训练可能只是用一个训练项,不想决策树、SVM必须传入整个群组,才能得到最后的结果 缺点: 因为贝叶斯定理假设特征间彼此相互独立,所以无法对组合特征的结果分类 2.决策树分类器: 监督算法: 优点: 模型的解释相对容易,最 阅读全文
posted @ 2017-01-07 10:21 成金之路 阅读(482) 评论(0) 推荐(1) 编辑
摘要: 总结: 模型: { good:{ word1:count1,word2:count2,word3:count3,...,wordN:countN } } 二维表good word1 word2 ... wordN 数据的处理:过滤掉stop词,选取长度在3-20间的,不能选取10%-50%间的热门词 阅读全文
posted @ 2017-01-07 10:20 成金之路 阅读(405) 评论(0) 推荐(0) 编辑
摘要: 模型: 树形结构:根节点为null,枝节点为判断条件,叶子节点为分类 算法的步骤: 1.选取分类的属性 用每个属性依次对群组进行分类,根据分类的结果 a.基尼不纯度: 对每个小群组,统计map(class,num)以及class的在此分类中的概率,遍历map,求一个class与其他所有class的概 阅读全文
posted @ 2017-01-07 10:19 成金之路 阅读(2276) 评论(0) 推荐(0) 编辑
摘要: KNN(k-nearest neighbors)价格预测模型: { attr1:value,attr2:value2,...,attrn:valuen,price:num } 算法思路: 1.先求训练集数据和给定的测试数据的欧几里得距离; 2.然后进行排序,选取前k项,利用距离计算权重(使得距离最近 阅读全文
posted @ 2017-01-07 10:18 成金之路 阅读(1703) 评论(0) 推荐(0) 编辑
摘要: 用遗传的思想,来构建智能进化过程 1.定义: 根据遗传算法的思想,智能的构建解决某一问题的最佳程序来,即构造一个能构造算法的算法 根据目标对过程不停的迭代,通过变异、交叉(配对)的方式,找到最优解,或者变现足够好、经历了n代、经历n次迭代仍没有得到任何改善 适用场景:根据一组输入输出,找出其对应的映 阅读全文
posted @ 2017-01-07 10:13 成金之路 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 模型:从二维数据中挖掘出新的特征,必须进行分解,从分解的矩阵中得出结论 A=[ word1,word2,word3,...,wordN docu1: docu2: ... docuN: ] 非负矩阵因式分解(NMF)算法思想: 1.找到特征矩阵和权重矩阵,使其乘积和原矩阵近似 特征矩阵:每个特征对应 阅读全文
posted @ 2017-01-07 10:09 成金之路 阅读(2969) 评论(0) 推荐(0) 编辑
摘要: 数据模型:并不是简单地二维数据,多个维度或者对象的数据聚合起来 { persion1's attr1:value1,...,persion1's attrN:valueN,persion2's attr1:value1,...,persion2's attrN:value1,whetherSucce 阅读全文
posted @ 2017-01-07 10:04 成金之路 阅读(1983) 评论(0) 推荐(0) 编辑
摘要: 非常重要:以反馈的方式来进行数据的预处理 思想: 1.结合使用的评价、挖掘算法构建成本函数,以一条完整的记录作为输入,以记录每个属性对应的权重构成一个向量,作为输出,并使得效果越差的输入,输出值越大 2.使用各种算法对成本函数进行计算,找出最优解: 随机、爬山、模拟退火、遗传算法 3.一个优化算法是 阅读全文
posted @ 2017-01-07 09:57 成金之路 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 总结:构建基于人的协同过滤模型,以自己的评价或者购买过的商品构建输入向量,计算与模型中其他人的的相似度,然后sum(相似度*评分)/sum(所有评价过此商品的人的相似度)来计算物品推荐值。 对于大规模的物品时,不可能对实时的为每个人计算相似度,然后进行物品的推荐,此时的做法是构建基于物品的协同过滤模 阅读全文
posted @ 2017-01-07 09:56 成金之路 阅读(614) 评论(0) 推荐(0) 编辑
摘要: 1. 搜索引擎索引数据库的schema 说明: a. urllist记录了已经索引过的url b. wordlist记录了已经索引过的word c. worklocation记录了word在url中的位置 d. link记录了url间的跳转关系 e. linkwords记录了word和link中链接 阅读全文
posted @ 2017-01-07 09:54 成金之路 阅读(265) 评论(0) 推荐(0) 编辑