2017 年 1月 7 日随笔档案 - 成金之路

2017年1月7日

摘要：总结：此聚类的模型相对简单，模型：集合{ itemN:{col1:n1,col2:n2,col3:n3,...,coln:n} } 二维表形式：column1 column2 column3 ... columnN item 关键在于数据准备阶段，比如，对博客进行聚类的时候，按照"每个单词在出现阅读全文

posted @ 2017-01-07 10:21 成金之路阅读(880) 评论(0) 推荐(0) 编辑

算法总结、类比

摘要： 1.用于文档分类的贝叶斯分类器：监督算法优点：训练和查询数据的高效性每次训练可能只是用一个训练项，不想决策树、SVM必须传入整个群组，才能得到最后的结果缺点：因为贝叶斯定理假设特征间彼此相互独立，所以无法对组合特征的结果分类 2.决策树分类器：监督算法：优点：模型的解释相对容易，最阅读全文

posted @ 2017-01-07 10:21 成金之路阅读(482) 评论(0) 推荐(1) 编辑

数据分析、数据挖掘之文档过滤、垃圾邮件

摘要：总结：模型: { good:{ word1:count1,word2:count2,word3:count3,...,wordN:countN } } 二维表good word1 word2 ... wordN 数据的处理：过滤掉stop词，选取长度在3-20间的，不能选取10%-50%间的热门词阅读全文

posted @ 2017-01-07 10:20 成金之路阅读(407) 评论(0) 推荐(0) 编辑

决策树建模

摘要：模型：树形结构：根节点为null，枝节点为判断条件，叶子节点为分类算法的步骤： 1.选取分类的属性用每个属性依次对群组进行分类，根据分类的结果 a.基尼不纯度：对每个小群组，统计map(class,num)以及class的在此分类中的概率，遍历map，求一个class与其他所有class的概阅读全文

posted @ 2017-01-07 10:19 成金之路阅读(2277) 评论(0) 推荐(0) 编辑

构建价格模型

摘要： KNN(k-nearest neighbors)价格预测模型： { attr1:value,attr2:value2,...,attrn:valuen,price:num } 算法思路： 1.先求训练集数据和给定的测试数据的欧几里得距离； 2.然后进行排序，选取前k项，利用距离计算权重（使得距离最近阅读全文

posted @ 2017-01-07 10:18 成金之路阅读(1712) 评论(0) 推荐(0) 编辑

智能进化

摘要：用遗传的思想，来构建智能进化过程 1.定义：根据遗传算法的思想，智能的构建解决某一问题的最佳程序来，即构造一个能构造算法的算法根据目标对过程不停的迭代，通过变异、交叉（配对）的方式，找到最优解，或者变现足够好、经历了n代、经历n次迭代仍没有得到任何改善适用场景：根据一组输入输出，找出其对应的映阅读全文

posted @ 2017-01-07 10:13 成金之路阅读(372) 评论(0) 推荐(0) 编辑

数据分析、数据挖掘之特征分解、特征分析

摘要：模型：从二维数据中挖掘出新的特征，必须进行分解，从分解的矩阵中得出结论 A=[ word1,word2,word3,...,wordN docu1: docu2: ... docuN: ] 非负矩阵因式分解（NMF）算法思想： 1.找到特征矩阵和权重矩阵，使其乘积和原矩阵近似特征矩阵：每个特征对应阅读全文

posted @ 2017-01-07 10:09 成金之路阅读(2998) 评论(0) 推荐(0) 编辑

高介分类：核方法与支持向量机（SVM）

摘要：数据模型：并不是简单地二维数据，多个维度或者对象的数据聚合起来 { persion1's attr1:value1,...,persion1's attrN:valueN,persion2's attr1:value1,...,persion2's attrN:value1,whetherSucce 阅读全文

posted @ 2017-01-07 10:04 成金之路阅读(1993) 评论(0) 推荐(0) 编辑

优化

摘要：非常重要：以反馈的方式来进行数据的预处理思想： 1.结合使用的评价、挖掘算法构建成本函数，以一条完整的记录作为输入，以记录每个属性对应的权重构成一个向量，作为输出，并使得效果越差的输入，输出值越大 2.使用各种算法对成本函数进行计算，找出最优解：随机、爬山、模拟退火、遗传算法 3.一个优化算法是阅读全文

posted @ 2017-01-07 09:57 成金之路阅读(199) 评论(0) 推荐(0) 编辑

数据挖掘、数据分析之协同过滤、推荐系统、关联分析

摘要：总结：构建基于人的协同过滤模型，以自己的评价或者购买过的商品构建输入向量，计算与模型中其他人的的相似度，然后sum(相似度*评分)/sum(所有评价过此商品的人的相似度)来计算物品推荐值。对于大规模的物品时，不可能对实时的为每个人计算相似度，然后进行物品的推荐，此时的做法是构建基于物品的协同过滤模阅读全文

posted @ 2017-01-07 09:56 成金之路阅读(621) 评论(0) 推荐(0) 编辑

搜索与排名

摘要： 1. 搜索引擎索引数据库的schema 说明： a. urllist记录了已经索引过的url b. wordlist记录了已经索引过的word c. worklocation记录了word在url中的位置 d. link记录了url间的跳转关系 e. linkwords记录了word和link中链接阅读全文

posted @ 2017-01-07 09:54 成金之路阅读(266) 评论(0) 推荐(0) 编辑

成金之路

The way to be shining like the gold!

公告

积分与排名

随笔分类 (107)

阅读排行榜

推荐排行榜