2014 年 2月 26 日随笔档案 - 曹守鑫

2014年2月26日

摘要：决策树的优势在于构造过程不需要任何领域知识或参数设置，因此在实际应用中，对于探测式的知识发现，决策树更加适用。上图完整表达了这个女孩决定是否见一个约会对象的策略，其中绿色节点表示判断条件，橙色节点表示决策结果，箭头表示在一个判断条件在不同情况下的决策路径，图中红色箭头表示了上面例子中女孩的决策过程。决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，阅读全文

posted @ 2014-02-26 17:16 曹守鑫阅读(395) 评论(0) 推荐(0) 编辑

如何提取关键字计算相似度

摘要：第一步，计算词频。考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。或者第二步，计算逆文档频率。这时，需要一个语料库（corpus），用来模拟语言的使用环境。如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。第三步，计算TF-IDF。可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。计算文章相似度算法：阅读全文

posted @ 2014-02-26 16:01 曹守鑫阅读(2291) 评论(0) 推荐(0) 编辑

曹守鑫

公告