上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 42 下一页
摘要: Web数据挖掘的一个重要挖掘对象是服务器日志。每一次访问都会被服务器记录在日志中作为一行。要分析日志,首先要识别出用户和会话。用户识别可以是基于 cookie 的,也可以是基于 IP+主机名称会话识别有两种方式:1)设定所有会话都不会超过一个限定的时间 T ,从用户的第一个会话时间开始计算如果当前的... 阅读全文
posted @ 2013-10-14 14:52 爱知菜 阅读(228) 评论(0) 推荐(0)
摘要: 对一条评论的分析可以这样建模:E 表示实体,可能是一个事件或者被评论的产品A 表示实体的某个方面,比如 屏幕是手机的一个方面表达式 对E 或 A的描述观点持有人发表时间一条文本评论往往可以通过上述5个元素来描述。分类算法:针对某个词,判断该词表达的情感是正面的还是负面的:通过预先设置一个表达肯定语态... 阅读全文
posted @ 2013-10-12 19:50 爱知菜 阅读(249) 评论(0) 推荐(0)
摘要: 在前面的 jieba 分词源代码研读系列中,提出了一个问题即结巴分词对于未登录词的分词表现有待改进。所谓工欲善其事,必先利其器。在探寻解决之道前,我们先研究一下HMM三大算法中的最后一个:向前-向后算法。这个算法解决的问题是 在已经知道输出序列和状态序列后找出一个最匹配的HMM模型即HMM的学习问题... 阅读全文
posted @ 2013-10-11 20:54 爱知菜 阅读(697) 评论(0) 推荐(0)
摘要: 在上一节中我们考察了结巴分词对于未登录词的分词方法,它使用了HMM模型和用来解码HMM的维特比算法。较之基于语料库打分的初步分词结果,例句:'乔治马丁写冰与火之歌拖了好久'分词情况变成了这样:'乔治/马丁/写冰/与/火之歌/拖/了/好久'比原来有改进,但改进幅度可以忽略不计。。。下一步我们就要调试代... 阅读全文
posted @ 2013-10-09 18:35 爱知菜 阅读(359) 评论(0) 推荐(0)
摘要: 前面两篇文章说到了根据语料库和频度打分机制生成一个初步的分词结果。但是我们的分词结果仅仅用到了语料库已有的词语和频度,所以对于语料库中没有出现的词语判断能力等于0,比如下面这句:'乔治马丁写冰与火之歌拖了好久'其分词结果如下:{0: (-99.10570994217552, 1), 1: (-95.... 阅读全文
posted @ 2013-10-08 16:20 爱知菜 阅读(287) 评论(0) 推荐(0)
摘要: 上一篇文章说到结巴分词用了包装器实现了在get_DAG 函数执行器生成了 trie 树。在这篇文章中我们要研究一下jieba分词中的 DAG(有向无环图,全称:directed acyclic graphs)。在 cut 函数使用正则表达式把文本切分成一个一个短语和句子后,再用__cut_DAG 函... 阅读全文
posted @ 2013-10-05 15:33 爱知菜 阅读(278) 评论(0) 推荐(0)
摘要: 从github上下载源代码后,打开 文件夹 jieba,找到__init__.py,结巴分词最主要的函数 cut 就定义在这个文件中。这个函数的前半部分主要是根据用户指定的模式 用 正则表达式 将输入的文本 分块(block)。然后针对每一块进行分词,默认情况(精确模式)下使用的 块的分词函数叫__... 阅读全文
posted @ 2013-10-01 16:47 爱知菜 阅读(387) 评论(0) 推荐(0)
摘要: 结巴分词是国内程序员用python开发的一个中文分词模块, 源码已托管在github, 地址在: https://github.com/fxsjy/jieba作者的文档写的不是很全, 只写了怎么用, 有一些细节的文档没有写.以下是作者说明文件中提到的结巴分词用到的算法:基于Trie树结构实现高效的词... 阅读全文
posted @ 2013-09-30 15:23 爱知菜 阅读(732) 评论(0) 推荐(0)
摘要: 首先要下载一个 ADOMD.net 的组件,这个组件封装了对多维数据集的访问。下载连接(32位):http://pan.baidu.com/share/link?shareid=3272425634&uk=268671865下载连接(64位):http://pan.baidu.com/share/l... 阅读全文
posted @ 2013-09-11 16:44 爱知菜 阅读(306) 评论(0) 推荐(0)
摘要: 知识流界面通过允许不将整个数据集一次性完全加载到内存中来达到处理大规模数据的目的,而真正的研究工作可能涉及到好几个数据集,计算量非常大,这就需要用实验者界面来解决了。实验者界面有两大特点:1. 允许使用多种算法对多个数据集进行操作。2. 支持分布式计算。打开实验者界面后在 Setup标签页 可以选择... 阅读全文
posted @ 2013-09-11 13:45 爱知菜 阅读(672) 评论(0) 推荐(0)
上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 42 下一页