摘要:
问题原型:http://blog.csdn.net/v_july_v/article/details/62794982、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重... 阅读全文
摘要:
问题原型:http://blog.csdn.net/v_july_v/article/details/62794981、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可... 阅读全文
摘要:
Web数据挖掘的一个重要挖掘对象是服务器日志。每一次访问都会被服务器记录在日志中作为一行。要分析日志,首先要识别出用户和会话。用户识别可以是基于 cookie 的,也可以是基于 IP+主机名称会话识别有两种方式:1)设定所有会话都不会超过一个限定的时间 T ,从用户的第一个会话时间开始计算如果当前的... 阅读全文
摘要:
对一条评论的分析可以这样建模:E 表示实体,可能是一个事件或者被评论的产品A 表示实体的某个方面,比如 屏幕是手机的一个方面表达式 对E 或 A的描述观点持有人发表时间一条文本评论往往可以通过上述5个元素来描述。分类算法:针对某个词,判断该词表达的情感是正面的还是负面的:通过预先设置一个表达肯定语态... 阅读全文
摘要:
在前面的 jieba 分词源代码研读系列中,提出了一个问题即结巴分词对于未登录词的分词表现有待改进。所谓工欲善其事,必先利其器。在探寻解决之道前,我们先研究一下HMM三大算法中的最后一个:向前-向后算法。这个算法解决的问题是 在已经知道输出序列和状态序列后找出一个最匹配的HMM模型即HMM的学习问题... 阅读全文
摘要:
在上一节中我们考察了结巴分词对于未登录词的分词方法,它使用了HMM模型和用来解码HMM的维特比算法。较之基于语料库打分的初步分词结果,例句:'乔治马丁写冰与火之歌拖了好久'分词情况变成了这样:'乔治/马丁/写冰/与/火之歌/拖/了/好久'比原来有改进,但改进幅度可以忽略不计。。。下一步我们就要调试代... 阅读全文
摘要:
前面两篇文章说到了根据语料库和频度打分机制生成一个初步的分词结果。但是我们的分词结果仅仅用到了语料库已有的词语和频度,所以对于语料库中没有出现的词语判断能力等于0,比如下面这句:'乔治马丁写冰与火之歌拖了好久'其分词结果如下:{0: (-99.10570994217552, 1), 1: (-95.... 阅读全文
摘要:
上一篇文章说到结巴分词用了包装器实现了在get_DAG 函数执行器生成了 trie 树。在这篇文章中我们要研究一下jieba分词中的 DAG(有向无环图,全称:directed acyclic graphs)。在 cut 函数使用正则表达式把文本切分成一个一个短语和句子后,再用__cut_DAG 函... 阅读全文
摘要:
从github上下载源代码后,打开 文件夹 jieba,找到__init__.py,结巴分词最主要的函数 cut 就定义在这个文件中。这个函数的前半部分主要是根据用户指定的模式 用 正则表达式 将输入的文本 分块(block)。然后针对每一块进行分词,默认情况(精确模式)下使用的 块的分词函数叫__... 阅读全文
摘要:
结巴分词是国内程序员用python开发的一个中文分词模块, 源码已托管在github, 地址在: https://github.com/fxsjy/jieba作者的文档写的不是很全, 只写了怎么用, 有一些细节的文档没有写.以下是作者说明文件中提到的结巴分词用到的算法:基于Trie树结构实现高效的词... 阅读全文