10 2013 档案

摘要:数据挖掘经常遇到大数据的情况,其中的一个表现形式就是数据的维度非常多,为了对维度进行压缩,可以采用一种名叫主成分分析的技术(PCA),下面的链接把PCA的原理解释地非常好:http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html... 阅读全文
posted @ 2013-10-27 23:30 爱知菜 阅读(1827) 评论(0) 推荐(0) 编辑
摘要:这种划分在快速排序中也用到了:#py2.7#coding:utf-8import randomdef findkth(ll, k): if k > len(ll): raise Exception('Argument error') else: pivot =... 阅读全文
posted @ 2013-10-26 19:44 爱知菜 阅读(186) 评论(0) 推荐(0) 编辑
摘要:在安装LibSVM前需要先装 python 和 gnuplotlinux 一般都自带了python2.7,所以python的安装不再赘述在 ubuntu下安装 gnuplot 不能直接 sudo apt-get install gnuplot,因为预编译的gnuplot不能识别ubuntu的图形界面... 阅读全文
posted @ 2013-10-24 11:41 爱知菜 阅读(190) 评论(0) 推荐(0) 编辑
摘要:网页中不能显示公式和配图,带配图的doc版可以在这里查看或下载:http://pan.baidu.com/s/1vIAtp1.介绍SVM是数据分类的一个有用的技术。虽然SVM被认为比神经网络简单,不熟悉的用户一开始很容易不习惯。在此我们给出梗概。注意本指导不是给SVM研究者的,也不保证能达到高的准确... 阅读全文
posted @ 2013-10-22 19:55 爱知菜 阅读(182) 评论(0) 推荐(0) 编辑
摘要:在完成了预处理和特征提取后,下一步就是用 聚类算法 进行文本聚类。在聚类算法中 距离函数的选择很重要,文本挖掘中最好的距离函数就是 余弦距离,但是Weka 3.6.10中 尚不支持余弦距离,需要自己实现。我们可以在 Eclipse 中创建一个文本挖掘的项目,引入 weka.jar,然后然后实现一个计... 阅读全文
posted @ 2013-10-22 16:18 爱知菜 阅读(276) 评论(0) 推荐(0) 编辑
摘要:上一篇文章介绍了一个简单的预处理过程,这篇文章将继续演示下一步:用 weka 的 Filter 提取特征。Weka 处理数据的格式是 arff,所以首先我们要把 text_example 转换成 该格式,这里要用到weka.core.converters.TextDirectoryLoader 这个... 阅读全文
posted @ 2013-10-22 11:57 爱知菜 阅读(206) 评论(0) 推荐(0) 编辑
摘要:WekaWiki上有一个文本聚类的示例,简述了使用 weka 进行文本聚类的过程,本系列文章将使用其中的text_example演示一遍 文本挖掘从 预处理 到 特征提取 再到挖掘的全过程。下载完 text_example 完后,解压,其中有3个文件夹,分别为class1,class2,class3... 阅读全文
posted @ 2013-10-21 16:44 爱知菜 阅读(293) 评论(0) 推荐(0) 编辑
摘要:#py2.7#coding:utf-8import reimport osimport chardetdef filter_tag(htmlstr): re_cdata = re.compile(']*>', re.I) re_script = re.compile(']*>[^', r... 阅读全文
posted @ 2013-10-20 20:03 爱知菜 阅读(510) 评论(0) 推荐(0) 编辑
摘要:Bloom-Filter算法 其实可以看作 bit-map 的一种扩展。它把已存在的元素通过多个hash 函数映射到一个 bit 序列,对于每一个元素根据hash函数的结果把相应的 位置置一(这个bit序列通常很长,但是比起记住所有元素它占用的空间是小的)。在判断一个元素时候已存在的时候,它会把这个... 阅读全文
posted @ 2013-10-18 11:17 爱知菜 阅读(213) 评论(0) 推荐(0) 编辑
摘要:问题:问题1 的代码实现:#coding:utf-8#py2.7def findmaxsubstr(nums): bufs={} for i,num in enumerate(nums): if i==0: bufs[i]=num else: bufs[i]=bufs[i-1]+num ... 阅读全文
posted @ 2013-10-18 10:45 爱知菜 阅读(361) 评论(0) 推荐(0) 编辑
摘要:问题描述:这是典型的并查集的应用,并查集的概念详见:http://www.doc88.com/p-375363060663.html#coding:utf-8#py2.7class unionfind: def __init__(self, groups): self.group... 阅读全文
posted @ 2013-10-16 18:55 爱知菜 阅读(267) 评论(0) 推荐(0) 编辑
摘要:问题出自:http://blog.csdn.net/v_july_v/article/details/62794986、在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。 方案1:采用2-Bitmap(每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意... 阅读全文
posted @ 2013-10-16 14:27 爱知菜 阅读(280) 评论(0) 推荐(0) 编辑
摘要:问题原型:http://blog.csdn.net/v_july_v/article/details/62794982、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重... 阅读全文
posted @ 2013-10-16 11:52 爱知菜 阅读(2010) 评论(0) 推荐(0) 编辑
摘要:问题原型:http://blog.csdn.net/v_july_v/article/details/62794981、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可... 阅读全文
posted @ 2013-10-15 16:24 爱知菜 阅读(2685) 评论(0) 推荐(1) 编辑
摘要:Web数据挖掘的一个重要挖掘对象是服务器日志。每一次访问都会被服务器记录在日志中作为一行。要分析日志,首先要识别出用户和会话。用户识别可以是基于 cookie 的,也可以是基于 IP+主机名称会话识别有两种方式:1)设定所有会话都不会超过一个限定的时间 T ,从用户的第一个会话时间开始计算如果当前的... 阅读全文
posted @ 2013-10-14 14:52 爱知菜 阅读(209) 评论(0) 推荐(0) 编辑
摘要:对一条评论的分析可以这样建模:E 表示实体,可能是一个事件或者被评论的产品A 表示实体的某个方面,比如 屏幕是手机的一个方面表达式 对E 或 A的描述观点持有人发表时间一条文本评论往往可以通过上述5个元素来描述。分类算法:针对某个词,判断该词表达的情感是正面的还是负面的:通过预先设置一个表达肯定语态... 阅读全文
posted @ 2013-10-12 19:50 爱知菜 阅读(222) 评论(0) 推荐(0) 编辑
摘要:在前面的 jieba 分词源代码研读系列中,提出了一个问题即结巴分词对于未登录词的分词表现有待改进。所谓工欲善其事,必先利其器。在探寻解决之道前,我们先研究一下HMM三大算法中的最后一个:向前-向后算法。这个算法解决的问题是 在已经知道输出序列和状态序列后找出一个最匹配的HMM模型即HMM的学习问题... 阅读全文
posted @ 2013-10-11 20:54 爱知菜 阅读(656) 评论(0) 推荐(0) 编辑
摘要:在上一节中我们考察了结巴分词对于未登录词的分词方法,它使用了HMM模型和用来解码HMM的维特比算法。较之基于语料库打分的初步分词结果,例句:'乔治马丁写冰与火之歌拖了好久'分词情况变成了这样:'乔治/马丁/写冰/与/火之歌/拖/了/好久'比原来有改进,但改进幅度可以忽略不计。。。下一步我们就要调试代... 阅读全文
posted @ 2013-10-09 18:35 爱知菜 阅读(332) 评论(0) 推荐(0) 编辑
摘要:前面两篇文章说到了根据语料库和频度打分机制生成一个初步的分词结果。但是我们的分词结果仅仅用到了语料库已有的词语和频度,所以对于语料库中没有出现的词语判断能力等于0,比如下面这句:'乔治马丁写冰与火之歌拖了好久'其分词结果如下:{0: (-99.10570994217552, 1), 1: (-95.... 阅读全文
posted @ 2013-10-08 16:20 爱知菜 阅读(249) 评论(0) 推荐(0) 编辑
摘要:上一篇文章说到结巴分词用了包装器实现了在get_DAG 函数执行器生成了 trie 树。在这篇文章中我们要研究一下jieba分词中的 DAG(有向无环图,全称:directed acyclic graphs)。在 cut 函数使用正则表达式把文本切分成一个一个短语和句子后,再用__cut_DAG 函... 阅读全文
posted @ 2013-10-05 15:33 爱知菜 阅读(247) 评论(0) 推荐(0) 编辑
摘要:从github上下载源代码后,打开 文件夹 jieba,找到__init__.py,结巴分词最主要的函数 cut 就定义在这个文件中。这个函数的前半部分主要是根据用户指定的模式 用 正则表达式 将输入的文本 分块(block)。然后针对每一块进行分词,默认情况(精确模式)下使用的 块的分词函数叫__... 阅读全文
posted @ 2013-10-01 16:47 爱知菜 阅读(361) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示