上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 42 下一页
摘要: 在安装LibSVM前需要先装 python 和 gnuplotlinux 一般都自带了python2.7,所以python的安装不再赘述在 ubuntu下安装 gnuplot 不能直接 sudo apt-get install gnuplot,因为预编译的gnuplot不能识别ubuntu的图形界面... 阅读全文
posted @ 2013-10-24 11:41 爱知菜 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 网页中不能显示公式和配图,带配图的doc版可以在这里查看或下载:http://pan.baidu.com/s/1vIAtp1.介绍SVM是数据分类的一个有用的技术。虽然SVM被认为比神经网络简单,不熟悉的用户一开始很容易不习惯。在此我们给出梗概。注意本指导不是给SVM研究者的,也不保证能达到高的准确... 阅读全文
posted @ 2013-10-22 19:55 爱知菜 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 在完成了预处理和特征提取后,下一步就是用 聚类算法 进行文本聚类。在聚类算法中 距离函数的选择很重要,文本挖掘中最好的距离函数就是 余弦距离,但是Weka 3.6.10中 尚不支持余弦距离,需要自己实现。我们可以在 Eclipse 中创建一个文本挖掘的项目,引入 weka.jar,然后然后实现一个计... 阅读全文
posted @ 2013-10-22 16:18 爱知菜 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 上一篇文章介绍了一个简单的预处理过程,这篇文章将继续演示下一步:用 weka 的 Filter 提取特征。Weka 处理数据的格式是 arff,所以首先我们要把 text_example 转换成 该格式,这里要用到weka.core.converters.TextDirectoryLoader 这个... 阅读全文
posted @ 2013-10-22 11:57 爱知菜 阅读(198) 评论(0) 推荐(0) 编辑
摘要: WekaWiki上有一个文本聚类的示例,简述了使用 weka 进行文本聚类的过程,本系列文章将使用其中的text_example演示一遍 文本挖掘从 预处理 到 特征提取 再到挖掘的全过程。下载完 text_example 完后,解压,其中有3个文件夹,分别为class1,class2,class3... 阅读全文
posted @ 2013-10-21 16:44 爱知菜 阅读(286) 评论(0) 推荐(0) 编辑
摘要: #py2.7#coding:utf-8import reimport osimport chardetdef filter_tag(htmlstr): re_cdata = re.compile(']*>', re.I) re_script = re.compile(']*>[^', r... 阅读全文
posted @ 2013-10-20 20:03 爱知菜 阅读(508) 评论(0) 推荐(0) 编辑
摘要: Bloom-Filter算法 其实可以看作 bit-map 的一种扩展。它把已存在的元素通过多个hash 函数映射到一个 bit 序列,对于每一个元素根据hash函数的结果把相应的 位置置一(这个bit序列通常很长,但是比起记住所有元素它占用的空间是小的)。在判断一个元素时候已存在的时候,它会把这个... 阅读全文
posted @ 2013-10-18 11:17 爱知菜 阅读(208) 评论(0) 推荐(0) 编辑
摘要: 问题:问题1 的代码实现:#coding:utf-8#py2.7def findmaxsubstr(nums): bufs={} for i,num in enumerate(nums): if i==0: bufs[i]=num else: bufs[i]=bufs[i-1]+num ... 阅读全文
posted @ 2013-10-18 10:45 爱知菜 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 问题描述:这是典型的并查集的应用,并查集的概念详见:http://www.doc88.com/p-375363060663.html#coding:utf-8#py2.7class unionfind: def __init__(self, groups): self.group... 阅读全文
posted @ 2013-10-16 18:55 爱知菜 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 问题出自:http://blog.csdn.net/v_july_v/article/details/62794986、在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。 方案1:采用2-Bitmap(每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意... 阅读全文
posted @ 2013-10-16 14:27 爱知菜 阅读(271) 评论(0) 推荐(0) 编辑
上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 42 下一页