摘要: 安装 pip install pdfminer 爬取数据是数据分析项目的第一个阶段,有的加密成pdf格式的文件,下载后需要解析,使用pdfminer工具。 先介绍一下什么是pdfminer 下面是官方一段英文介绍: PDFMiner is a tool for extracting informat 阅读全文
posted @ 2016-04-29 11:36 rongyux 阅读(4237) 评论(0) 推荐(0) 编辑
摘要: 第1章 概述 1.1 机器学习技术路线图 第2章 数据清洗 2.1 处理缺失值 工具h2o.ai可以显示数据每个属性的缺失值情况,如下图: 2.2 数据集的格式 工具Weka要求数据是arff的,但也支持csv文件,在weka中arff文件有优势,可以设置属性的类型,其中weka有四种基本类型(nu 阅读全文
posted @ 2016-04-26 10:46 rongyux 阅读(1070) 评论(0) 推荐(0) 编辑
摘要: 数据清洗,使用python数据清洗cvs里面带中文字符,意图是用字典对应中文字符,即key值是中文字符,value值是index,自增即可;利用字典数据结构没有重复key值的特性,把中文字符映射到了数值index。 python代码如下:(data数据时csv格式) 上例是真实的数据处理,有两百列属 阅读全文
posted @ 2016-04-18 16:22 rongyux 阅读(2230) 评论(0) 推荐(1) 编辑
摘要: 本人最近读完《疯狂java-突破程序员基本功的16课 》读完后,感觉对java基础又有了新的认识,在这里总结一下:一、数组与内存控制 1.1 数组初始化 java语言的数组是静态的,即数组初始化之后,长度不可以变(区别,JavaScript数组可变,是动态的)。 初始化分两种:静态初始化,初始化时由 阅读全文
posted @ 2016-04-17 19:24 rongyux 阅读(360) 评论(0) 推荐(0) 编辑
摘要: 不管是实验室研究机器学习算法或是公司研发,都有需要自己改进算法的时候,下面就说说怎么在weka里增加改进的机器学习算法。 一 添加分类算法的流程 1 编写的分类器必须继承 Classifier或是Classifier的子类;下面用比较简单的zeroR举例说明; 2 复写接口 buildClassif 阅读全文
posted @ 2016-04-15 20:28 rongyux 阅读(5984) 评论(0) 推荐(0) 编辑
摘要: 在平时的研究之余,希望每天晚上闲下来的时候,都学习一个机器学习算法,今天看到几篇不错的遗传算法的文章,在这里总结一下。 1 神经网络基本原理 图1. 人工神经元模型 图中x1~xn是从其他神经元传来的输入信号,wij表示表示从神经元j到神经元i的连接权值,θ表示一个阈值 ( threshold ), 阅读全文
posted @ 2016-04-14 21:29 rongyux 阅读(3048) 评论(0) 推荐(0) 编辑
摘要: 朴素贝叶斯之所以叫朴素,是因为它假定了所有的属性之间是独立的。下面我们就分别说说,属性值是离散和连续值的朴素贝叶斯对问题的求解方法吧。 1 贝叶斯定理 贝叶斯定理最大的用处是在很多情况下,我们需要求的概率是后验概率P(B|A),很难直接求解,但是他的先验概率P(A|B)却很容易求解,这时候贝叶斯定理 阅读全文
posted @ 2016-04-13 20:53 rongyux 阅读(4919) 评论(1) 推荐(0) 编辑
摘要: LibSVM是weka3.5以后的版本新加的功能,使用这个算法必须自己下载jar包,配置进项目; LibSVM在weka可视化界面的使用,很多人写过,但在clipse下的调用资料却不多,试了很多都不能完成,报错 libsvm classes not in CLASSPATH LibSVM 下载地址: 阅读全文
posted @ 2016-04-13 15:46 rongyux 阅读(1409) 评论(0) 推荐(0) 编辑
摘要: 在机器学习分类结果的评估中,ROC曲线下的面积AOC是一个非常重要的指标。下面是调用weka类,输出AOC的源码: 接着说一下交叉验证; 如果没有分开训练集和测试集,可以使用Cross Validation方法,Evaluation中crossValidateModel方法的四个参数分别为,第一个是 阅读全文
posted @ 2016-04-13 10:38 rongyux 阅读(2444) 评论(0) 推荐(0) 编辑
摘要: 相对于机器学习,关联规则的apriori算法更偏向于数据挖掘。 1) 测试文档中调用weka的关联规则apriori算法,如下 步骤 1 读取数据集data,并提取样本集instances 2 离散化属性Discretize 3 创建Apriori 关联规则模型 4 输出大频率项集和关联规则集 2) 阅读全文
posted @ 2016-04-12 20:24 rongyux 阅读(3712) 评论(0) 推荐(3) 编辑