04 2016 档案

摘要:安装 pip install pdfminer 爬取数据是数据分析项目的第一个阶段,有的加密成pdf格式的文件,下载后需要解析,使用pdfminer工具。 先介绍一下什么是pdfminer 下面是官方一段英文介绍: PDFMiner is a tool for extracting informat 阅读全文
posted @ 2016-04-29 11:36 rongyux 阅读(4259) 评论(0) 推荐(0) 编辑
摘要:第1章 概述 1.1 机器学习技术路线图 第2章 数据清洗 2.1 处理缺失值 工具h2o.ai可以显示数据每个属性的缺失值情况,如下图: 2.2 数据集的格式 工具Weka要求数据是arff的,但也支持csv文件,在weka中arff文件有优势,可以设置属性的类型,其中weka有四种基本类型(nu 阅读全文
posted @ 2016-04-26 10:46 rongyux 阅读(1086) 评论(0) 推荐(0) 编辑
摘要:数据清洗,使用python数据清洗cvs里面带中文字符,意图是用字典对应中文字符,即key值是中文字符,value值是index,自增即可;利用字典数据结构没有重复key值的特性,把中文字符映射到了数值index。 python代码如下:(data数据时csv格式) 上例是真实的数据处理,有两百列属 阅读全文
posted @ 2016-04-18 16:22 rongyux 阅读(2236) 评论(0) 推荐(1) 编辑
摘要:本人最近读完《疯狂java-突破程序员基本功的16课 》读完后,感觉对java基础又有了新的认识,在这里总结一下:一、数组与内存控制 1.1 数组初始化 java语言的数组是静态的,即数组初始化之后,长度不可以变(区别,JavaScript数组可变,是动态的)。 初始化分两种:静态初始化,初始化时由 阅读全文
posted @ 2016-04-17 19:24 rongyux 阅读(365) 评论(0) 推荐(0) 编辑
摘要:不管是实验室研究机器学习算法或是公司研发,都有需要自己改进算法的时候,下面就说说怎么在weka里增加改进的机器学习算法。 一 添加分类算法的流程 1 编写的分类器必须继承 Classifier或是Classifier的子类;下面用比较简单的zeroR举例说明; 2 复写接口 buildClassif 阅读全文
posted @ 2016-04-15 20:28 rongyux 阅读(6031) 评论(0) 推荐(0) 编辑
摘要:在平时的研究之余,希望每天晚上闲下来的时候,都学习一个机器学习算法,今天看到几篇不错的遗传算法的文章,在这里总结一下。 1 神经网络基本原理 图1. 人工神经元模型 图中x1~xn是从其他神经元传来的输入信号,wij表示表示从神经元j到神经元i的连接权值,θ表示一个阈值 ( threshold ), 阅读全文
posted @ 2016-04-14 21:29 rongyux 阅读(3167) 评论(0) 推荐(0) 编辑
摘要:朴素贝叶斯之所以叫朴素,是因为它假定了所有的属性之间是独立的。下面我们就分别说说,属性值是离散和连续值的朴素贝叶斯对问题的求解方法吧。 1 贝叶斯定理 贝叶斯定理最大的用处是在很多情况下,我们需要求的概率是后验概率P(B|A),很难直接求解,但是他的先验概率P(A|B)却很容易求解,这时候贝叶斯定理 阅读全文
posted @ 2016-04-13 20:53 rongyux 阅读(4947) 评论(1) 推荐(0) 编辑
摘要:LibSVM是weka3.5以后的版本新加的功能,使用这个算法必须自己下载jar包,配置进项目; LibSVM在weka可视化界面的使用,很多人写过,但在clipse下的调用资料却不多,试了很多都不能完成,报错 libsvm classes not in CLASSPATH LibSVM 下载地址: 阅读全文
posted @ 2016-04-13 15:46 rongyux 阅读(1410) 评论(0) 推荐(0) 编辑
摘要:在机器学习分类结果的评估中,ROC曲线下的面积AOC是一个非常重要的指标。下面是调用weka类,输出AOC的源码: 接着说一下交叉验证; 如果没有分开训练集和测试集,可以使用Cross Validation方法,Evaluation中crossValidateModel方法的四个参数分别为,第一个是 阅读全文
posted @ 2016-04-13 10:38 rongyux 阅读(2479) 评论(0) 推荐(0) 编辑
摘要:相对于机器学习,关联规则的apriori算法更偏向于数据挖掘。 1) 测试文档中调用weka的关联规则apriori算法,如下 步骤 1 读取数据集data,并提取样本集instances 2 离散化属性Discretize 3 创建Apriori 关联规则模型 4 输出大频率项集和关联规则集 2) 阅读全文
posted @ 2016-04-12 20:24 rongyux 阅读(3749) 评论(0) 推荐(3) 编辑
摘要:数据分析中,首先要进行数据清洗,才可以继续训练模型,预测等操作。 首先介绍一下什么是数据清洗(定义来自 百度百科,有删减) 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。我们要按照一定的规则把“脏数据”“洗 阅读全文
posted @ 2016-04-11 14:28 rongyux 阅读(9902) 评论(0) 推荐(0) 编辑
摘要:我接着前面的一篇布局接着写,前一篇我已经完成了导航条和广告的布局。前一篇的url是 http://www.cnblogs.com/rongyux/p/5365663.html 开始继续码起来; 我想最终实现的效果图是这样的,如下:分了三个页面截图,太大了: 接着上次的未完成的,继续码起来: 第五步: 阅读全文
posted @ 2016-04-09 14:12 rongyux 阅读(7911) 评论(35) 推荐(1) 编辑
摘要:机器学习的1NN最近邻算法,在weka里叫IB1,是因为Instance Base 1 ,也就是只基于一个最近邻的实例的惰性学习算法。 下面总结一下,weka中对IB1源码的学习总结。 首先需要把 weka-src.jar 引入编译路径,否则无法跟踪源码。 1)读取data数据,完成 IB1 分类器 阅读全文
posted @ 2016-04-09 11:13 rongyux 阅读(4397) 评论(0) 推荐(0) 编辑
摘要:weka中实现了很多机器学习算法,不管实验室研究或者公司研发,都会或多或少的要使用weka,我的理解是weka是在本地的SparkML,SparkML是分布式的大数据处理机器学习算法,数据量不是很大的时候,使用weka可以模拟出很好的效果,决定使用哪个模型,然后再继续后续的数据挖掘工作。 下面总结一 阅读全文
posted @ 2016-04-08 11:07 rongyux 阅读(2164) 评论(1) 推荐(0) 编辑
摘要:现在很多公司开发中都在使用bootstrap这个框架,bootstrap是Twitter公司的一个团队的作品,大大简化了我们的前端的开发。(后面会总结一些less的使用) 学习使用API我建议直接查看官网的API,地址是 http://www.bootcss.com/ 下面是部分目标效果图: 下面我 阅读全文
posted @ 2016-04-07 21:54 rongyux 阅读(30085) 评论(50) 推荐(4) 编辑
摘要:记录下,struts2的搭建过程: 1核心jar包: struts-2.1.8\apps\struts2-blank-2.1.8.war 解压后 在struts2-blank-2.1.8\WEB-INF\lib下就是2配置文件白板 web.xml在 struts2-blank-2.1.8\WEB-I 阅读全文
posted @ 2016-04-03 23:13 rongyux 阅读(496) 评论(0) 推荐(0) 编辑
摘要:今天把weka源码导入eclipse,打算学习下weka源码,遇到一些问题,网上资料不足,自己总结下,希望为后来人铺路。 1)新建java项目,命名weka3-6 2)把weka-src.jar解压,再把src\main\java\weka文件拽到项目的src目录 3)把weka-src\lib目录 阅读全文
posted @ 2016-04-02 23:30 rongyux 阅读(735) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示