摘要: 结合之前的部落格:http://www.cnblogs.com/naonaoling/p/4174494.html 一、什么是朴素贝叶斯? 朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。 对于给定的数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x 阅读全文
posted @ 2016-07-21 03:38 李闹闹童鞋 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 一、什么是K近邻? K近邻是一种基本的分类和回归方法。 在分类时,对新的实例,根据其K个最近邻的训练实例的类别,通过多数表决权等方式预测其类别。 通俗的讲,找K个和其关系最近的邻居,哪个类别的邻居多,就把它划分到哪一类 特性: (1)多分类 (2)判别模型 (3)三个基本要素:K值选择、距离度量、分 阅读全文
posted @ 2016-07-21 03:05 李闹闹童鞋 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 一、什么是感知机? 感知机是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和 1二值。 特性: (1)二分类 (2)线性分类模型 (3)判别模型模型 (4)假设空间:定义在特征空间(有时可以理解为输入空间)中的所有线性分类模型或线性分类器,即函数集合{f|f(x)=w·x+ 阅读全文
posted @ 2016-07-21 01:14 李闹闹童鞋 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 对统计学习方法中的基础概念和理论做一个总结。逐步更新。 内容摘自《统计学习方法》第一章,第一章内容基本全是重要内容,因此此篇部落格算是一个加入了自己理解思路的读书笔记。 一、统计学习方法包含哪几种? 监督学习:用于学习的数据集都是输入\输出数据对(有标记的样本),学习的任务是找到输入与输出的对应规则 阅读全文
posted @ 2016-07-21 00:52 李闹闹童鞋 阅读(1004) 评论(0) 推荐(0) 编辑
摘要: 一、安装 官方地址 https://www.djangoproject.com/download/ 最新版git地址 https://github.com/django/django 如果安装了pip,可以直接用命令进行安装,也可以去下载最新版的Django包,进入目录,运行python setup 阅读全文
posted @ 2016-04-02 18:55 李闹闹童鞋 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 先吐槽一句哀家的人品,总在写好代码之后,网站默默的升级,没有一点点防备... 一、加代理 爬取一个网站的时候,爬了不到一半,IP被封了,整个内部局域网的所有电脑都不能访问网站了。 还是以应用(一)中的代码为例,可以在构造函数中添加代理: ① 在原来的基础添加了一个int型的useProxy参数,如果 阅读全文
posted @ 2016-03-25 18:49 李闹闹童鞋 阅读(1318) 评论(0) 推荐(0) 编辑
摘要: webcollector是一个开源的Java网络爬虫框架。最近的爬虫改用java写了,对这一周的工作进行简要总结。对于内部机制了解不深入,主要侧重在应用。 一、环境搭建 需要安装一个webcollector的jar包,从官网上下载bin文件,解压,根据不同IDE的安装方式进行安装即可。 https: 阅读全文
posted @ 2016-03-21 01:26 李闹闹童鞋 阅读(6584) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop是什么? Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop框架最核心的设计包含两个方面,一是分布式文件系统(Hadoop Distributed File System),简称HDFS;二是分布式计算框架MapReduce。简单来说,HDFS为海量的数据 阅读全文
posted @ 2016-03-11 11:51 李闹闹童鞋 阅读(423) 评论(0) 推荐(0) 编辑
摘要: 去年5月份总结的一个海量数据处理方法,不成熟,主要是总结给自己看的........ 参考了很多的资料,加上自己的简单理解分析,还有些问题自己本身都不是特别明白...... 主要参照了大神的博客http://www.cnblogs.com/v-July-v/archive/2011/03/26/200 阅读全文
posted @ 2016-03-07 21:54 李闹闹童鞋 阅读(282) 评论(0) 推荐(1) 编辑
摘要: 题目: 给定一个输入文件,包含40亿个非负整数,请设计一种算法,产生一个不在该文件中的整数。假定你有1GB内存来完成这个任务。 一、几个数字 1、40亿==4*109~~22*230==232,也就是说整数就这么多个 2、1GB==230B==8*230b~~80亿,也就是说如果用一位表示一个整数, 阅读全文
posted @ 2016-03-07 21:39 李闹闹童鞋 阅读(463) 评论(0) 推荐(0) 编辑