摘要:
Python基础 简介 数据类型 文件操作 迭代器和生成器 函数 内置函数 常用模块 面向对象编程 异常处理 socket网络编程 线程 进程/协程/异步I/O django框架 基础 路由规则 Model 模板 cookie session CSRF 中间件 缓存和信号 form组件 ModelF 阅读全文
摘要:
一、yarn的基本思想 yarn是Hadoop 2.0中的资源管理系统,它的基本思想是将JobTracker 的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。其中RM负责整 阅读全文
摘要:
一、Hive内部表与外部表的区别 未被external修饰的是内部表,被external修饰的是外部表; 区别: 内部表数据由hive自身管理,外部表数据由HDFS管理; 内部表数据存储位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse), 阅读全文
摘要:
MapReduce过程: Map端 reduce端: 过程分析: 1.准备好待处理的文本,比如图中准备的文件是200M 2.客户端在进行submit之前,获取待处理的数据的信息,然后根据参数配置形成一个任务分配的规划。比如ss.txt文本有200M,读取的时候进行切分,按照128M进行切分,分成0- 阅读全文
摘要:
1.1什么是线性回归 我们首先用弄清楚什么是线性,什么是非线性。 线性:两个变量之间的关系是一次函数关系的——图象是直线,叫做线性。 注意:题目的线性是指广义的线性,也就是数据与数据之间的关系。 非线性:两个变量之间的关系不是一次函数关系的——图象不是直线,叫做非线性。 相信通过以上两个概念大家已经 阅读全文
摘要:
1.算法原理 1.分类和回归 分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。 一般来说,回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。回归是对真实值的一种逼近预测。 分类 阅读全文
摘要:
原理:近朱者赤,近墨者黑 一 . K-近邻算法(KNN)概述 最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢,其次就是存在一个测试对象同时与多个训练对象匹配,导 阅读全文
摘要:
一、概述 贝叶斯分类算法是统计学的一种概率分类方法,朴素贝叶斯分类是贝叶斯分类中最简单的一种。其分类原理就是利 用贝叶斯公式根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率的类作为该特征所属的类。之 所以称之为”朴素”,是因为贝叶斯分类只做最原始、最简单的假设:所有的特征之间是统计独立 阅读全文
摘要:
一、概述 决策树(Decision Tree)是有监督学习中的一种算法,并且是一种基本的分类与回归的方法。也就是说,决策树有 两种:分类树和回归树。这里我们主要讨论分类树,后面再为大家讲解回归树。 通过上面的例子,我们很容易理解:决策树算法的本质就是树形结构,我们可以通过一些精心设计的问题,就可以 阅读全文
摘要:
一、概述 k-近邻算法(k-Nearest Neighbour algorithm),又称为KNN算法,是数据挖掘技术中原理最简单的算法。KNN 的工作原理:给定一个已知标签类别的训练数据集,输入没有标签的新数据后,在训练数据集中找到与新数据最邻 近的k个实例,如果这k个实例的多数属于某个类别,那么 阅读全文
摘要:
感知机的原理 感知机是二分类的线性模型,其输入是实例的特征向量,输出的是事例的类别,分别是+1和-1,属于判别模型。 假设训练数据集是线性可分的,感知机学习的目标是求得一个能够将训练数据集正实例点和负实例点完全正确分开的分离超平面。如果是非线性可分的数据,则最后无法获得超平面。感知机由Rosenbl 阅读全文