Fork me on GitHub
摘要: 一、前述 为了提高Storm的并行能力,通常需要设置并行。 二、具体原理 1. Storm并行分为几个方面: Worker – 进程一个Topology拓扑会包含一个或多个Worker(每个Worker进程只能从属于一个特定的Topology)这些Worker进程会并行跑在集群中不同的服务器上,即一 阅读全文
posted @ 2018-01-25 21:21 L先生AI课堂 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 一、前述 Storm由数源泉spout到bolt时,可以选择分组策略,实现对spout发出的数据的分发。对多个并行度的时候有用。 二、具体原理 1. Shuffle Grouping 随机分组,随机派发stream里面的tuple,保证每个bolt task接收到的tuple数目大致相同。轮询,平均 阅读全文
posted @ 2018-01-25 20:31 L先生AI课堂 阅读(3114) 评论(0) 推荐(0) 编辑
摘要: 一、前述 Storm是个实时的、分布式以及具备高容错的计算系统,Storm进程常驻内存 ,Storm数据不经过磁盘,在内存中处理。 二、相关概念 1.异步: 流式处理(异步)客户端提交数据进行结算,并不会等待数据计算结果。 2.同步: 实时请求应答服务(同步)客户端提交数据请求之后,立刻取得计算结果 阅读全文
posted @ 2018-01-25 19:32 L先生AI课堂 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 一、前述 Soft-Max是做多分类的,本身是哪个类别的概率大,结果就为对应的类别。为什么称之为Soft判别,原因是归一化之后的概率选择最大的作为结果,而不是只根据分子。 二、原理 sigmod函数: SoftMax函数模型理解: 每一个分类的预测值的概率: soft-max的损失函数: 当k=2时 阅读全文
posted @ 2018-01-24 01:00 L先生AI课堂 阅读(950) 评论(0) 推荐(0) 编辑
摘要: 一、前述 逻辑回归是一种分类算法,对多元线性回归的结果做一定的缩放。是一种线性(x是一次的)有监督(有x,y)分类(要么是正列,要么是负例)算法。是通过sigmod算法的一次缩放。 sigmod函数解释如下: 二、具体原理 前提和损失函数推倒: -->转化为似然的思想: -->对转换后的似然函数求偏 阅读全文
posted @ 2018-01-23 20:51 L先生AI课堂 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 一、前述 L1正则,L2正则的出现原因是为了推广模型的泛化能力。相当于一个惩罚系数。 二、原理 L1正则:Lasso Regression L2正则:Ridge Regression 总结: 经验值 MSE前系数为1 ,L1 , L2正则前面系数一般为0.4~0.5 更看重的是准确性。 L2正则会整 阅读全文
posted @ 2018-01-23 17:24 L先生AI课堂 阅读(2806) 评论(0) 推荐(0) 编辑
摘要: 一、前述 Hive会经常和Hbase结合使用,把Hbase作为Hive的存储路径,所以Hive整合Hbase尤其重要。 二、具体步骤 hive和hbase同步https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration1、把hiv 阅读全文
posted @ 2018-01-22 19:35 L先生AI课堂 阅读(617) 评论(0) 推荐(0) 编辑
摘要: 一、前述 今天开始讲解Sqoo的用法搭建和使用。Sqoop其实功能非常简单。主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HD 阅读全文
posted @ 2018-01-22 18:08 L先生AI课堂 阅读(497) 评论(0) 推荐(0) 编辑
摘要: 一.前述 线性回归是机器学习的基础,所以比较重要。这里边线性是指一次,回归实际上就是拟合。Copy过来一段线性回归的描述如下:确定一个唯一的因变量(需要预测的值)和一个或多个数值型的自变量(预测变量)之间的关系。线性回归是一种有监督的机器学习,何谓有监督:实际上就是我们的数据集既要有X,又要有Y。 阅读全文
posted @ 2018-01-22 01:36 L先生AI课堂 阅读(633) 评论(0) 推荐(0) 编辑
摘要: 一.前述 密度聚类是一种能降噪的算法。很多时候用在聚类形状不规则的情况下。 二.相关概念 先看些抽象的概念(官方定义): 1.:对象O的是与O为中心,为半径的空间,参数,是用户指定每个对象的领域半径值。 2.MinPts(领域密度阀值):对象的的对象数量。 3.核心对象:如果对象O的对象数量至少包含 阅读全文
posted @ 2018-01-19 20:00 L先生AI课堂 阅读(4099) 评论(0) 推荐(0) 编辑