摘要: 一.关于大数据 1. 什么是大数据?? 答:大数据讲的是无法在一定时间内用常规软件工具进行捕捉,管理和处理的数据集合.是需要新的处理模式才能具有更强的决策力,洞察力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产;主要解决-->海量的数据存储的分析和计算问题. 大数据的特性: 数据量庞大 阅读全文
posted @ 2020-01-10 16:39 数据阮小白 阅读(647) 评论(0) 推荐(0) 编辑
摘要: 1、什么storm?? Storm是一个实时的、分布式、高可靠性、可维护性以及具备高容错的异步流式计算框架;它是逐条处理数据的;它的架构主要有Nimbus,Supervisor,worker;编程模型:DAG、spout、Bolt;高可靠性体现在异常处理和消息的可靠性保障机制;可维护性体现在:提供U 阅读全文
posted @ 2020-01-10 16:37 数据阮小白 阅读(555) 评论(0) 推荐(0) 编辑
摘要: 1、什么是kafka?? Kafka是一个高吞吐量、低延迟、分布式的消息队列系统,每秒可以处理几十万条消息,它的延迟最低只有几毫秒; Kafka提供了一个生产者、缓冲区、消费者的模型;kafka是由多个broker服务器组成,用于存储数据;不同的数据被分为不同的topic;producer往topi 阅读全文
posted @ 2020-01-10 16:36 数据阮小白 阅读(238) 评论(0) 推荐(0) 编辑
摘要: MQ消息队列 一. 消息队列的简介 1.简介 在计算机科学中,消息队列(英语:Message queue)是一种进程间通信或同一进程的不同线程间的通信方式,软件的贮列用来处理一系列的输入,通常是来自用户。消息队列提供了异步的通信协议,每一个贮列中的纪录包含详细说明的数据,包含发生的时间,输入设 备的 阅读全文
posted @ 2020-01-10 16:33 数据阮小白 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 机器学习 一、线性回归 1.理解回归 主要关注确定一个唯一的因变量和一个或多个数值型的自变量 广义线性回归:逻辑回归、泊松回归 简单的线性回归:形如y=ax+b 2.梯度下降算法 先确定向下一步的步伐大小,称之learning rate 任意给定一个初始值 确定一个向下的方向,并向下走预先规定的步伐 阅读全文
posted @ 2020-01-10 16:19 数据阮小白 阅读(110) 评论(0) 推荐(0) 编辑