随笔分类 -  DataBig

关于大数据
摘要:Matplotlib 安装 Matplotlib 是一个强大的 Python 绘图库,用于创建各种类型的静态、动态和交互式图表。 本章节,我们使用 pip 工具来安装 Matplotlib 库,如果还未安装该工具,可以参考 Python pip 安装与使用。 升级 pip: python3 -m p 阅读全文
posted @ 2024-03-28 10:42 数据阮小白 阅读(84) 评论(0) 推荐(0) 编辑
摘要:恢复内容开始 kafka源码解读 一. 概述 1.前言 在大数据的场景里面如何应对数据激增,数据复杂度增加以及数据变化速率变快,这都是体现了大 数据架构师,Java架构师的功力。而Kafka能很好的解决这些问题。 Kafka的源码是众多开源的技术里面代码质量比较高的一个,所以本身研究它的源码就比较有 阅读全文
posted @ 2020-06-22 11:33 数据阮小白 阅读(453) 评论(0) 推荐(0) 编辑
摘要:详细的shell教程 一.Shell 教程 Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。 Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。 Ken Thompson 阅读全文
posted @ 2020-01-15 10:24 数据阮小白 阅读(1393) 评论(0) 推荐(0) 编辑
摘要:一.SVN基础知识 1.SVN 简介 Subversion(SVN) 是一个开源的版本控制系統, 也就是说 Subversion 管理着随时间改变的数据。 这些数据放置在一个中央资料档案库(repository) 中。 这个档案库很像一个普通的文件服务器, 不过它会记住每一次文件的变动。 这样你就可 阅读全文
posted @ 2020-01-14 16:52 数据阮小白 阅读(257) 评论(0) 推荐(0) 编辑
摘要:一.关于大数据 1. 什么是大数据?? 答:大数据讲的是无法在一定时间内用常规软件工具进行捕捉,管理和处理的数据集合.是需要新的处理模式才能具有更强的决策力,洞察力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产;主要解决-->海量的数据存储的分析和计算问题. 大数据的特性: 数据量庞大 阅读全文
posted @ 2020-01-10 16:39 数据阮小白 阅读(717) 评论(0) 推荐(0) 编辑
摘要:1、什么storm?? Storm是一个实时的、分布式、高可靠性、可维护性以及具备高容错的异步流式计算框架;它是逐条处理数据的;它的架构主要有Nimbus,Supervisor,worker;编程模型:DAG、spout、Bolt;高可靠性体现在异常处理和消息的可靠性保障机制;可维护性体现在:提供U 阅读全文
posted @ 2020-01-10 16:37 数据阮小白 阅读(558) 评论(0) 推荐(0) 编辑
摘要:1、什么是kafka?? Kafka是一个高吞吐量、低延迟、分布式的消息队列系统,每秒可以处理几十万条消息,它的延迟最低只有几毫秒; Kafka提供了一个生产者、缓冲区、消费者的模型;kafka是由多个broker服务器组成,用于存储数据;不同的数据被分为不同的topic;producer往topi 阅读全文
posted @ 2020-01-10 16:36 数据阮小白 阅读(241) 评论(0) 推荐(0) 编辑
摘要:shell脚本练习示例 1.计算1到100的和 #!/bin/bashsum=0for i in `seq 1 100`;do sum=$[$i+$sum]doneecho $sum 2.输入一个数N,计算前n个数的和 #!/bin/bashsum=0for i in `seq 1 100`;do 阅读全文
posted @ 2020-01-02 16:26 数据阮小白 阅读(214) 评论(0) 推荐(0) 编辑
摘要:机器学习 一、线性回归 1.理解回归 主要关注确定一个唯一的因变量和一个或多个数值型的自变量 广义线性回归:逻辑回归、泊松回归 简单的线性回归:形如y=ax+b 2.梯度下降算法 先确定向下一步的步伐大小,称之learning rate 任意给定一个初始值 确定一个向下的方向,并向下走预先规定的步伐 阅读全文
posted @ 2020-01-02 16:25 数据阮小白 阅读(115) 评论(0) 推荐(0) 编辑
摘要:初识flink 一、认识flink 1、flink简介 flink是一个低延迟、高吞吐、统一的大数据计算引擎。 flink的计算平台可以实现毫秒级的延迟情况下,每秒钟处理上亿次的消息或者事件。 提供一个Exactly-once的一致性语义,保证了数据的正确性;使得flink大数据引擎可以提供金融级的 阅读全文
posted @ 2020-01-02 16:24 数据阮小白 阅读(335) 评论(0) 推荐(0) 编辑
摘要:kylin的认识 一、cubo和cudoid 1.维度和度量 数据分析领域中两个常用的概念。 维度 观察数据的角度,也就是数据记录的一个属性。 度量 基于数据所计算出来的考量值,通常是一个数据,例如销售额、不同的用户数量。 我们就是从不同的维度来审查度量值,以便我们分析找出其中的变化规律。 对于我们 阅读全文
posted @ 2020-01-02 16:22 数据阮小白 阅读(568) 评论(0) 推荐(0) 编辑
摘要:1.天气案列 1.1原始数据 1949-10-01 14:21:02 34c 1949-10-01 19:21:02 38c 1949-10-02 14:01:02 32c 1950-01-01 11:21:02 32c 1950-10-01 12:21:02 37c 1951-12-01 12:2 阅读全文
posted @ 2020-01-02 16:09 数据阮小白 阅读(1024) 评论(0) 推荐(0) 编辑
摘要:MapReduce流程讲解 一.简介 对于用户来说只需要书写map操作和reduce操作 mapreduce计算数据的时间较长 整个过程分为map和reduce,map负责处理原始数据,reduce负责处理map数据 二.原理分析 1.map过程 block:块-->物理上的概念,默认是128M s 阅读全文
posted @ 2020-01-02 16:08 数据阮小白 阅读(293) 评论(0) 推荐(0) 编辑
摘要:一. 简介 是个实时的,分布式以及具备高容错的计算框架 storm进程常驻内存 storm数据不经过磁盘,在内存中处理 是Twitter开源的实时的大数据处理框架,最早开源与GitHub 架构 nimbus supervisor worker 编程模型 DAG(topology) spout bol 阅读全文
posted @ 2020-01-02 13:40 数据阮小白 阅读(228) 评论(0) 推荐(0) 编辑
摘要:kafka是一个高吞吐量,低延迟分布式的消息队列系统.kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒 一. kafka模型 kafka提供了一个生产者,缓冲区,消费者的模型 1.1 模型分析 broker:kafka集群有多个broker服务器组成,用于存储数据(消息) topic:不同 阅读全文
posted @ 2019-12-30 13:55 数据阮小白 阅读(84) 评论(0) 推荐(0) 编辑
摘要:一. 简介 1. 什么是elasticsearch Elasticsearch是一个基于Lucene的实时的分布式搜索和分析 引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠, 快速,安装使用方便。基于RESTful接口。 2. Lucene与ES的关系 1)Lucene只是一个库。想要使用它, 阅读全文
posted @ 2019-12-30 13:46 数据阮小白 阅读(98) 评论(0) 推荐(0) 编辑
摘要:一.虚拟机安装 1.安装环境 选择VMWare-->更改虚拟机安装位置-->预留至少30G的内存空间 2.安装虚拟机 1.安装 选择centos64位操作系统进行安装-->设置主机名称-->设置密码-->配置虚拟机:ifconfig查看网络信息,ping www.baidu.com 是否能访问外网 阅读全文
posted @ 2019-12-30 13:35 数据阮小白 阅读(1030) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示