DataBig - 随笔分类 - 数据阮小白

Matplotlib

摘要：Matplotlib 安装 Matplotlib 是一个强大的 Python 绘图库，用于创建各种类型的静态、动态和交互式图表。本章节，我们使用 pip 工具来安装 Matplotlib 库，如果还未安装该工具，可以参考 Python pip 安装与使用。升级 pip： python3 -m p 阅读全文

posted @ 2024-03-28 10:42 数据阮小白阅读(84) 评论(0) 推荐(0) 编辑

kafka源码解读

摘要：恢复内容开始 kafka源码解读一. 概述 1.前言在大数据的场景里面如何应对数据激增，数据复杂度增加以及数据变化速率变快，这都是体现了大数据架构师，Java架构师的功力。而Kafka能很好的解决这些问题。 Kafka的源码是众多开源的技术里面代码质量比较高的一个，所以本身研究它的源码就比较有阅读全文

posted @ 2020-06-22 11:33 数据阮小白阅读(453) 评论(0) 推荐(0) 编辑

超级详细的shell教程

摘要：详细的shell教程一.Shell 教程 Shell 是一个用 C 语言编写的程序，它是用户使用 Linux 的桥梁。Shell 既是一种命令语言，又是一种程序设计语言。 Shell 是指一种应用程序，这个应用程序提供了一个界面，用户通过这个界面访问操作系统内核的服务。 Ken Thompson 阅读全文

posted @ 2020-01-15 10:24 数据阮小白阅读(1393) 评论(0) 推荐(0) 编辑

小白的SVN学习之路

摘要：一.SVN基础知识 1.SVN 简介 Subversion(SVN) 是一个开源的版本控制系統, 也就是说 Subversion 管理着随时间改变的数据。这些数据放置在一个中央资料档案库(repository) 中。这个档案库很像一个普通的文件服务器, 不过它会记住每一次文件的变动。这样你就可阅读全文

posted @ 2020-01-14 16:52 数据阮小白阅读(257) 评论(0) 推荐(0) 编辑

关于这些年以来学的大数据技术的一些简单的总结

摘要：一.关于大数据 1. 什么是大数据?? 答:大数据讲的是无法在一定时间内用常规软件工具进行捕捉,管理和处理的数据集合.是需要新的处理模式才能具有更强的决策力,洞察力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产;主要解决-->海量的数据存储的分析和计算问题. 大数据的特性: 数据量庞大阅读全文

posted @ 2020-01-10 16:39 数据阮小白阅读(717) 评论(0) 推荐(0) 编辑

一个实时流处理框架

摘要：1、什么storm？？ Storm是一个实时的、分布式、高可靠性、可维护性以及具备高容错的异步流式计算框架；它是逐条处理数据的；它的架构主要有Nimbus，Supervisor，worker；编程模型：DAG、spout、Bolt；高可靠性体现在异常处理和消息的可靠性保障机制；可维护性体现在：提供U 阅读全文

posted @ 2020-01-10 16:37 数据阮小白阅读(558) 评论(0) 推荐(0) 编辑

大数据中最厉害的消息系统

摘要：1、什么是kafka？？ Kafka是一个高吞吐量、低延迟、分布式的消息队列系统，每秒可以处理几十万条消息，它的延迟最低只有几毫秒； Kafka提供了一个生产者、缓冲区、消费者的模型；kafka是由多个broker服务器组成，用于存储数据；不同的数据被分为不同的topic；producer往topi 阅读全文

posted @ 2020-01-10 16:36 数据阮小白阅读(241) 评论(0) 推荐(0) 编辑

大神的shell脚本练习

摘要：shell脚本练习示例 1.计算1到100的和 #!/bin/bashsum=0for i in `seq 1 100`;do sum=$[$i+$sum]doneecho $sum 2.输入一个数N,计算前n个数的和 #!/bin/bashsum=0for i in `seq 1 100`;do 阅读全文

posted @ 2020-01-02 16:26 数据阮小白阅读(214) 评论(0) 推荐(0) 编辑

靠近AI的机器学习

摘要：机器学习一、线性回归 1.理解回归主要关注确定一个唯一的因变量和一个或多个数值型的自变量广义线性回归：逻辑回归、泊松回归简单的线性回归：形如y=ax+b 2.梯度下降算法先确定向下一步的步伐大小，称之learning rate 任意给定一个初始值确定一个向下的方向，并向下走预先规定的步伐阅读全文

posted @ 2020-01-02 16:25 数据阮小白阅读(115) 评论(0) 推荐(0) 编辑

好强大的flink

摘要：初识flink 一、认识flink 1、flink简介 flink是一个低延迟、高吞吐、统一的大数据计算引擎。 flink的计算平台可以实现毫秒级的延迟情况下，每秒钟处理上亿次的消息或者事件。提供一个Exactly-once的一致性语义，保证了数据的正确性；使得flink大数据引擎可以提供金融级的阅读全文

posted @ 2020-01-02 16:24 数据阮小白阅读(335) 评论(0) 推荐(0) 编辑

中国人的kylin

摘要：kylin的认识一、cubo和cudoid 1.维度和度量数据分析领域中两个常用的概念。维度观察数据的角度，也就是数据记录的一个属性。度量基于数据所计算出来的考量值，通常是一个数据，例如销售额、不同的用户数量。我们就是从不同的维度来审查度量值，以便我们分析找出其中的变化规律。对于我们阅读全文

posted @ 2020-01-02 16:22 数据阮小白阅读(568) 评论(0) 推荐(0) 编辑

MapReduce经典案例讲解

摘要：1.天气案列 1.1原始数据 1949-10-01 14:21:02 34c 1949-10-01 19:21:02 38c 1949-10-02 14:01:02 32c 1950-01-01 11:21:02 32c 1950-10-01 12:21:02 37c 1951-12-01 12:2 阅读全文

posted @ 2020-01-02 16:09 数据阮小白阅读(1024) 评论(0) 推荐(0) 编辑

MapReduce流程讲解以及源码分析

摘要：MapReduce流程讲解一.简介对于用户来说只需要书写map操作和reduce操作 mapreduce计算数据的时间较长整个过程分为map和reduce,map负责处理原始数据，reduce负责处理map数据二.原理分析 1.map过程 block:块-->物理上的概念,默认是128M s 阅读全文

posted @ 2020-01-02 16:08 数据阮小白阅读(293) 评论(0) 推荐(0) 编辑

storm相关知识点

摘要：一. 简介是个实时的,分布式以及具备高容错的计算框架 storm进程常驻内存 storm数据不经过磁盘,在内存中处理是Twitter开源的实时的大数据处理框架,最早开源与GitHub 架构 nimbus supervisor worker 编程模型 DAG(topology) spout bol 阅读全文

posted @ 2020-01-02 13:40 数据阮小白阅读(228) 评论(0) 推荐(0) 编辑

认识kafka

摘要：kafka是一个高吞吐量,低延迟分布式的消息队列系统.kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒一. kafka模型 kafka提供了一个生产者,缓冲区,消费者的模型 1.1 模型分析 broker:kafka集群有多个broker服务器组成,用于存储数据(消息) topic:不同阅读全文

posted @ 2019-12-30 13:55 数据阮小白阅读(84) 评论(0) 推荐(0) 编辑

elasticsearch

摘要：一. 简介 1. 什么是elasticsearch Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。基于RESTful接口。 2. Lucene与ES的关系 1）Lucene只是一个库。想要使用它，阅读全文

posted @ 2019-12-30 13:46 数据阮小白阅读(98) 评论(0) 推荐(0) 编辑

Linux常见命令

摘要：一.虚拟机安装 1.安装环境选择VMWare-->更改虚拟机安装位置-->预留至少30G的内存空间 2.安装虚拟机 1.安装选择centos64位操作系统进行安装-->设置主机名称-->设置密码-->配置虚拟机:ifconfig查看网络信息,ping www.baidu.com 是否能访问外网阅读全文

posted @ 2019-12-30 13:35 数据阮小白阅读(1030) 评论(0) 推荐(0) 编辑

数据阮小白

#数据阮小白的进阶之路

随笔分类 - DataBig

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜