摘要: [TOC] (一)包和模块的管理 模块:模块可以理解为一个.py文件 包:一个包包含多个目录(可以看做一个特殊的目录) ​ 包下边有个\__init__.py模块,只有在包被第一次导入时才会被调用 主要几个关键字: import:导入某个包 from:从某个包中导入某个变量或方法 导入的步骤: (1 阅读全文
posted @ 2020-01-02 21:51 sowhat1943 阅读(147) 评论(0) 推荐(0) 编辑
摘要: Python语句 赋值语句 条件语句 循环语句 while循环 for循环 迭代 迭代协议:__ next__() 全局函数:next() 可迭代的对象分为两类: ​ 迭代器对象:已经实现(文件) ​ 可迭代对象:需要iter() __ iter__方法生成迭代器(列表) Python之函数 函数的 阅读全文
posted @ 2019-12-30 21:44 sowhat1943 阅读(105) 评论(0) 推荐(0) 编辑
摘要: Python语言的特殊之处 本人是在有其他语言的基础之上,开始学习Python,因此本文的介绍之包含Python语言的特殊语法和原理。 1 变量 类型:Python变量的声明不需要类型,它的真实类型取决于关联的对象。 获取一个变量的类型用函数 type(name) 获取变量指向的内存地址 id(na 阅读全文
posted @ 2019-12-16 22:23 sowhat1943 阅读(241) 评论(0) 推荐(0) 编辑
摘要: Kafka消费者 1.1 消费者与消费者组 消费者与消费者组之间的关系 ​ 每一个消费者都隶属于某一个消费者组,一个消费者组可以包含一个或多个消费者,每一条消息只会被消费者组中的某一个消费者所消费。不同消费者组之间消息的消费是互不干扰的。 为什么会有消费者组的概念 ​ 消费者组出现主要是出于两个目的 阅读全文
posted @ 2019-06-25 17:28 sowhat1943 阅读(3019) 评论(0) 推荐(0) 编辑
摘要: kafka的生产者 1. 生产者客户端开发 ​ 熟悉kafka的朋友都应该知道kafka客户端有新旧版本,老版本采用scala编写,新版本采用java编写。随着kafka版本的升级,旧版本客户端已经快被完全替代了。因此,我们以新客户端为例进行介绍。 ​ 客户端开发的步骤如下: ​ 配置生产者客户端参 阅读全文
posted @ 2019-06-25 17:27 sowhat1943 阅读(1342) 评论(0) 推荐(0) 编辑
摘要: kafka技术分享02 kafka入门 1. 消息系统 ​ 所谓的Messaging System就是一组规范,企业利用这组规范在不同的系统之间传递语义准确对的消息,实现松耦合的异步数据传输。简单理解为系统A将消息发送给Messaging System,系统B从Messaging System中获取 阅读全文
posted @ 2019-06-18 16:02 sowhat1943 阅读(262) 评论(0) 推荐(0) 编辑
摘要: kafka技术分享01 why we study kafka? ​ 作为一名大数据工程师,我们所面对的大多数是数据密集型的应用,而非计算密集型的应用。对于数据密集型的应用,如何解决数据激增、数据复杂度增加以及数据变化速率快这类问题相当重要,它决定的应用的稳定与否。恰巧kafka对于解决此类问题有着非 阅读全文
posted @ 2019-06-18 15:31 sowhat1943 阅读(182) 评论(0) 推荐(0) 编辑
摘要: hadoop之hdfs及其工作原理 (一)hdfs产生的背景 随着数据量的不断增大和增长速度的不断加快,一台机器上已经容纳不下,因此就需要放到更多的机器中,但这样做不方便维护和管理,因此需要一种文件系统进行统一管理;另一方面,数据量之大,势必会对处理器性能提出了更大的要求,单个处理器性能的提升成本极 阅读全文
posted @ 2018-07-28 18:59 sowhat1943 阅读(781) 评论(0) 推荐(0) 编辑
摘要: FileSystem及其源码分析 FileSystem这个抽象类提供了丰富的方法用于对文件系统的操作,包括上传、下载、删除、创建等。这里多说的文件系统通常指的是HDFS(DistributedFileSystem),其实,hadoop处理支持分布式文件系统,还提供了对诸如本地文件系统(LocalFi 阅读全文
posted @ 2018-07-27 22:01 sowhat1943 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 数据结构之红黑树(一) 为什么是要使用红黑树? 二叉树在平均情况下的运行时间已经是对数级别,为什么还要使用红黑树?原因很简单,二叉树在最坏情况下的查找时间为线性级别,导致这种最坏情况的原因是数据的插入找特定的顺序(从大到小或者从小到大),致使数的高度过大,也就是树的不平衡,因而导致了查询效率的下降。 阅读全文
posted @ 2018-07-18 21:13 sowhat1943 阅读(129) 评论(0) 推荐(0) 编辑