摘要: 那 Kafka 到底在什么情况下才能保证消息不丢失呢? 一句话概括,Kafka 只对“已提交”的消息(committed message)做有限度的持久化保证 第一个核心要素是“已提交的消息”。 什么是已提交的消息?当 Kafka 的若干个 Broker 成功地接收到一条消息并写入到日志文件后,它们 阅读全文
posted @ 2020-05-12 15:19 怡情养性长智 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 压缩(compression) 它秉承了用时间去换空间的经典 trade-off 思想 具体来说就是用 CPU 时间去换磁盘空间或网络 I/O 传输量 希望以较小的 CPU 开销带来更少的磁盘占用或更少的网络 I/O 传输 怎么压缩? Kafka 的消息层次都分为两层:消息集合(message se 阅读全文
posted @ 2020-05-11 11:10 怡情养性长智 阅读(397) 评论(0) 推荐(0) 编辑
摘要: 我们经常需要对分析的数据提取常用词,做词云展示 比如一些互联网公司会抓取用户的画像,或者每日讨论话题的关键词,形成词云并进行展示 再或者,假如你喜欢某个歌手,想了解这个歌手创作的歌曲中经常用到哪些词语,词云就是个很好的工具 最后,只需要将词云生成一张图片就可以直观地看到结果。 那么在今天的实战项目里 阅读全文
posted @ 2020-05-06 10:57 怡情养性长智 阅读(312) 评论(0) 推荐(0) 编辑
摘要: 使用 Python 自动化运营微博,达成以下的 3 个学习目标: 1、掌握 Selenium 自动化测试工具,以及元素定位的方法; 2、学会编写微博自动化功能模块:加关注,写评论,发微博; 3、对微博自动化做自我总结 Selenium 自动化测试工具 当我们做 Web 自动化测试的时候,可以选用 S 阅读全文
posted @ 2020-05-06 10:51 怡情养性长智 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 如何将这么大的数据量均匀地分配到 Kafka 的各个 Broker 上,就成为一个非常重要的问题 为什么分区? Kafka 有主题(Topic)的概念,它是承载真实数据的逻辑容器 而在主题之下还分为若干个分区,也就是说 Kafka 的消息组织方式实际上是三级结构:主题 - 分区 - 消息 主题下的每 阅读全文
posted @ 2020-05-03 13:10 怡情养性长智 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 下半部分主要是 Topic 级别参数、JVM 参数以及操作系统参数的设置 正确设置这些参数是搭建高性能 Kafka 集群的关键因素 Topic 级别参数 如果同时设置了 Topic 级别参数和全局 Broker 参数 答案就是 Topic 级别参数会覆盖全局 Broker 参数的值,而每个 Topi 阅读全文
posted @ 2020-05-03 13:08 怡情养性长智 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 很多参数对系统的影响要比从文档上看更加明显 严格来说这些配置并不单单指 Kafka 服务器端的配置,其中既有 Broker 端参数, 也有主题(后面我用我们更熟悉的 Topic 表示)级别的参数、 JVM 端参数 和操作系统级别的参数 Broker 端参数 目前 Kafka Broker 提供了近 阅读全文
posted @ 2020-05-02 22:16 怡情养性长智 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 操作系统 Kafka 由 Scala 语言和 Java 语言编写而成,编译之后的源代码就是普通的“.class”文件 应该说部署在 Linux 上的生产环境是最多的 主要是在下面这三个方面上,Linux 的表现更胜一筹。 I/O 模型的使用 数据网络传输效率 社区支持度 主流的 I/O 模型通常有 阅读全文
posted @ 2020-05-02 22:15 怡情养性长智 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 从数据采集角度来说,都有哪些数据源呢? 这四类数据源包括了:开放数据源、爬虫抓取、传感器和日志采集 开放数据源一般是针对行业的数据库。国内,贵州做了不少大胆尝试,搭建了云平台,逐年开放了旅游、交通、商务等领域的数据量 爬虫抓取,一般是针对特定的网站或 App。如果我们想要抓取指定的网站数据,比如购物 阅读全文
posted @ 2020-04-30 10:41 怡情养性长智 阅读(859) 评论(0) 推荐(0) 编辑
摘要: Pandas 可以对数据进行导入、清洗、处理、统计和输出 在 NumPy 中数据结构是围绕 ndarray 展开的 那么在 Pandas 中的Series 和 DataFrame 这两个核心数据结构,他们分别代表着一维的序列和二维的表结构 Series 是个定长的字典序列 说是定长是因为在存储的时候 阅读全文
posted @ 2020-04-30 10:40 怡情养性长智 阅读(424) 评论(0) 推荐(0) 编辑