摘要: 一、选择消息队列产品的基本标准 在消息队列的技术选型上,并不存在说哪个消息队列就是“最好的”。常用的几个消息队列,每个产品都有自己的优势和劣势,需要根据现有系统的情况,选择最适合的那款产品。 技术产品的及格标准: 必须是开源产品:如果遇到Bug至少有机会通过修改源代码迅速修复或规避,解决燃眉之急。 阅读全文
posted @ 2019-08-22 14:37 chjxbt 阅读(3014) 评论(2) 推荐(2) 编辑
摘要: 一、异步处理 秒杀系统需要解决如何利用有限的服务器资源,尽可能多地处理短时间内的海量请求。 处理一个秒杀请求包含步骤: 风险控制 库存锁定 生成订单 短信通知 更新统计数据 能否决定秒杀成功,实际上只有风险控制和库存锁定这两步,当服务端完成前面2个步骤,确定本次请求的秒杀结果后,就可以马上给用户返回 阅读全文
posted @ 2019-08-19 15:29 chjxbt 阅读(2299) 评论(0) 推荐(0) 编辑
摘要: 一、新建隐身窗口 在打开隐身窗口的时候,第一次请求某个网站是没有携带cookie的,和代码请求一个网站一样,不携带cookie。这样就能够尽可能的理解代码请求某个网站的结果;除非数据是通过js加载出来的,不然爬虫请求到的数据和浏览器请求的数据大部分时候都是相同的。 二、Chrome中Network功 阅读全文
posted @ 2019-08-16 17:36 chjxbt 阅读(1176) 评论(0) 推荐(0) 编辑
摘要: 一、requests的概述 requests模块是用于发送网络请求,返回响应数据。底层实现是urllib,而且简单易用,在python2、python3中通用,能够自动帮助我们解压(gzip压缩的等)网页内容。 二、requests的基本使用 1、基本使用: 安装requests模块: pip in 阅读全文
posted @ 2019-08-15 18:16 chjxbt 阅读(509) 评论(0) 推荐(0) 编辑
摘要: 一、爬虫介绍 1、概念:爬虫就是模拟客户端发送网络请求,获取请求响应数据,一种按照一定的规则,自动地抓取互联网信息的程序。只要是浏览器能做的事情,原则上爬虫都能够做。 2、使用场景:主要用途是数据采集,爬虫是一种获取数据的重要手段。获取到数据后的用途主要有两个方面:进行数据分析或直接展示(比如百度新 阅读全文
posted @ 2019-08-15 16:38 chjxbt 阅读(1132) 评论(0) 推荐(0) 编辑
摘要: 一、通过文档来了解开源项目 通过看文档,你可以快速地掌握这个软件整体结构,它有哪些功能特性,它涉及到的关键技术、实现原理和它的生态系统等等。在掌握了这些之后,然后再去看它的源代码。 强调一点,你必须去看这些开源软件官网上的文档,尽量不要去搜索一些翻译的中文文档。因为中文文档很多都会落后于英文文档。如 阅读全文
posted @ 2019-08-14 17:01 chjxbt 阅读(1489) 评论(0) 推荐(0) 编辑
摘要: 一、生产者消息分区机制原理剖析 在使用Kafka 生产和消费消息的时候,肯定是希望能够将数据均匀地分配到所有服务器上。比如很多公司使用 Kafka 收集应用服务器的日志数据,这种数据都是很多的,特别是对于那种大批量机器组成的集群环境,每分钟产生的日志量都能以 GB 数,因此如何将这么大的数据量均匀地 阅读全文
posted @ 2019-08-14 14:33 chjxbt 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 一、Kafka线上集群部署方案 既然是集群,那必然就要有多个Kafka节点机器,因为只有单台机器构成的kafka伪集群只能用于日常测试之用,根本无法满足实际的线上生产需求。 操作系统: kafka由Scals语言和Java语言编写而成,编译之后的源代码就是普通的.class文件,文本部署到哪个操作系 阅读全文
posted @ 2019-08-12 15:06 chjxbt 阅读(940) 评论(0) 推荐(0) 编辑
摘要: 一、简介 1、以Numpy为基础,借力Numpy模块在计算方面性能高的优势 2、基于matplotlib,能够简便的画图 3、拥有独特的数据结构 二、Pandas与Numpy的不同 Numpy已经能够帮助我们处理数据,能够结合matplotlib解决部分数据展示等问题,而pandas其优点是: 1、 阅读全文
posted @ 2019-08-05 18:24 chjxbt 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 一、概况 1、数据清洗到底是在清洗些什么? 通常来说,你所获取到的原始数据不能直接用来分析,因为它们会有各种各样的问题,如包含无效信息,列名不规范、格式不一致,存在重复值,缺失值,异常值等..... 二、使用库介绍 1、Pandas Python的一个数据分析包,被作为金融数据分析工具,为时间序列分 阅读全文
posted @ 2019-08-05 16:22 chjxbt 阅读(1301) 评论(0) 推荐(0) 编辑