摘要: LINUX系统的中级,来搞一些LINUX安全相关的东西,还有在公司生成中长搞的集群。 RHCS集群 什么是高可用 什么是热备 什么是分布式 RHCS集群 什么是高可用 什么是热备 什么是分布式 阅读全文
posted @ 2018-02-10 19:15 王先生是胖子 阅读(167) 评论(0) 推荐(0) 编辑
摘要: LINUX系统的初级,从安装LINUX开始,到处理简单的运维问题、搭建各种服务、解决网路问题、缓解服务器压力,写简单的shell脚本。 我们从基本的入门开始搞事情: 安装LINUX系统 对磁盘的使用 创建用户、管理用户、管理和创建用户组 分配权限 搭建服务 DNS MySQL Tomcat Ngin 阅读全文
posted @ 2018-02-10 19:00 王先生是胖子 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 流程: 打开的web_wechat,就有出现二维码,在network中,name中login?loginicon中,status的状态是pending,pending的意思是前端发送了一个请求,但是还没有被返回。 阅读全文
posted @ 2017-08-29 17:05 王先生是胖子 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 轮询: 定时每隔多长时间刷新一次,但是,7X24的对服务器的压力会过大,因为在夜间或者是流量低峰期时,他还要持续工作。 客户端发一次请求,服务器就要相应一次。 长轮询: 和轮询的模式不同,长轮询是一次性的处理多个客户端的请求,多个客户端向服务器发送链接请求,服务器接受后,不会放开,而是会hold住, 阅读全文
posted @ 2017-08-29 16:54 王先生是胖子 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 对HTML的解析: 在解析复杂的HTML的页面时,需要避免一些问题,好让爬虫工作变得得心应手。 • 寻找“打印此页”的链接,或者看看网站有没有HTML样式更友好的移动版(把自己 的请求头设置成处于移动设备的状态,然后接收网站移动版)。 • 寻找隐藏在JavaScript文件里的信息。要实现这一点,可 阅读全文
posted @ 2017-08-21 16:50 王先生是胖子 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 爬虫所需要的模块: requests: requetes是使用Apache2 licensed的许可证,基于Python开发的http库。 在Python内置模块的基础上进行的高度封装,从而使得Python进行网络请求时,变的好 用,使用requests可以轻易得完成浏览器的任何操作。 1. get 阅读全文
posted @ 2017-08-21 10:10 王先生是胖子 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 算法的low B三人组: 快排: 阅读全文
posted @ 2017-08-15 10:33 王先生是胖子 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 常见的称谓是网页抓屏(screen scraping)、数据挖掘(data mining)、网络收割(Web harvesting)或其他类似的版本。器人(bots)。 常见的称谓是网页抓屏(screen scraping)、数据挖掘(data mining)、网络收割(Web harvesting 阅读全文
posted @ 2017-08-15 10:28 王先生是胖子 阅读(4175) 评论(0) 推荐(0) 编辑
摘要: 可变数据类型:列表,字典,集合 不可变数据类型(一创建,不能修改):整型,元组,字符串 字符编码: ASCII编码。最多只能用8位来表示一个字节。ASCII编码最多只能表示255个符合。 GB2312和GBK和GB18030。支持中文。 Unicode万国码。搞全有。utf-32 = 4字节 utf 阅读全文
posted @ 2017-08-15 10:17 王先生是胖子 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 爬虫的异常处理: • 网页在服务器上不存在(或者获取页面的时候出现错误) • 服务器不存在 第一种异常发生时,程序会返回 HTTP 错误。HTTP 错误可能是“404 Page Not Found”“500 Internal Server Error”等。所有类似情形,urlopen函数都会抛出“H 阅读全文
posted @ 2017-08-14 09:53 王先生是胖子 阅读(266) 评论(0) 推荐(0) 编辑