上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 63 下一页
摘要: python 爬虫 urllib模块介绍 python 爬虫 urllib模块 url编码处理 python 爬虫 urllib模块 反爬虫机制UA python 爬虫 urllib模块 发起post请求 阅读全文
posted @ 2019-08-11 18:10 minger_lcm 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 一.urllib库 概念:urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 使用流程: 指定url 针对指 阅读全文
posted @ 2019-08-11 18:09 minger_lcm 阅读(667) 评论(0) 推荐(0) 编辑
摘要: 爬虫 介绍 python 爬虫 urllib模块 python 爬虫 requests模块 阅读全文
posted @ 2019-08-11 18:02 minger_lcm 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫的介绍 网络爬虫的介绍 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。这个过程也是爬取数据过程 哪些语言可以实现爬虫 1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多 阅读全文
posted @ 2019-08-11 18:01 minger_lcm 阅读(394) 评论(0) 推荐(0) 编辑
摘要: /etc/sysctl.conf 用于控制内核相关的配置参数,而且它的内容全部是对应于 /proc/sys/ 这个目录的子目录及文件 net.ipv4.tcp_sack = 1#关闭tcp_sack#启用有选择的应答(Selective Acknowledgment),#这可以通过有选择地应答乱序接 阅读全文
posted @ 2019-08-06 01:57 minger_lcm 阅读(3020) 评论(0) 推荐(0) 编辑
摘要: 非阻塞IO(non-blocking IO) Linux下,可以通过设置socket使其变为non-blocking。当对一个non-blocking socket执行读操作时,流程是这个样子: 从图中可以看出,当用户进程发出read操作时,如果kernel中的数据还没有准备好,那么它并不会bloc 阅读全文
posted @ 2019-08-01 21:36 minger_lcm 阅读(1099) 评论(0) 推荐(0) 编辑
摘要: 多路复用IO(IO multiplexing) 这种IO方式为事件驱动IO(event driven IO)。 我们都知道,select/epoll的好处就在于单个进程process就可以同时处理多个网络连接的IO。它的基本原理就是select/epoll这个function会不断的轮询所负责的所有 阅读全文
posted @ 2019-08-01 21:36 minger_lcm 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 异步IO(Asynchronous I/O) Linux下的asynchronous IO其实用得不多,从内核2.6版本才开始引入。先看一下它的流程: 用户进程发起read操作之后,立刻就可以开始去做其它的事。而另一方面,从kernel的角度,当它受到一个asynchronous read之后,首先 阅读全文
posted @ 2019-08-01 21:36 minger_lcm 阅读(307) 评论(0) 推荐(0) 编辑
摘要: 阻塞IO(blocking IO) 在linux中,默认情况下所有的socket都是blocking,一个典型的读操作流程大概是这样: 当用户进程调用了recvfrom这个系统调用,kernel内核就开始了IO的第一个阶段:准备数据。对于network io( 网络io )来说,很多时候数据在一开始 阅读全文
posted @ 2019-07-27 23:55 minger_lcm 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 基于协程池 实现并发的套接字通信 客户端: 服务端: 阅读全文
posted @ 2019-07-27 21:55 minger_lcm 阅读(394) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 63 下一页