Python - 随笔分类 - 昕

python学习笔记之五

摘要：1、Python HTTP server win环境需要加cgi参数 python -m http.server --cgi 8000 其他如下： python -m http.server 8080 2、指定位数不足补零 zfill方法： n = "123" s = n.zfill(5) as 阅读全文

posted @ 2018-11-01 08:18 昕阅读(146) 评论(0) 推荐(0)

python网页爬虫开发之七-多线程爬虫示例01

摘要：from urllib.request import quote import urllib.request from bs4 import BeautifulSoup import re import multiprocessing import os import time def start( 阅读全文

posted @ 2018-10-25 16:46 昕阅读(415) 评论(0) 推荐(0)

python学习笔记之四-多进程&多线程&异步非阻塞

摘要：ProcessPoolExecutor对multiprocessing进行了高级抽象，暴露出简单的统一接口。异步非阻塞爬虫对于异步IO请求的本质则是【非阻塞Socket】+【IO多路复用】： """ 史上最牛逼的异步IO模块 """ import select import socket im 阅读全文

posted @ 2018-10-25 16:45 昕阅读(1628) 评论(0) 推荐(0)

python网页爬虫开发之六-Selenium使用

摘要：chromedriver禁用图片，禁用js，切换UA selenium 模拟chrome浏览器，此时就是一个真实的浏览器，一个浏览器该加载的该渲染的它都加载都渲染，所以爬取网页的速度很慢。如果可以不加载图片等操作，网页加载速度就会快不少，代码中列出了了禁用图片，禁用JS，切换UA的方法。 from 阅读全文

posted @ 2018-10-25 16:44 昕阅读(242) 评论(0) 推荐(0)

python网页爬虫开发之五-反爬

摘要：1、头信息检查是否频繁相同随机产生一个headers， #user_agent 集合 user_agent_list = [ 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/ 阅读全文

posted @ 2018-10-25 16:43 昕阅读(280) 评论(0) 推荐(0)

python网页爬虫开发之四-串行爬虫代码示例

摘要：实现功能：代理、限速、深度、反爬 import re import queue import urllib.parse import urllib.robotparser import time from urllib import request from datetime import date 阅读全文

posted @ 2018-10-25 16:40 昕阅读(353) 评论(0) 推荐(0)

python学习笔记之三-计算运行时间

摘要：方法1 import datetime starttime = datetime.datetime.now() #long running endtime = datetime.datetime.now() print (endtime - starttime).seconds 方法 2 start 阅读全文

posted @ 2018-10-25 16:39 昕阅读(163) 评论(0) 推荐(0)

python网页爬虫开发之三

摘要：1、抓取目录页后用lxml进行页面解析，获取抓取列表 python3.6 urlparse模块变为urllib.parse 2、Python中有一个专门生成各类假数据的库：Faker 3、python类中函数调用要加self 基于OO方法，指向类自身的实例化，方便方法调用 4、网页编码问题解码：d 阅读全文

posted @ 2018-10-25 16:38 昕阅读(278) 评论(0) 推荐(0)

python网页爬虫开发之二

摘要：1、网站robots robotparser模块首先加载robots.txt文件，然后通过can_fetch()函数确定指定的用户代理是否允许访问网页。 2、识别网站技术 3、下载网页使用urllib库，3.6没有urllib2 根据网页加载返回错误，进行重试，增强容错性 Requests库适合网阅读全文

posted @ 2018-10-25 16:37 昕阅读(189) 评论(0) 推荐(0)

python网页爬虫开发之一

摘要：1、beautifulsoap4 和 scrapy解析和下载网页的代码区别 bs可以离线解释html文件，但是获取html文件是由用户的其他行为的定义的，比如urllib或者request ；而scrapy是一个完整的获取程序，只需要把网址贴上去，就会自动去爬。省去很多用户需要关注的细节。轮子阅读全文

posted @ 2018-09-25 17:32 昕阅读(257) 评论(0) 推荐(0)

python学习笔记之二

摘要：1、python计算运行时间方法1 import datetime starttime = datetime.datetime.now() #long running endtime = datetime.datetime.now() print (endtime - starttime).sec 阅读全文

posted @ 2018-09-25 17:30 昕阅读(139) 评论(0) 推荐(0)

python学习笔记之一

摘要：1、可以自己运行，也可以被import后调用 if __name__ == '__main__' main() 2、可变参数，关键字参数，命名关键字参数可变参数和关键字参数 def f1(a, b, c=0, *args, **kw): print('a =', a, 'b =', b, 'c = 阅读全文

posted @ 2018-09-25 17:29 昕阅读(235) 评论(0) 推荐(0)

conda和pip环境管理

摘要：1、anaconda换源制定清华的源： conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ 有资源显示源地址： conda config --set show_channel_ur 阅读全文

posted @ 2018-09-25 17:28 昕阅读(3125) 评论(0) 推荐(0)

joxin

导航

公告

随笔分类 - Python