joxin

诚信、业绩、创新
随笔 - 70, 文章 - 0, 评论 - 20, 阅读 - 49750

导航

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

随笔分类 -  Python

摘要:1、Python HTTP server win环境需要加cgi参数 python -m http.server --cgi 8000 其他如下: python -m http.server 8080 ​ 2、指定位数不足补零 zfill方法: n = "123" s = n.zfill(5) as 阅读全文

posted @ 2018-11-01 08:18 阅读(141) 评论(0) 推荐(0) 编辑

摘要:from urllib.request import quote import urllib.request from bs4 import BeautifulSoup import re import multiprocessing import os import time def start( 阅读全文

posted @ 2018-10-25 16:46 阅读(410) 评论(0) 推荐(0) 编辑

摘要:ProcessPoolExecutor对multiprocessing进行了高级抽象,暴露出简单的统一接口。 异步非阻塞 爬虫 对于异步IO请求的本质则是【非阻塞Socket】+【IO多路复用】: """ 史上最牛逼的异步IO模块 """ import select import socket im 阅读全文

posted @ 2018-10-25 16:45 阅读(1624) 评论(0) 推荐(0) 编辑

摘要:chromedriver禁用图片,禁用js,切换UA selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢。如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法。 from 阅读全文

posted @ 2018-10-25 16:44 阅读(236) 评论(0) 推荐(0) 编辑

摘要:1、头信息检查是否频繁相同 随机产生一个headers, #user_agent 集合 user_agent_list = [ 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/ 阅读全文

posted @ 2018-10-25 16:43 阅读(256) 评论(0) 推荐(0) 编辑

摘要:实现功能:代理、限速、深度、反爬 import re import queue import urllib.parse import urllib.robotparser import time from urllib import request from datetime import date 阅读全文

posted @ 2018-10-25 16:40 阅读(341) 评论(0) 推荐(0) 编辑

摘要:方法1 import datetime starttime = datetime.datetime.now() #long running endtime = datetime.datetime.now() print (endtime - starttime).seconds 方法 2 start 阅读全文

posted @ 2018-10-25 16:39 阅读(154) 评论(0) 推荐(0) 编辑

摘要:1、抓取目录页后用lxml进行页面解析,获取抓取列表 python3.6 urlparse模块变为urllib.parse 2、Python中有一个专门生成各类假数据的库:Faker 3、python类中函数调用要加self 基于OO方法,指向类自身的实例化,方便方法调用 4、网页编码问题 解码:d 阅读全文

posted @ 2018-10-25 16:38 阅读(273) 评论(0) 推荐(0) 编辑

摘要:1、网站robots robotparser模块首先加载robots.txt文件,然后通过can_fetch()函数确定指定的用户代理是否允许访问网页。 2、识别网站技术 3、下载网页 使用urllib库,3.6没有urllib2 根据网页加载返回错误,进行重试,增强容错性 Requests库适合网 阅读全文

posted @ 2018-10-25 16:37 阅读(182) 评论(0) 推荐(0) 编辑

摘要:1、beautifulsoap4 和 scrapy解析和下载网页的代码区别 bs可以离线解释html文件,但是获取html文件是由用户的其他行为的定义的,比如urllib或者request ; 而scrapy是一个完整的获取程序,只需要把网址贴上去,就会自动去爬。 省去很多用户需要关注的细节。 轮子 阅读全文

posted @ 2018-09-25 17:32 阅读(249) 评论(0) 推荐(0) 编辑

摘要:1、python计算运行时间 方法1 import datetime starttime = datetime.datetime.now() #long running endtime = datetime.datetime.now() print (endtime - starttime).sec 阅读全文

posted @ 2018-09-25 17:30 阅读(133) 评论(0) 推荐(0) 编辑

摘要:1、可以自己运行,也可以被import后调用 if __name__ == '__main__' main() 2、可变参数,关键字参数,命名关键字参数 可变参数和关键字参数 def f1(a, b, c=0, *args, **kw): print('a =', a, 'b =', b, 'c = 阅读全文

posted @ 2018-09-25 17:29 阅读(227) 评论(0) 推荐(0) 编辑

摘要:1、anaconda换源 制定清华的源: conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ 有资源显示源地址: conda config --set show_channel_ur 阅读全文

posted @ 2018-09-25 17:28 阅读(3103) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示