摘要: # 本节内容: # 解析复杂的 HTML网页: # 1--bs.find() bs.find_all() tag.get_text() # find_all(tag/tag_list,attributes_dict,recursive,text,limit,keywords) # find(tag/ 阅读全文
posted @ 2020-06-22 20:35 collin_pxy 阅读(197) 评论(0) 推荐(0) 编辑
摘要: # 1: BeautifulSoup的基本使用: import requests from bs4 import BeautifulSoup html=requests.get('https://www.pythonscraping.com/pages/page1.html') bs=Beautif 阅读全文
posted @ 2020-06-22 14:49 collin_pxy 阅读(160) 评论(0) 推荐(0) 编辑
摘要: # 使用豆瓣镜像源 anaconda prompt界面里输入: pip install pyqt5-tools -i https://pypi.douban.com/simple/ 阅读全文
posted @ 2020-06-17 17:59 collin_pxy 阅读(1997) 评论(0) 推荐(0) 编辑
摘要: http://www.ico51.cn/ 阅读全文
posted @ 2020-06-17 11:23 collin_pxy 阅读(248) 评论(0) 推荐(0) 编辑
摘要: # 有些网站使用 ‘检查元素’也不能够好使,它们会对地址进行加密,此时使用Selenium 调用浏览器渲染引擎可以模拟用户的操作,完成抓取: # 注:selenium既可以抓取静态网页也可以抓取动态网页。 # selenium的安装及 webdriver的安装见之前发的selenium专题博客。 # 阅读全文
posted @ 2020-06-16 18:27 collin_pxy 阅读(224) 评论(0) 推荐(0) 编辑
摘要: # 静态网页在浏览器中展示的内容都在HTML的源码中,但主流网页使用 Javascript时,很多内容不出现在HTML的源代码中,我们需要使用动态网页抓取技术。 # Ajax: Asynchronous Javascript And XML,异步JvvaScript和 XML; 在不重新加载整个网页 阅读全文
posted @ 2020-06-14 21:14 collin_pxy 阅读(808) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫(一) 一、简介 1、robot协议(爬虫协议):这个协议告诉引擎哪些页面可以抓取,哪些不可以 -User-agent:爬虫引擎 -allow:允许robot访问的URL -disallow:禁止访问的URL 2、爬虫约束:过快/频繁的网络爬虫会对服务器产生巨大的压力,网站可能封锁你的IP, 阅读全文
posted @ 2020-06-10 21:59 collin_pxy 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 咖啡金额 首先要申请博客园 js权限 点击查看折叠代码块 +阿斯顿的风格 +22 ```Python for i in rang(5) print(i) </details> 阅读全文
posted @ 2020-06-09 15:29 collin_pxy 阅读(70) 评论(0) 推荐(0) 编辑
摘要: 写在前面 第一次考证的时候,就是为了考证而考证,从网上获取了试题,修改了一下,就通过了,对 REFramework的了解甚少,经过几周的学习,决定赶在 4.30号考证收费之前再重新考一次。 原文章发表在 CSDN,以下文章列表,目前都还在CSDN没有迁移过来。 以下12篇博客是通过认证考试的整个过程 阅读全文
posted @ 2020-06-03 18:22 collin_pxy 阅读(498) 评论(0) 推荐(0) 编辑
摘要: Sub copyreport() Application.ScreenUpdating = False Application.Calculation = xlCalculationManual Application.DisplayStatusBar = False Application.Dis 阅读全文
posted @ 2020-06-03 17:21 collin_pxy 阅读(370) 评论(0) 推荐(0) 编辑