摘要: '''名字,详情页url,下载人数,app大小app_name,detail_url,download_num,app_size''' from bs4 import BeautifulSoup import requests import re '''爬虫三部曲'''# 1.发送请求 def get_page(url): response = requests.get(url)... 阅读全文
posted @ 2019-07-03 21:29 长歌依梦 阅读(577) 评论(0) 推荐(0) 编辑
摘要: '''find:找第一个find_all:找所有标签查找与属性查找:name 属性匹配 name 标签名 attrs 属性查找匹配 text 文本匹配 标签: - 字符串过滤器 字符串全局匹配 - 正则过滤器 re模块匹配 - 列表过滤器 ... 阅读全文
posted @ 2019-07-03 19:26 长歌依梦 阅读(455) 评论(0) 推荐(0) 编辑
摘要: 1.什么是BeautifulSoup4 BS4是一个解析库,可以通过某种(解析器)来帮我们提取想要的2.为什么要用BS4 它可以用简洁的语言帮我们快速提取想要的数据3.解析器的分类 (1)html.parser (2)lxml html_doc = """ The Dormouse's story $37 Once upon a time th... 阅读全文
posted @ 2019-07-03 19:20 长歌依梦 阅读(550) 评论(0) 推荐(0) 编辑
摘要: (一)初级爬取: (二)中级爬取 (三)高级爬取 阅读全文
posted @ 2019-07-03 18:35 长歌依梦 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 关于点击,清除 关于ActionChans #方法一(瞬移) #方法二(慢移) #循环移动 JS代码 阅读全文
posted @ 2019-07-03 18:33 长歌依梦 阅读(72) 评论(0) 推荐(0) 编辑
摘要: 关于京东的自动搜索 自动登录百度 阅读全文
posted @ 2019-07-02 14:45 长歌依梦 阅读(94) 评论(0) 推荐(0) 编辑
摘要: '''爬取豆瓣电影信息: 电影名称,电影url,电影导演电影主演,电影年份,电影类型电影评分,电影简介,电影评论 '''爬虫三部曲 import requests import re #1.发送请求 def get_page(url): reponse=requests.get(url) return reponse #2.解析数据 def parse_index(h... 阅读全文
posted @ 2019-07-02 14:31 长歌依梦 阅读(115) 评论(0) 推荐(0) 编辑
摘要: #获取token随机字符串 '''1.访问登录页面获取token随机字符串 请求URL: http://github.com/login 请求方式: GET 请求头: COOKIES User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/... 阅读全文
posted @ 2019-07-01 18:28 长歌依梦 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 爬虫三部曲 1.发送请求 2.解析数据 #findall匹配所有 #re.findall(“匹配所有”,html,re.S) #re.S(对全部文本进行匹配) #解析详情页 3.保存数据 #uuid.uuid4()根据时间戳生成一段世界上唯一的字符串 #main+回车键 测试用例: #发送请求 #返 阅读全文
posted @ 2019-07-01 18:12 长歌依梦 阅读(380) 评论(0) 推荐(0) 编辑