摘要: import urllib.request import re #爬取小说是最基础的爬虫,学会思路就能去做一些高级爬虫,思路一样,只是用的库或者JS或者异步等问题不同而已url = "https://www.qb5200.tw/xiaoshuo/36/36143/"#爬取的小说网址 with urllib.request.urlopen(url) as doc: html = doc... 阅读全文
posted @ 2019-05-25 22:37 晨曦yd 阅读(329) 评论(0) 推荐(0) 编辑
摘要: #下载网页中的视频 import urllib.request import re#正则表达式 import os #找到起始网页 url ='https://www.pearvideo.com/category_8' html = urllib.request.urlopen(url).read( 阅读全文
posted @ 2019-05-25 22:25 晨曦yd 阅读(156) 评论(0) 推荐(0) 编辑
摘要: #xpath #第一种方法 可在开发者工具中找到标签,右键copy xpath,有时需去掉tbody标签 #第二种方法 简单学习xpath,自己书写,掌握基本语法即可,简单的层级关系 #先将csv文件以记事本打开,更改编码为ASNI,保存,再用excel打开即可 import urllib.request import urllib.parse import csv from lxm... 阅读全文
posted @ 2019-05-25 22:17 晨曦yd 阅读(217) 评论(0) 推荐(0) 编辑