2019 年 5月 25 日随笔档案 - 晨曦yd

2019年5月25日

摘要： import urllib.request import re #爬取小说是最基础的爬虫，学会思路就能去做一些高级爬虫，思路一样，只是用的库或者JS或者异步等问题不同而已url = "https://www.qb5200.tw/xiaoshuo/36/36143/"#爬取的小说网址 with urllib.request.urlopen(url) as doc: html = doc... 阅读全文

posted @ 2019-05-25 22:37 晨曦yd 阅读(329) 评论(0) 推荐(0) 编辑

爬取梨视频

摘要： #下载网页中的视频 import urllib.request import re#正则表达式 import os #找到起始网页 url ='https://www.pearvideo.com/category_8' html = urllib.request.urlopen(url).read( 阅读全文

posted @ 2019-05-25 22:25 晨曦yd 阅读(156) 评论(0) 推荐(0) 编辑

爬取豆瓣top250

摘要： #xpath #第一种方法可在开发者工具中找到标签，右键copy xpath，有时需去掉tbody标签 #第二种方法简单学习xpath，自己书写，掌握基本语法即可，简单的层级关系 #先将csv文件以记事本打开，更改编码为ASNI，保存，再用excel打开即可 import urllib.request import urllib.parse import csv from lxm... 阅读全文

posted @ 2019-05-25 22:17 晨曦yd 阅读(217) 评论(0) 推荐(0) 编辑

晨曦yd

公告