08 2021 档案
摘要:颜色名称及色样表(HTML版) 颜色名 中文名称 Hex RGB 十进制 Decimal LightPink 浅粉红 #FFB6C1 255,182,193 Pink 粉红 #FFC0CB 255,192,203 Crimson 深红(猩红) #DC143C 220,20,60 LavenderBl
阅读全文
摘要:提取新闻联播相关文字并输出 网址:新闻联播 (cctv.com) import requests import re url = 'https://tv.cctv.com/lm/xwlb/' ua = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win
阅读全文
摘要:由于腾讯视频评论处进行触碰处理,点击后,网址是不变的,所以需要先进行分析。 网址:HBO纪录片:成为沃伦·巴菲特【正片】_成为沃伦·巴菲特_腾讯视频 (qq.com) 点击更多评论,查看F12,可以发现其网址。 打开后,我们发现其通过 'first'和'last’进行评论的翻页。我们需要对网址二次赋
阅读全文
摘要:网址:豆瓣电影 (douban.com) 和豆瓣读书类似,需要对爬虫的headers进行处理。 import requests import re for i in range(0,2): j = i*20 url = 'https://movie.douban.com/j/search_subje
阅读全文
摘要:豆瓣网站禁止了爬虫爬取,需要对其进行简单的反爬虫处理后才可进行提取。 https://book.douban.com/robots.txt 网址:豆瓣读书 (douban.com) F12,找到 User-agent ,在爬虫程序中进行添加。 import requests import re fo
阅读全文
摘要:网址:畅销榜_正版电子书在线阅读_百度阅读 (baidu.com) 根据页数,提取网址,查看其变化,进行爬取。 import requests import re for i in range(0,10): j = i*20 url = 'https://yuedu.baidu.com/rank/h
阅读全文