Python学习24
python—简单的数据抓取一(简单的文字数据抓取(认识cookie)、简单的图片抓取)
学习目标:
python —数据抓取以及相关事项
学习内容:
1、简单的文字数据抓取(认识cookie、小说简介、小说内容、京东商品信息)
2、简单的图片数据抓取
1、简单的文字数据抓取
1、cookie的认识
- session机制采用的是在服务端保持状态的方案,而cookie机制则是在客户端保持状态的方案,cookie又叫会话跟踪机制
- 常见的是持久cookie:当我们在网站中,首次访问或者登陆就会生成cookie,即便跳转页面或者关闭浏览器再打开你依然是登陆状态
- cookie的集中常见属性:document.cookie=“key=value;expires=失效时间;path=路径;secure;(secure表安全级别)”
常见的cookie生成:用户名生成、用户IP生成、匿名生成(方便服务器传递一些信息)
2、获取页面源码的简单方法
- 注意获取网页内容的编码方式
import requests
import re
source = requests.get("https://www.23us.com/").content.decode('gbk')
demo = re.compile('<p class="ul1">\[(.*?)\]《<a class="poptext" href=".*?" target="_blank">(.*?)</a>》<\/p><p class="ul2"><a href=".*?" target="_blank">(.*?)</a></p><p>(.*?)</p>(.*?)</li>')
lists = demo.findall(source)
print(lists)
输出:
[('其他类型', '电影系统逍遥游', '第931章 佩恩来袭', '渔歌飘渺', '01-20'), ('都市言情', '都市极品医神', '第5212章 叶辰的布局!(八更!求月票!)', '风会笑', '01-20'), ('玄幻魔法', '八符', '第二百四十八章 弹指间灰飞烟灭', '噬君', '01-20'), ('玄幻魔法', '凡神物语', '第542章 重构', '商城', '01-20'), ('其他类型', '大明元辅', '第180章 税改大幕拉开', '云无风', '01-20'), ('历史军事', '朝为田舍郎', '第四百七十七章 潼关换将', '贼眉鼠眼', '01-20'), ('玄幻魔法', '灵龙传奇', '第461章:争先恐后', '悲伤的牧羊人', '01-20'), ('都市言情', '我有一个大世界', '第五百七十章 送快递的', '沉入太平洋', '01-20'), ('网游动漫', '英雄联盟之兼职主播', '第1423章 一改常态的SZ', '永远的黄昏', '01-20'), ('其他类型', '篮坛之锋芒逼人', '770开会开会开会!未知更动人!', '爱吃鱼的芒果', '01-20'), ('武侠修真', '最强昆仑掌门', '第一千零九十二章 观音泪与鬼泣剑', '阅读能力', '01-20'), ('其他类型', '我有一座八卦炉', '第七四二章 我李靖不死,你休想踏入陈塘关半步', '雪人不吃素', '01-20'), ('都市言情', '当医生遇上不正经系', '594、丧心病狂', '魔鬼藤', '01-20'), ('都市言情', '重生之跨国巨头', '第八百三十四章 后摩尔时代的芯片行业', '地球不安静', '01-20'), ('其他类型', '氪金剑仙李太白', '第210章 新罗北斗剑宗', '蜀山徐公', '01-20'), ('其他类型', '戏闹初唐', '第二五三二章', '活着就', '01-20'), ('其他类型', '平成骑士的旅行', '第511章 所有异虫都由我打倒!', '滴滴咯', '01-20'), ('历史军事', '无敌升级王', '第3671章 谈一谈', '可爱内内', '01-20'), ('玄幻魔法'