2019年12月4日
摘要: 准备工作: 安装requests库 pip install requests 初步使用: 获取网页信息直接采用 get() 方法 import requests #get方法发送网址) res=requests.get('https://www.csdn.net') #查看它的类 print(typ 阅读全文
posted @ 2019-12-04 16:12 zfj822 阅读(623) 评论(0) 推荐(0) 编辑
摘要: 什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 必备知识 根据我的经验,要学习Python爬虫,我们要学习的共有以下几点: Python基础知识 Python中requests Pytho 阅读全文
posted @ 2019-12-04 10:17 zfj822 阅读(106) 评论(0) 推荐(0) 编辑
摘要: 1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正则表达式的大致匹配过程是:1.依次拿出表达式和文本中的字符比较,2.如果每一个字符都能匹配,则匹配成功;一旦 阅读全文
posted @ 2019-12-04 09:20 zfj822 阅读(79) 评论(0) 推荐(0) 编辑