随笔分类 - 爬虫
摘要:xpath解析入门 1.xpath 是在xml文档中搜索内容的一门语言 2.html是xml的一个子集 <book> <id>1</id> <name>野花遍地香</name> <price>1.23</price> <author> <nick>周大强</nick> <nick>周芷若</nick
阅读全文
摘要:bs4解析—html语法 HTML(Hyper Text Markup Language)超文本标记语言 最最基础的一些基本语法,想要了解更多请联系我,带你重返军校 <h1 >I love you</h1><h2>I love you too</h2> <p>I love you too too</
阅读全文
摘要:每日一爬 将抓取到的数据清晰的展示到data.csv中 需要导包 f = open("data.csv",mode="w",encoding= 'utf-8')csv_writer = csv.writer(f)for i in result: # print(i.group("name")) #
阅读全文
摘要:re模块 *正则表达式 1、 . 匹配除换行符以外的任意字符 2、 \w 匹配 数字 字母下划线 \W 匹配非数字、字母、下划线 3、 \s 匹配任意的空白符 \S 匹配非空白符 4、 \d 匹配数字 \D 匹配非数字 5、 \n 匹配一个换行符 6、 \t 匹配一个制表符 7、 ^ 匹配字符串的开
阅读全文
摘要:1.服务器渲染:在服务器那边直接把数据和HTML集合在一起,统一返回给浏览器,这是在页面可以看到源代码的情况下 2.客户端渲染: 每次请求只要一个html,第二次请求拿到数据,进行数据展示,在页面源代码中,看不到数据 优点:拿到的数据是非常有规律的 HTTP 请求头中常见的一些重要的内容(爬虫需要)
阅读全文