随笔分类 - 爬虫
摘要:beautifulsoup4(bs4)介绍与使用 是一个从HTML或XML文件中提取数据的python库,可以使用他来解析爬取回来的xml。 安装模块 pip install beautifulsoup4 beautifulsoup4自带了一个解析库html.parser,还有一个lxml,如果需要
阅读全文
摘要:爬虫requests高级用法 解析json 发送http请求返回的数据有xml格式也会有json格式 import requests data = { 'cname': '', 'pid': '', 'keyword': '500', 'pageIndex': 1, 'pageSize': 10 }
阅读全文
摘要:爬虫 爬虫的本质 模拟方式发送http请求,获取数据。 学习内容 模拟发送http请求 requests模块 selenium模块 解析爬下来的数据 存入数据库内 爬虫框架 scrapy requests模块介绍 使用python发送http请求就需要用到requests模块 ,requests模块
阅读全文