摘要:
一、 Request库 1、 GET请求 抓取页面(添加headers,修改headers,防止被网站拦截) #抓取网页,知乎 import requests import re ## 浏览器标识 headers = {'user-agent': "Mozilla/5.0 (Windows NT 1 阅读全文
摘要:
一、 HTTP原理 1、URL--统一资源定位符,网页链接‘’ 2、超文本--网页源代码HTML 3、HTTP--超文本传输协议 ——> HTTPS【HTTP+SSL加密(安全性提高)】 HTTP请求—响应 4、HTTP请求 ※请求方法(Request Method) GET POST:提交表单,上 阅读全文
摘要:
一、Scrapy爬虫框架 1、‘5+2’结构:5个模块+2个中间键 5个模块 1) Spider【用户配置】: 框架入口,获取初始爬取请求 提供要爬取的url链接,同时解析页面上的内容 解析Downloader返回的响应(Response) 产生爬取项(Scraped Item) 产生额外的爬取请求 阅读全文
摘要:
进入cmd命令行: win+R a1.进入下一级目录命令: cd 文件夹名称 cd 文件夹名称 a2.返回上一级目录命令: cd.. cd.. 阅读全文
摘要:
从股票列表网页获取股票代码 根据股票代码去股票详情页面获取股票详细信息 1、 股票列表页面 凤凰网财经—股票信息 http://app.finance.ifeng.com/list/stock.php?t=ha&f=chg_pct&o=desc&p=1 2、 股票详细信息 老虎社区—股票详情 htt 阅读全文
摘要:
获取淘宝搜索页面信息,提取商品名称和价格 1、 淘宝搜索接口 2、 翻页处理 import requests import re ## 获取页面 def getHTMLText(url): kv = { 'cookie': 'miid=421313831459957575; _samesite_fl 阅读全文
摘要:
Requests库—自动爬取HTML页面,自动网络请求提交 Robots.txt—网络爬虫排除标准 BeautifulSoup库—解析HTML页面,信息标记与提取方法 Re库—正则表达式,提取页面关键信息 简洁表达字符串,应用于字符串匹配,模糊查找 一、正则表达式常用操作符 二、经典的正则表达式 三 阅读全文
摘要:
“中国最好大学定向爬取”实例 定向爬虫:仅对输入的URL进行爬取,不扩展爬取 三个模块: 1、 从网页上获取大学排名网页内容 getHTMLText() 2、 提取网页内容的信息到合适的数据结构中 fillUnivList() 3、 立用数据结构展示并输出结果 printUnivList() 两个要 阅读全文
摘要:
一、 信息标记的三种形式【标记+信息】 1、 XML 标签,<> </> 扩展性好,但比较繁琐,标签占据大部分内容 用于Internet上的信息交互和传递 2、 JSON 有类型键值对 key : value,JavaScript面向对象 key,value都需要家双引号:”name”:”呱呱” 适 阅读全文
摘要:
Requests库—自动爬取HTML页面,自动网络请求提交 Robots.txt—网络爬虫排除标准 BeautifulSoup库—解析HTML页面,信息标记与提取方法 解析、遍历、维护 “标签树”<> </> 的功能库 一、解析器:根据html文件类型来选择 import requests from 阅读全文