摘要:
一、 信息标记的三种形式【标记+信息】 1、 XML 标签,<> </> 扩展性好,但比较繁琐,标签占据大部分内容 用于Internet上的信息交互和传递 2、 JSON 有类型键值对 key : value,JavaScript面向对象 key,value都需要家双引号:”name”:”呱呱” 适 阅读全文
摘要:
Requests库—自动爬取HTML页面,自动网络请求提交 Robots.txt—网络爬虫排除标准 BeautifulSoup库—解析HTML页面,信息标记与提取方法 解析、遍历、维护 “标签树”<> </> 的功能库 一、解析器:根据html文件类型来选择 import requests from 阅读全文