| | | |

2017年3月7日

摘要： 1 三种信息类型的简介 xml : extensible markup language 与html非常相似现有html后有xml xml是html发展来的扩展通用 json 类型 javascript object notation 有类型的键值对表达的方式一个key对应多个值 "key 阅读全文

posted @ 2017-03-07 21:15 sfzyk 阅读(349) 评论(0) 推荐(0) 编辑

PYTHON网络爬虫与信息提取[BeautifulSoup](单元四)

摘要： 1 简介 from bs4 import BeautifulSoup soup=BeautifulSoup(<p>data</p>,'html.parser') 2 基本元素解析，遍历，维护，标签树的库 <p class="title"> ...</p> tag对名称 (属性 attribute 阅读全文

posted @ 2017-03-07 20:34 sfzyk 阅读(357) 评论(0) 推荐(0) 编辑

PYTHON网络爬虫与信息提取[网络爬虫协议](单元二)

摘要： robots.txt在网站的根目录下遵守自动或人工识别robots.txt再进行内容爬取约束性：建议性，不遵守协议，存在法律风险。基本语法： User-agent: * Disallow: / #注释 *所有 /代表根目录阅读全文

posted @ 2017-03-07 08:38 sfzyk 阅读(252) 评论(0) 推荐(0) 编辑

Python网络爬虫与信息提取[request库的应用](单元一)

摘要：恢复内容开始注：学习中国大学mooc 嵩天课程的学习笔记 request的七个主要方法 request.request() 构造一个请求用以支撑其他基本方法 request.get(url,params=None,**kwarg) 12个参数获取html的主要方法，对应于http的GET re 阅读全文

posted @ 2017-03-07 08:26 sfzyk 阅读(2792) 评论(0) 推荐(0) 编辑