爬虫-信息组织与提取方法

信息标记的三种形式:

XML: 扩展标记语言,用<>,以标签为主,名称,属性等

JSON:有类型的键值对,可以嵌套使用,可以一个键对应多个值

YAML:无类型键值对,用缩进的形式表达所属关系,-表示并列关系

 

比较

XML  最早的通用信息标记语言,可扩展性好,但是繁琐;适用于Internet上的信息交互与传递

JSON  信息有类型,适合程序处理,较XML简洁;适用于移动应用云端和节点的信息通信,无注释

YAML  信息无类型,文本信息比例较高,可读性好;适用于各类系统的配置文件,有注释易读

 

#下面编程提取以上html里的所有链接
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,'html.parser')
for link in soup.find_all('a'):
    print(link.get('href'))

返回:

http://www.icourse163.org/course/BIT-268001
http://www.icourse163.org/course/BIT-1001870001

 

posted @ 2018-03-23 02:09  歪胡子的日常  阅读(168)  评论(0编辑  收藏  举报