随笔档案「2017年9月16日」：[爬虫] BeautifulSoup库 ... - 推杯问盏

2017年9月16日

摘要： Beautiful Soup库基础知识 Beautiful Soup库是解析xml和html的功能库。html、xml大都是一对一对的标签构成，所以Beautiful Soup库是解析、遍历、维护“标签树”的功能库，只要提供的是标签类型Beautiful Soup库都可以进行很好的解析。 Beaut 阅读全文

posted @ 2017-09-16 19:03 推杯问盏阅读(317) 评论(0) 推荐(0)

[爬虫] requests库

摘要： requests库的7个常用方法 get方法： r = equests.get(url,params=None,**kwargs)，r 是服务器返回的一个包含服务器所有资源的Response对象 url ：要获取的API/网页的URL链接 params：URL中的额外参数，可以是字典、字节流格式，可阅读全文

posted @ 2017-09-16 17:09 推杯问盏阅读(330) 评论(0) 推荐(0)

[定向爬虫] 网络爬虫实例2-淘宝定向爬虫

摘要： import requests import re import time #获取html页面 def getHTMLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() r.encoding = "utf-8" #... 阅读全文

posted @ 2017-09-16 16:17 推杯问盏阅读(249) 评论(0) 推荐(0)

[定向爬虫] 网络爬虫实例1

摘要：程序结构设计： 1.获取网页内容 getHTMLText() 2.获取网络内容信息并存储到合适的数据结构中 fillUnivList() 3.利用数据结构展示并输出结果 printUnivList() 实现代码阅读全文

posted @ 2017-09-16 16:09 推杯问盏阅读(324) 评论(0) 推荐(0)

公告