摘要: import requests import re def getHTMLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text ... 阅读全文
posted @ 2017-09-12 20:39 松花酿酒春水煎茶 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 中国大学排名爬虫 输入:大学排名URL链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:requests-bs4 定向爬取:仅对输入URL进行爬取,不进行扩展爬取 程序的结构设计 从网络上获取大学排名网页内容 getHTMLText() 提取网页内容中信息到合适的数据结构 fil 阅读全文
posted @ 2017-09-12 14:10 松花酿酒春水煎茶 阅读(144) 评论(0) 推荐(0) 编辑