摘要: 正则表达式使用某种预定义的模式去匹配一类具有共同特征的字符串,主要用于处理字符串,可以快速、准确地完成复杂的查找、替换等处理要求,在文本编辑与处理、网页爬虫之类的场合中有重要应用。Python中,re模块提供了正则表达式操作所需要的功能。 元字符 功能说明 . 匹配除换行符以外的任意单个字符 [] 阅读全文
posted @ 2020-01-31 17:53 一滴小小雨 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 一、中国大学排名定向爬虫 定向爬虫:仅对输入URL进行爬取,不扩展爬取。 步骤一:从网络上获取大学排名网页内容 getHTMLText() 最好大学网:http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html 步骤二:提取网页内容中信息到合适的数据 阅读全文
posted @ 2020-01-31 16:56 一滴小小雨 阅读(453) 评论(0) 推荐(0) 编辑