摘要: 对网页的结构处理有很多方便的第三方库,在使用第三方库之前先尝试了用字符处理对网页源码提取信息 首先引用urllib 爬取网页并解码得到源代码 通过对于html的结构了解可以得知url在html代码中的结构往往是这样的 因此我们可以先搜索字符串里所有的herf再找到最近的两个引号,在引号之间的基本就是 阅读全文
posted @ 2019-07-22 21:02 btc 阅读(806) 评论(0) 推荐(0) 编辑
摘要: 爬虫工具作为获取线上数据的重要途经,可以快速获取网页的相关信息,这次使用python自带的urllib库中的request,进行一次网络爬取,首先引用urllib库 接下来调用其中的函数urlopen我们就可以对一个网页进行访问,这里用百度作为例子 urlopen得到的是网页流,要生成可以阅读的代码 阅读全文
posted @ 2019-07-22 20:31 btc 阅读(180) 评论(0) 推荐(0) 编辑