2019 年 7月 22 日随笔档案 - btc

2019年7月22日

摘要：对网页的结构处理有很多方便的第三方库，在使用第三方库之前先尝试了用字符处理对网页源码提取信息首先引用urllib 爬取网页并解码得到源代码通过对于html的结构了解可以得知url在html代码中的结构往往是这样的因此我们可以先搜索字符串里所有的herf再找到最近的两个引号，在引号之间的基本就是阅读全文

posted @ 2019-07-22 21:02 btc 阅读(806) 评论(0) 推荐(0) 编辑

用urllib进行一次最简单的爬虫操作

摘要：爬虫工具作为获取线上数据的重要途经，可以快速获取网页的相关信息，这次使用python自带的urllib库中的request，进行一次网络爬取，首先引用urllib库接下来调用其中的函数urlopen我们就可以对一个网页进行访问，这里用百度作为例子 urlopen得到的是网页流，要生成可以阅读的代码阅读全文

posted @ 2019-07-22 20:31 btc 阅读(180) 评论(0) 推荐(0) 编辑

btc

公告