08 2020 档案
摘要:(1).网络爬虫引发的问题 网络爬虫是一个很有趣的功能,它既能获得网络上的资源,但是它可以带来很多很严重的问题。 我们现在常用的网络爬虫,按尺寸划分可以分为三大类。第一类是指以爬取网页或者玩转网页为主的一类爬虫,这类爬虫规模很小,获取网络的数据量也很小,它对爬取网页的速度并不敏感,针对这一类的网络爬
阅读全文
摘要:Requests库是Python的第三方库,它是目前公认的爬取网页最好的第三方库。Requests库有两个特点,它很简单简单,也很简洁,甚至用一行代码从网页上获得相关的资源。Requests库的更多信息可以在https://requests.readthedocs.io/en/master/上获得。
阅读全文
摘要:当执行在Windows系统下修改过的脚本时,会提示存在^M的错误,但是在Linux下直接使用vim打开并不存在。此时可以使用vim -b来打开脚本文件,就可以发现每行的末尾都存在^M。 造成这样的原因是不同的系统使用了不同的换行符。在Windows下文本文件的每一行结尾都有一个回车('\n')和换行
阅读全文