08 2020 档案

Python网络爬虫规则之Robots协议

摘要：(1).网络爬虫引发的问题网络爬虫是一个很有趣的功能，它既能获得网络上的资源，但是它可以带来很多很严重的问题。我们现在常用的网络爬虫，按尺寸划分可以分为三大类。第一类是指以爬取网页或者玩转网页为主的一类爬虫，这类爬虫规模很小，获取网络的数据量也很小，它对爬取网页的速度并不敏感，针对这一类的网络爬阅读全文

posted @ 2020-08-12 15:38 苦逼运维阅读(1702) 评论(0) 推荐(0) 编辑

Python网络爬虫规则之Request库入门

摘要：Requests库是Python的第三方库，它是目前公认的爬取网页最好的第三方库。Requests库有两个特点，它很简单简单，也很简洁，甚至用一行代码从网页上获得相关的资源。Requests库的更多信息可以在https://requests.readthedocs.io/en/master/上获得。阅读全文

posted @ 2020-08-09 09:30 苦逼运维阅读(1219) 评论(0) 推荐(0) 编辑

shell脚本每行后面多了一个^M的原因和解决办法

摘要：当执行在Windows系统下修改过的脚本时，会提示存在^M的错误，但是在Linux下直接使用vim打开并不存在。此时可以使用vim -b来打开脚本文件，就可以发现每行的末尾都存在^M。造成这样的原因是不同的系统使用了不同的换行符。在Windows下文本文件的每一行结尾都有一个回车('\n')和换行阅读全文

posted @ 2020-08-02 21:00 苦逼运维阅读(4622) 评论(0) 推荐(2) 编辑

公告

昵称：苦逼运维
园龄： 8年10个月
粉丝： 238
关注： 9

+加关注

2025年3月

日

一

二

三

四

五

六

苦逼运维

08 2020 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论