随笔分类 -  爬虫

摘要:前面整理了一些爬虫的内容,今天写一个小小的栗子,内容不深,大佬请忽略。内容包括对豆瓣读书网站中的书籍的基本信息进行爬取,并整理,便于我们快速了解每本书的中心。 一、爬取信息 每当爬取某个网页的信息时,首先就是要进入到网页中,看看有没有什么爬取过程中的限制,可以查看网站的robots协议。就是在原网址 阅读全文
posted @ 2018-10-27 22:53 小田学Python 阅读(2608) 评论(0) 推荐(0) 编辑
摘要:一、request入门 之前写过一个urllib的爬虫方法,这个库是python内建的,从那篇文章也可以看到,使用起来很繁琐。现在更流行的一个爬虫库就是requests,他是基于urllib3封装的,也就是将之前比较繁琐的步骤封装到一块,更适合人来使用。 该库中主要有7个方法:request() g 阅读全文
posted @ 2018-10-25 00:03 小田学Python 阅读(1939) 评论(4) 推荐(2) 编辑
摘要:网络爬虫是一种按照一定规则自动抓取万维网信息的程序。在如今网络发展,信息爆炸的时代,信息的处理变得尤为重要。而这之前就需要获取到数据。有关爬虫的概念可以到网上查看详细的说明,今天在这里介绍一下使用urllib进行网络爬虫的方法使用,在最后的一个案例中把最基本的爬虫要素运用进去,可以作为初学者的一个模 阅读全文
posted @ 2018-10-02 14:23 小田学Python 阅读(2350) 评论(0) 推荐(1) 编辑
摘要:单变量:表达式、方程式、函数或者一元多项式等 数据:http://www.presidency.ucsb.edu/data/sourequests.php美国总统历年在国情咨文中对国会提起的诉求数量 一、获取数据 本次使用到的数据量并不多,不过还是按照常规思路,通过爬虫获取。 1 import ur 阅读全文
posted @ 2018-09-30 07:04 小田学Python 阅读(1452) 评论(0) 推荐(0) 编辑
摘要:正则表达式,英文:Regular Expression。它通常用来检索和替换符合某种模式的文本。 Python自1.5版本开始增加了re模块,使得Python拥有了全部的正则表达式功能。 一、基本函数(match、search、findall) 在使用re模块之前,要先引入,re模块使已经在内置在P 阅读全文
posted @ 2018-08-02 17:47 小田学Python 阅读(482) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示