随笔分类 -  Python数据抓取

摘要:写在前面 题目所说的并不是目的,主要是为了更详细的了解网站的反爬机制,如果真的想要提高博客的阅读量,优质的内容必不可少。 了解网站的反爬机制 一般网站从以下几个方面反爬虫: 1. 通过Headers反爬虫 从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User 阅读全文
posted @ 2016-07-15 11:36 Data&Truth 阅读(7154) 评论(8) 推荐(8) 编辑
摘要:写在前面 这次的爬虫是关于房价信息的抓取,目的在于练习10万以上的数据处理及整站式抓取。 数据量的提升最直观的感觉便是对函数逻辑要求的提高,针对Python的特性,谨慎的选择数据结构。以往小数据量的抓取,即使函数逻辑部分重复,I/O请求频率密集,循环套嵌过深,也不过是1~2s的差别,而随着数据规模的 阅读全文
posted @ 2016-05-06 21:57 Data&Truth 阅读(10455) 评论(9) 推荐(9) 编辑
摘要:1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) - url: 需要打开的网址 - data:Post提交的数据 - 阅读全文
posted @ 2016-04-29 17:34 Data&Truth 阅读(129605) 评论(6) 推荐(17) 编辑

点击右上角即可分享
微信分享提示