[置顶] Python丨Python 性能分析大全

摘要: 虽然运行速度慢是 Python 与生俱来的特点,大多数时候我们用 Python 就意味着放弃对性能的追求。但是,就算是用纯 Python 完成同一个任务,老手写出来的代码可能会比菜鸟写的代码块几倍,甚至是几十倍(这里不考虑算法的因素,只考虑语言方面的因素)。很多时候,我们将自己的代码运行缓慢地原因归 阅读全文
posted @ 2017-11-07 17:06 木子子木木 阅读(564) 评论(0) 推荐(0) 编辑

常见的4种HTML5错误用法,你用错了几个?

摘要: 一、不要使用section作为div的替代品 人们在标签使用中最常见到的错误之一就是随意将HTML5的等价于——具体地说,就是直接用作替代品(用于样式)。在XHTML或者HTML4中,我们常看到这样的代码: Page content Secondary content Footer content 阅读全文
posted @ 2017-11-10 15:39 木子子木木 阅读(422) 评论(0) 推荐(0) 编辑

入门爬虫的干货

摘要: 如果学会了python的基本语法,我认为入门爬虫是很容易的。 我写的第一个爬虫大概只需要10分钟,自学的 scrapyd , 看官方文档花了20分钟,因为我英文不是很好,很多单词需要搜索一下。 (scrapy 并不是入门必须的) 再接触到了 requests , lxml ,配合基本库 urllib 阅读全文
posted @ 2017-11-09 10:46 木子子木木 阅读(237) 评论(0) 推荐(0) 编辑

JSOUP教程,JSOUP 乱码处理,JSOUP生僻字乱码解决方案

摘要: JSOUP乱码情况产生 这几天我用 JSOUP 多线程的方式,爬取了200 多万数据,数据为各地的地名相关。结果有小部分数据,不到 1 万乱码。我先检查了我的编码为UTF-8 ,觉得应该没有问题。代码基本如下如下: try{ doc = Jsoup.connect(url) .header("Use 阅读全文
posted @ 2017-11-08 17:19 木子子木木 阅读(2187) 评论(1) 推荐(0) 编辑

记录网页爬虫注意的几个问题

摘要: 设置合理的user-agent 一些站点会把这个当作很基本的过滤条件,我们就不碰壁了,直接找个浏览器粘贴一个,有些文章介绍用一些爬虫的user-agent,但是对方可能会有相关的爬虫服务器的 iplist,不过这种情况不多见,可以试一下。 设置合理的爬取间隔 过于频繁的流量很容易被监控到,当然除了一 阅读全文
posted @ 2017-11-05 15:37 木子子木木 阅读(768) 评论(0) 推荐(0) 编辑

Python爬虫入门:Cookie的使用

摘要: 大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取 阅读全文
posted @ 2017-11-01 10:43 木子子木木 阅读(1038) 评论(0) 推荐(0) 编辑

Python爬虫入门:URLError异常处理

摘要: 大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中,我们需要用try-except语句来包围并捕获相应的异常。下面是一个 阅读全文
posted @ 2017-11-01 10:42 木子子木木 阅读(546) 评论(0) 推荐(0) 编辑

Python爬虫入门:Urllib库的高级使用

摘要: 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现 阅读全文
posted @ 2017-10-31 11:35 木子子木木 阅读(266) 评论(0) 推荐(0) 编辑

Python爬虫入门:Urllib库的基本使用

摘要: 1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它 是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要 阅读全文
posted @ 2017-10-31 11:34 木子子木木 阅读(348) 评论(0) 推荐(0) 编辑

Python爬虫入门:综述

摘要: 大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验。 Python版本:2.7,Python 3请另寻其他博文。 首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网 阅读全文
posted @ 2017-10-30 17:14 木子子木木 阅读(184) 评论(0) 推荐(0) 编辑