2017年7月15日
摘要: 阅读全文
posted @ 2017-07-15 11:29 依然很拉风 阅读(3723) 评论(0) 推荐(0) 编辑
  2017年7月14日
摘要: 阅读全文
posted @ 2017-07-14 09:37 依然很拉风 阅读(21121) 评论(4) 推荐(2) 编辑
  2017年4月20日
摘要: 爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1 n这么简单,还会衍生出许多别的问题。 系统的大规模爬虫流程如图所示。 先检查是否有API API是网站官方提供的数据接口,如果通过调用API采集数据,则相当于在网站允许的范围内 阅读全文
posted @ 2017-04-20 18:26 依然很拉风 阅读(2075) 评论(8) 推荐(1) 编辑
  2017年3月16日
摘要: 表情包不仅仅是一种符号,更是一种文化——是促进社交乃至社会发展的动力之一,就像懒。我们坚持认为,一张优秀的表情包,应该是一幅艺术品,是那忽如一夜春风来的灵感爆发,是那嘈嘈切切错杂弹的情思激荡,是那直挂云帆济沧海的壮志豪情,是那一览天下众山小的迎风胜利——是不可以容忍码农用其惯有的形式固定、流程固定、毫无美感、毫无艺术的变幻和惊喜的直线思维解构。 阅读全文
posted @ 2017-03-16 19:14 依然很拉风 阅读(7775) 评论(4) 推荐(2) 编辑
  2017年3月7日
摘要: 拉勾因其结构化的数据比较多因此过去常常被爬,所以在其多次改版之下变得难爬。不过只要清楚它的原理,依然比较好爬。其机制主要就是AJAX异步加载JSON数据,所以至少在搜索页面里翻页url不会变化,而且数据也不会出现在源代码里。 数据解析 这是 "深圳地区的数据分析师页面" ,用Chrome检查打开。在 阅读全文
posted @ 2017-03-07 20:25 依然很拉风 阅读(1792) 评论(3) 推荐(0) 编辑
  2016年7月13日
摘要: 阅读全文
posted @ 2016-07-13 21:03 依然很拉风 阅读(817) 评论(1) 推荐(0) 编辑
  2016年6月20日
摘要: 阅读全文
posted @ 2016-06-20 18:01 依然很拉风 阅读(4616) 评论(1) 推荐(2) 编辑
  2016年6月18日
摘要: 阅读全文
posted @ 2016-06-18 01:21 依然很拉风 阅读(10305) 评论(3) 推荐(0) 编辑
  2016年6月7日
摘要: 阅读全文
posted @ 2016-06-07 15:07 依然很拉风 阅读(17002) 评论(1) 推荐(4) 编辑
  2016年6月2日
摘要: 阅读全文
posted @ 2016-06-02 19:27 依然很拉风 阅读(33710) 评论(1) 推荐(1) 编辑