摘要:
"访问我的博客" 前言 从去年到今年,笔者主要负责的是与合作方的内容对接,新增的合作商不是很多的情况下,在我自从去年引入了 WebMagic 这个爬虫框架之后,基本很少需要去关注维护爬虫,做的最多的是新接入合作商去写对应爬虫抓取模板。 因为在代码中实现了增量抓取,单机也足以承担日常的抓取工作。 在前 阅读全文
摘要:
"访问我的博客" 前言 排行榜作为互联网应用中几乎必不可少的一个元素,其能够勾起人类自身对比的欲望,从而来增加商品的销量。排行榜的实现方式基本大同小异,大部分都基于 Redis 的有序集合 sorted set 来实现。不久前,负责开发一个活动,就有排行榜这个需求,笔者也使用 Redis 进行了实现 阅读全文
摘要:
"访问我的博客" 前言 在工作中,经常会遇到从一串 JSON 中提取一个或多个字段的情况,常用的做法就是将其反序列化为 JSONObject 对象,然后从对象中获取,如果是 JSONArray 就进行迭代获取,总之比较麻烦。可以使用 JsonPath 快速提取所需信息。 <! more JSONPA 阅读全文
摘要:
"访问我的博客" 前言 通过上一篇文章,想必你已经掌握了如何正确安装抓包神器 Charles,如果还是抓不了包,可以再看看。 今天要做是抓包实战,因为我在做网络文学的公司就职,所以就拿网络文学的 APP 掌阅 开刀好了,以下进入抓包实战,体会 Charles 的强大之处!。 掌握了下面的抓包技巧,对 阅读全文
摘要:
"访问我的博客" 前言 在今年二月份在项目中引入了 WebMagic 技术,用来抓取合作方的书籍,详见之前文章: "WebMagic之爬虫监控" ,这两天新接入了一个合作商,对方接口采取的是 HTTPS 协议,而以前合作商的接口全都是 HTTP 的,在接入这家合作商的时候,发现了问题,只要是 HTT 阅读全文