青南的小世界

给时光以生命。

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2020年1月3日

摘要: GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。 阅读全文
posted @ 2020-01-03 12:59 青南 阅读(4357) 评论(2) 推荐(2) 编辑

2019年12月14日

摘要: 这篇文章不会涉及到Kafka 的具体操作,而是告诉你 Kafka 是什么,以及它能在爬虫开发中扮演什么重要角色。 阅读全文
posted @ 2019-12-14 08:46 青南 阅读(1576) 评论(3) 推荐(1) 编辑

2019年11月26日

摘要: GNE是一个新闻网页通用抽取器,能够在不指定任何抽取规则的情况下,把新闻网站的正文提取出来。 阅读全文
posted @ 2019-11-26 12:26 青南 阅读(661) 评论(0) 推荐(0) 编辑

2019年10月31日

摘要: 没有什么算法比yield关键字更简单地同时提高时间利用率和空间利用率。 阅读全文
posted @ 2019-10-31 12:31 青南 阅读(861) 评论(0) 推荐(1) 编辑

2019年9月9日

摘要: 我写了一个新闻类网页的通用抽取器,目前使用今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻做了测试,发现提取效果非常出色,几乎能够达到100%的准确率,理论上可以自动抽取各种新闻网站。 阅读全文
posted @ 2019-09-09 11:36 青南 阅读(1368) 评论(2) 推荐(3) 编辑

2019年7月13日

摘要: 详细解释,Python是如何通过优化字典的底层数据结构,实现字典有序,并且大大提高遍历效率和降低内存占用。 阅读全文
posted @ 2019-07-13 13:43 青南 阅读(7947) 评论(0) 推荐(16) 编辑

2019年3月31日

摘要: 这篇文章深入分析了Python的round函数输出结果可能不符合预期的真正原因,同时给出了如何实现数学意义上真正的四舍五入的办法,最后吐槽了垃圾文章误导新人的问题。 阅读全文
posted @ 2019-03-31 13:13 青南 阅读(3117) 评论(11) 推荐(20) 编辑

2019年2月23日

摘要: P酱是公司新来的实习生妹子。听说是一个文科生。文科生应该会去文案组或者策划组吧。什么?来数据组?让我来带? 于是我和P酱工作在了一起。 阅读全文
posted @ 2019-02-23 16:46 青南 阅读(1904) 评论(7) 推荐(7) 编辑

2019年2月12日

摘要: 写爬虫并不是使用Selenium + webdriver就万事大吉了。一行js代码就能识别Selenium+webdriver。本文给出了应对方案。 阅读全文
posted @ 2019-02-12 20:55 青南 阅读(10697) 评论(13) 推荐(2) 编辑

2019年1月28日

摘要: 在[使用Airtest超快速开发App爬虫](https://www.kingname.info/2019/01/19/use-airtest/)文章的最后,我们留了一个尾巴:如何启动Airtest的无线模式,不用USB线就能控制手机? 本文将会讲到具体的做法。做法分为两种:第一种是在Airtest的IDE中控制手机。第二种是在Python代码里面控制远程手机。 阅读全文
posted @ 2019-01-28 22:49 青南 阅读(3615) 评论(1) 推荐(2) 编辑