青南 - 博客园

公告

2020年1月3日

摘要： GNE（GeneralNewsExtractor）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。阅读全文

posted @ 2020-01-03 12:59 青南阅读(4358) 评论(2) 推荐(2) 编辑

2019年12月14日

为什么每一个爬虫工程师都应该学习 Kafka

摘要：这篇文章不会涉及到Kafka 的具体操作，而是告诉你 Kafka 是什么，以及它能在爬虫开发中扮演什么重要角色。阅读全文

posted @ 2019-12-14 08:46 青南阅读(1576) 评论(3) 推荐(1) 编辑

2019年11月26日

新闻网页通用抽取器GNEv0.04版更新，支持提取正文图片与源代码

摘要： GNE是一个新闻网页通用抽取器，能够在不指定任何抽取规则的情况下，把新闻网站的正文提取出来。阅读全文

posted @ 2019-11-26 12:26 青南阅读(661) 评论(0) 推荐(0) 编辑

2019年10月31日

写了那么久的Python，你应该学会使用yield关键字了

摘要：没有什么算法比yield关键字更简单地同时提高时间利用率和空间利用率。阅读全文

posted @ 2019-10-31 12:31 青南阅读(861) 评论(0) 推荐(1) 编辑

2019年9月9日

新闻类网页正文通用抽取器

摘要：我写了一个新闻类网页的通用抽取器，目前使用今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻做了测试，发现提取效果非常出色，几乎能够达到100%的准确率，理论上可以自动抽取各种新闻网站。阅读全文

posted @ 2019-09-09 11:36 青南阅读(1368) 评论(2) 推荐(3) 编辑

2019年7月13日

为什么Python 3.6以后字典有序并且效率更高？

摘要：详细解释，Python是如何通过优化字典的底层数据结构，实现字典有序，并且大大提高遍历效率和降低内存占用。阅读全文

posted @ 2019-07-13 13:43 青南阅读(7947) 评论(0) 推荐(16) 编辑

2019年3月31日

为什么你需要少看垃圾博客以及如何在Python里精确地四舍五入

摘要：这篇文章深入分析了Python的round函数输出结果可能不符合预期的真正原因，同时给出了如何实现数学意义上真正的四舍五入的办法，最后吐槽了垃圾文章误导新人的问题。阅读全文

posted @ 2019-03-31 13:13 青南阅读(3117) 评论(11) 推荐(20) 编辑

2019年2月23日

数据工程师妹子养成手记——数据库篇

摘要：

P酱是公司新来的实习生妹子。听说是一个文科生。文科生应该会去文案组或者策划组吧。什么？来数据组？让我来带？于是我和P酱工作在了一起。阅读全文

posted @ 2019-02-23 16:46 青南阅读(1904) 评论(7) 推荐(7) 编辑

2019年2月12日

一行js代码识别Selenium+Webdriver及其应对方案

摘要：写爬虫并不是使用Selenium + webdriver就万事大吉了。一行js代码就能识别Selenium+webdriver。本文给出了应对方案。阅读全文

posted @ 2019-02-12 20:55 青南阅读(10697) 评论(13) 推荐(2) 编辑

2019年1月28日

在Airtest中如何使用无线模式控制手机

摘要：在[使用Airtest超快速开发App爬虫](https://www.kingname.info/2019/01/19/use-airtest/)文章的最后，我们留了一个尾巴：如何启动Airtest的无线模式，不用USB线就能控制手机？本文将会讲到具体的做法。做法分为两种：第一种是在Airtest的IDE中控制手机。第二种是在Python代码里面控制远程手机。阅读全文

posted @ 2019-01-28 22:49 青南阅读(3615) 评论(1) 推荐(2) 编辑

青南的小世界

公告