摘要:
GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。 阅读全文
摘要:
GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。 阅读全文
摘要:
这篇文章不会涉及到Kafka 的具体操作,而是告诉你 Kafka 是什么,以及它能在爬虫开发中扮演什么重要角色。 阅读全文
摘要:
GNE是一个新闻网页通用抽取器,能够在不指定任何抽取规则的情况下,把新闻网站的正文提取出来。 阅读全文
摘要:
没有什么算法比yield关键字更简单地同时提高时间利用率和空间利用率。 阅读全文
摘要:
我写了一个新闻类网页的通用抽取器,目前使用今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻做了测试,发现提取效果非常出色,几乎能够达到100%的准确率,理论上可以自动抽取各种新闻网站。 阅读全文
摘要:
详细解释,Python是如何通过优化字典的底层数据结构,实现字典有序,并且大大提高遍历效率和降低内存占用。 阅读全文
摘要:
这篇文章深入分析了Python的round函数输出结果可能不符合预期的真正原因,同时给出了如何实现数学意义上真正的四舍五入的办法,最后吐槽了垃圾文章误导新人的问题。 阅读全文
摘要:
P酱是公司新来的实习生妹子。听说是一个文科生。文科生应该会去文案组或者策划组吧。什么?来数据组?让我来带?
于是我和P酱工作在了一起。 阅读全文
摘要:
写爬虫并不是使用Selenium + webdriver就万事大吉了。一行js代码就能识别Selenium+webdriver。本文给出了应对方案。 阅读全文
摘要:
在[使用Airtest超快速开发App爬虫](https://www.kingname.info/2019/01/19/use-airtest/)文章的最后,我们留了一个尾巴:如何启动Airtest的无线模式,不用USB线就能控制手机?
本文将会讲到具体的做法。做法分为两种:第一种是在Airtest的IDE中控制手机。第二种是在Python代码里面控制远程手机。 阅读全文
|