摘要:GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。
阅读全文
|
随笔分类 - Python
All about Python and me.
摘要:GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。
阅读全文
摘要:这篇文章不会涉及到Kafka 的具体操作,而是告诉你 Kafka 是什么,以及它能在爬虫开发中扮演什么重要角色。
阅读全文
摘要:GNE是一个新闻网页通用抽取器,能够在不指定任何抽取规则的情况下,把新闻网站的正文提取出来。
阅读全文
摘要:没有什么算法比yield关键字更简单地同时提高时间利用率和空间利用率。
阅读全文
摘要:我写了一个新闻类网页的通用抽取器,目前使用今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻做了测试,发现提取效果非常出色,几乎能够达到100%的准确率,理论上可以自动抽取各种新闻网站。
阅读全文
摘要:详细解释,Python是如何通过优化字典的底层数据结构,实现字典有序,并且大大提高遍历效率和降低内存占用。
阅读全文
摘要:这篇文章深入分析了Python的round函数输出结果可能不符合预期的真正原因,同时给出了如何实现数学意义上真正的四舍五入的办法,最后吐槽了垃圾文章误导新人的问题。
阅读全文
摘要:写爬虫并不是使用Selenium + webdriver就万事大吉了。一行js代码就能识别Selenium+webdriver。本文给出了应对方案。
阅读全文
摘要:在[使用Airtest超快速开发App爬虫](https://www.kingname.info/2019/01/19/use-airtest/)文章的最后,我们留了一个尾巴:如何启动Airtest的无线模式,不用USB线就能控制手机?
本文将会讲到具体的做法。做法分为两种:第一种是在Airtest的IDE中控制手机。第二种是在Python代码里面控制远程手机。
阅读全文
摘要:在前面两篇文章介绍了下载器中间件的使用,这篇文章将会介绍爬虫中间件(Spider Middleware)的使用。
阅读全文
摘要:在上一篇文章中介绍了下载器中间件的一些简单应用,现在再来通过案例说说如何使用下载器中间件集成Selenium、重试和处理请求异常。
阅读全文
摘要:中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫。
阅读全文
摘要:在很多编程语言中,常量喜欢使用数字来表示,然后赋值给一个大写的变量。这种写法在某些时候会导致难以察觉的bug。
阅读全文
摘要:通过本文你会知道Python里面什么时候用yield最合适。本文不会给你讲生成器是什么,所以你需要先了解Python的yield,再来看本文。
阅读全文
摘要:使用Python 3将Workflowy的大纲同步到印象笔记中。
阅读全文
摘要:本文使用有限状态机的原来,通过状态转移图来简化问题的逻辑,并进一步使代码更加简洁清晰。
阅读全文
摘要:使用Python开发一个脚本,自动将Workflowy大纲中的项目作为任务添加到Teambition中。
阅读全文
摘要:本文介绍Tenacity,让Python的异常捕获和重试变得无比简单。
阅读全文
摘要:Python作为一门动态语言,其变量的类型可以自由变化。这个特性提高了代码的开发效率,却也增加了阅读代码和维护代码的难度。本文介绍Python 3中的Type Hints来实现提示变量类型的目的。
阅读全文
摘要:目前在中文网上能搜索到的绝大部分关于装饰器的教程,都在讲如何装饰一个普通的函数。本文介绍如何使用Python的装饰器装饰一个类的方法,同时在装饰器函数中调用类里面的其他方法。本文以捕获一个方法的异常为例来进行说明。
阅读全文
|