一个网站新闻页通用的正文抽取组件libnpce

一、背景

在舆情系统中，通常会有一个网络新闻爬虫子系统，准实时的采集互联网上的媒体新闻数据，以供上层聚类事件分析。这类新闻数据的组成元素包括：

新闻文章正文抽取News Passage Content Extractor (NPCE)，是为抽取HTML中的文章正文而设计的。该组件提供给予so动态链接库的调用接口和给予RESTful服务调用的接口形式。并支持python调用接口。

打开页面： https://gitee.com/inrgihc/libnpce/releases/v1.0

下载httpd_npce_py-v1.0-bin.tar.gz文件，在centos环境下解压，然后执行：

cd httpd_npce_py/
./startup.sh

命令启动服务，打开浏览器访问服务器上的服务：http://XXX.XXX.XXX.XXX:7645

在页面中的URL栏中粘贴一个新闻页面的URL地址，然后点击右侧的“抽取”按钮查看效果，我的截图如下：

抽取的URL地址：http://news.sina.com.cn/c/2016-11-07/doc-ifxxnffr6962826.shtml

经本人工作期间，将libnpce与计算所的constor组件（闭源）进行比较测试，性能相当，并应用在公司底层的爬虫模块中进行实时正文抽取。

posted @ 2020-08-09 22:12 Histring 阅读(176) 评论(0) 编辑收藏举报

刷新页面返回顶部