一个网站新闻页通用的正文抽取组件libnpce

一、背景

    在舆情系统中,通常会有一个网络新闻爬虫子系统,准实时的采集互联网上的媒体新闻数据,以供上层聚类事件分析。这类新闻数据的组成元素包括:

  • 标题
  • 发布时间
  • 来源及其URL链接地址
  • 正文文本内容
  • 正文图片信息(图片位置、图片的URL路径等)
  • 其他

二、libnpce组件

    新闻文章正文抽取News Passage Content Extractor (NPCE),是为抽取HTML中的文章正文而设计的。该组件提供给予so动态链接库的调用接口和给予RESTful服务调用的接口形式。并支持python调用接口。

   详细介绍可参考:https://tangyibo.github.io/libariry/2020/01/17/a-news-passage-content-extractor-library/

 

三、组件演示

打开页面:   https://gitee.com/inrgihc/libnpce/releases/v1.0 

下载httpd_npce_py-v1.0-bin.tar.gz文件,在centos环境下解压,然后执行:

cd httpd_npce_py/
./startup.sh

命令启动服务,打开浏览器访问服务器上的服务:http://XXX.XXX.XXX.XXX:7645

在页面中的URL栏中粘贴一个新闻页面的URL地址,然后点击右侧的“抽取”按钮查看效果,我的截图如下:

抽取的URL地址:http://news.sina.com.cn/c/2016-11-07/doc-ifxxnffr6962826.shtml

 

三、性能测试

    经本人工作期间,将libnpce与计算所的constor组件(闭源)进行比较测试,性能相当,并应用在公司底层的爬虫模块中进行实时正文抽取。

posted @ 2020-08-09 22:12  Histring  阅读(176)  评论(0编辑  收藏  举报