各种网站新闻正文抽取利器GeneralNewsExtractor

GNE在提取今日头条、新浪,腾讯新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。

先安装库

pip install --upgrade gne

调用

url 一个新闻链接 如“https://www.sohu.com/a/534140980_162522?editor=齐汝钰 UN970&scm=1104.0.0.0&code=6e93c74798a862b7f4ff3678ec897623&spm=smpc.home.top-news1.10.1648782801103dvLNgA4&_f=index_cpc_5”

import requests
from gne import GeneralNewsExtractor

url = "新闻链接"

payload={}
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36"
}

response = requests.request("GET", url, headers=headers, data=payload)

# print(response.text)
extractor = GeneralNewsExtractor()
article_content = extractor.extract(response.text)
print(article_content)

返回结果

{'title': '抗原检测、核酸筛查异常别慌!专家传授五字口诀', 'author': '环球网', 'publish_time': '2022-03-31 12:51', 'content': '原标题:抗原检测、核酸筛查异常别慌!专家传授五字口诀\n3月31日召开的上海市新冠肺炎疫情防控新闻发布会(第139场)上,上海市疫情防控领导小组专家组成员、复旦大学上海医学院副院长吴凡提醒,对于核酸筛查异常的,市民接到通知后,也要做好以下五部曲:\n一是“静”:保持冷静,千万不要惊慌失措。\n二是“隔”:立即原地自我隔离,有条件的应当单人单间,戴好口罩,与他人保持一定距离,同时保持通讯畅通。\n三是“想”:仔细回顾自己近日的活动轨迹。\n四是“告”:告知近期与自己有密切接触的人员也要立即固定,避免前往人员密集场所,做好自我健康监测,配合做好流调和管控工作。\n五是“备”:整理好自己去医疗机构或集中隔离救治点所需要的物品,如身份证、常用药品、换洗衣物、生活用品等,特别提醒大家带好手机充电线。\n在做好这五步后,就可以耐心等待有关部门进一步通知和后续转运。对于混采检测阳性的,市民接到通知后告知本人的位置信息,同时立即原地固定,戴好口罩,与他人保持一定距离,静待采样人员进行核酸复核。\n吴凡同时提醒,市民朋友在日常抗原检测中,若结果为阳性,首先不要恐惧惊慌,请冷静做好以下三步曲:一是立即戴好口罩,与同住人保持一定距离,有条件的应当单人单间;二是第一时间上报给所在社区,告知地址和阳性情况,等待后续安排核酸检测;三是收集好使用过的鼻拭子、采样管、检测卡等,装入密封袋,后续交由管理人员按照医疗废物处理。\n返回搜狐,查看更多\n责任编辑:', 'images': []}

注:正文抽取的解决方案主要有两种思路:
1、对所有新闻网站的构建内容特征库。其实也很快,估计一个网站用时20分钟就可以了。200主流媒体,也花不了1天的时间,而且准确100%!
2、想研究一个放之四海而皆准的方案。参考知网一篇文章《基于文本及符号密度的网页正文提取方法》,以及一些相关机器学习等思路的算法。但是都会存在一些先天的痼疾。本项目也是如此。如果找一篇正文内容只有1行字,或者是图片多于文字的这种网页,准确率就下降了。

posted on 2022-04-01 11:52  耀扬  阅读(525)  评论(0编辑  收藏  举报

导航