2019年12月2日

文本可视化技巧

该文被密码保护。 阅读全文

posted @ 2019-12-02 16:42 农夫三拳有點疼 阅读(8) 评论(0) 推荐(0) 编辑

中文文本中的关键字提取

摘要: 前言 关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词这一项。因此,关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要 阅读全文

posted @ 2019-12-02 16:12 农夫三拳有點疼 阅读(622) 评论(0) 推荐(0) 编辑

中文分词工具 jieba 和 HanLP

摘要: 前言 中文分词有很多种,常见的比如有中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等。这里针对 jieba 和 HanLP 分别介绍不同场景下的中文分词应用。 jieba 分词 jieba 安装 (1)P 阅读全文

posted @ 2019-12-02 16:07 农夫三拳有點疼 阅读(1586) 评论(0) 推荐(0) 编辑

中文NLP的完整机器处理流程

摘要: 一、NLP应用方向 词法和句法分析方面:包括多粒度分词、新词发现、词性标注等; 语义分析方面:包括词义消歧、非规范文本的语义分析。其中,非规范划化文本主要指社交平台上比较口语化、弱规范甚至不规范的短文本,因其数据量巨大和实时性而具有研究和应用价值,被广泛用于舆情监控、情感分析和突发事件发现等任务; 阅读全文

posted @ 2019-12-02 16:03 农夫三拳有點疼 阅读(1217) 评论(0) 推荐(0) 编辑

导航