随笔分类 -  文本挖掘

摘要:目录问题引入特征选择信息抽取实体识别命名实体识别开放域实体识别关系抽取案例一:正则表达式抽取结构化信息二:dateuitl+正则表达式抽取日期实体三:使用pyhanlp和jieba提取命名实体 问题引入 有哪些方法能从非结构化文本中提取结构数据?或识别文本中描述的实体和关系? 特征选择 卡方统计法 阅读全文
posted @ 2024-05-23 00:13 踩坑大王 阅读(67) 评论(0) 推荐(0) 编辑
摘要:文本表示的概念 核心:将字符串以计算机形式进行表示出来,如向量化。 分类 离散/向量表示:词袋模型(独热编码、TF-IDF、N-gram) 分布式表示:词嵌入word embedding,包括word2vec、Glove、ELMO、GPT、BERT等。 基于矩阵:基于降维表示和基于聚类表示 基于神经 阅读全文
posted @ 2024-05-20 23:14 踩坑大王 阅读(38) 评论(0) 推荐(0) 编辑
摘要:句法分析是机器翻译的核心数据结构,用于确定句子的句法结构或词汇之间的依存关系; 完全句法分析 部分句法分析 基于规则的句法分析 存在语法规则覆盖有限、系统可迁移性差等缺陷 基于统计的句法分析 主流 基于PCFG的句法分析 句法结构分析 S 表示句子(sentence),NP 表示名词短语(noun 阅读全文
posted @ 2024-05-20 17:55 踩坑大王 阅读(39) 评论(0) 推荐(0) 编辑
摘要:目录语料库中文分词基于规则的中文分词:最大匹配法正向最大匹配法逆向最大匹配法双向最大匹配法分词jiebaHMM模型 Hidden Markov Model词性标注停用词停用词种类过滤方法关键词提取TF-IDFTextRank 语料库 存放语言真实使用场景、且经过加工的例句,而非脱离具体场景的标准例句 阅读全文
posted @ 2024-05-20 03:32 踩坑大王 阅读(211) 评论(0) 推荐(0) 编辑

more_horiz
keyboard_arrow_up light_mode palette
选择主题
点击右上角即可分享
微信分享提示