上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 48 下一页
摘要: NLP分词 NLP分词NLPTokenizer会执行词性标注和命名实体识别,由结构化感知机序列标注框架支撑。 默认模型训练自9970万字的大型综合语料库,是已知范围内全世界最大的中文分词语料库。语料库规模决定实际效果,面向生产环境的语料库应当在千万字量级。欢迎用户在自己的语料上训练新模型以适应新领域 阅读全文
posted @ 2022-04-07 08:00 青竹之下 阅读(55) 评论(0) 推荐(0) 编辑
摘要: text = '举办纪念活动铭记二战历史,不忘战争带给人类的深重灾难,是为了防止悲剧重演,确保和平永驻;记二战历史,' \ '更是为了提醒国际社会,需要共同捍卫二战胜利成果和国际公平正义,' \ '必须警惕和抵制在历史认知和维护战后国际秩序问题上的倒行逆施。' # ***************** 阅读全文
posted @ 2022-04-06 08:00 青竹之下 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 比较 第一种是使用作者给的HanLP直接获取分词器,直接segment() 会获取 默认的标准分词器也就是维特比分词器,也可以使用newSegment函数,传入上面的分词器英文名称来获取新的分词器,如使用HanLP.newSegment("crf")来获取CRF分词器。 第二种方式是使用JClass 阅读全文
posted @ 2022-04-05 08:00 青竹之下 阅读(29) 评论(0) 推荐(0) 编辑
摘要: hanlp分词 介绍 HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 HanLP有如下功能: 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 阅读全文
posted @ 2022-04-04 08:00 青竹之下 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 1.1 BERT的输入 BERT的输入 BERT的输入为每一个token对应的表征(图中的粉红色块就是token,黄色块就是token对应的表征),并且单词字典是采用WordPiece算法来进行构建的。为了完成具体的分类任务,除了单词的token之外,作者还在输入的每一个序列开头都插入特定的分类to 阅读全文
posted @ 2022-04-03 08:00 青竹之下 阅读(42) 评论(0) 推荐(0) 编辑
摘要: ERT的全称为Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language mode 阅读全文
posted @ 2022-04-02 08:00 青竹之下 阅读(28) 评论(0) 推荐(0) 编辑
摘要: # *****************************依存句法分析***************************** print('-' * 40) print('依存句法分析') print('-' * 40) dependency = HanLP.parseDependency( 阅读全文
posted @ 2022-04-01 08:00 青竹之下 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 2022-03-31 08:00:01 阅读全文
posted @ 2022-03-31 08:00 青竹之下 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 词法分析 词是最小的能够独立运用的语言单位,因此,词法分析是其他一切自然语言处理问题(例如:句法分析、语义分析、文本分类、信息检索、机器翻译、机器问答等)的基础,会对后续问题产生深刻的影响。 而词法分析的任务就是:将输入的句子字串转换成词序列并标记出各词的词性。 值得注意的是,这里所说的“字”并不仅 阅读全文
posted @ 2022-03-30 08:00 青竹之下 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 自动分词面临着三个问题:歧义问题、未登录词问题、分词标准问题,下面我们将对它们一一进行解释。 歧义这里的歧义指的是切分歧义:对同一个待切分字符串存在多个分词结果。分为交集型歧义、组合型歧义和混合歧义。 交集型歧义:字串abc既可以切分成a/bc,也可以切分成ab/c。其中,a、bc、ab、c是词。举 阅读全文
posted @ 2022-03-29 08:00 青竹之下 阅读(180) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 48 下一页