随笔分类 -  自然语言处理

摘要:自回归语言模型(Autoregressive Language Model)是一种用于生成文本的统计模型。它基于序列数据的概率分布,通过建模当前词语与前面已生成词语的条件概率来预测下一个词语。 在自回归语言模型中,假设我们有一个文本序列,例如一段连续的句子。模型的目标是根据前面已生成的词语来预测下一 阅读全文
posted @ 2023-09-15 17:04 管道工人刘博 阅读(702) 评论(0) 推荐(0) 编辑
摘要:命名实体识别(Named Entity Recognition,简称NER)是自然语言处理(NLP)领域的一个重要任务,旨在从文本中识别和分类出具有特定意义的命名实体,如人名、地名、组织机构、时间、日期、货币等。 NER的目标是将文本中的每个单词或短语标注为预定义的类别,通常包括以下类别: 1. 人 阅读全文
posted @ 2023-09-06 17:26 管道工人刘博 阅读(650) 评论(0) 推荐(0) 编辑
摘要:利用正则表达式或基于规则的方法可以提取特定的信息模式,这是一种简单而有效的文本处理技术。以下是介绍如何使用这些方法来提取信息模式的步骤: 1. 确定模式:首先,您需要确定要提取的信息模式的特征和模式。这可以是一个单词、短语、日期、邮箱地址等。 2. 编写规则:使用正则表达式或基于规则的方法,编写匹配 阅读全文
posted @ 2023-09-06 17:25 管道工人刘博 阅读(121) 评论(0) 推荐(0) 编辑
摘要:词干提取(Stemming)和词形还原(Lemmatization)是自然语言处理中常用的文本预处理技术,用于将单词转化为它们的原始形式,以减少词汇的变形形式,从而简化文本分析和比较。 1. 词干提取(Stemming):词干提取是一种基于规则的文本处理方法,通过删除单词的后缀来提取词干(stem) 阅读全文
posted @ 2023-09-06 17:24 管道工人刘博 阅读(1191) 评论(0) 推荐(0) 编辑
摘要:自然语言工具包(Natural Language Toolkit,简称NLTK)是一个广泛使用的Python库,用于处理和分析自然语言文本。它提供了各种工具和数据集,用于文本预处理、语言模型、词性标注、句法分析、语义分析、情感分析、文本分类等自然语言处理任务。 以下是NLTK的一些主要功能和特点: 阅读全文
posted @ 2023-09-04 13:20 管道工人刘博 阅读(867) 评论(0) 推荐(0) 编辑
摘要:Tokenization是将文本分割成更小的单位,称为"token"的过程。在自然语言处理中,token可以是单词、短语、句子或其他更小的文本单位,具体取决于任务和需求。 Tokenization的目的是将文本分解成离散的、可处理的单元,以便进行进一步的文本处理和分析。它是自然语言处理任务的重要预处 阅读全文
posted @ 2023-09-04 13:20 管道工人刘博 阅读(366) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示