随笔分类 - 自然语言处理入门
摘要:传统方法的局限性: 一:数据稀疏性: 语言是离散的符号系统,每个字符,单词都是离散型随机变量。而机器学习模型只接受向量。所以为了将文本转换成向量,通常要将离散符号按照其索引编码为One-hot向量。 然而近义词之间并不能通过这种方式编码成相似的向量。 将任意词语表示为固定长度为n的稠密向量,并且稠密
阅读全文
摘要:序列标注问题 给定一个序列x1x2x3....xn,列出序列中每个元素对应的标签y1y2y3.....yn问题。 应用场景:中文分词,词性标注,命名实体识别 中文分词:{B,M,E,S}:将一句话的每个字打上一个标签,B代表词首,M代表词中, E代表词尾,S代表单字 词性标注:给每个词语标注一个词性
阅读全文
摘要:一个句子在语料库中出现的概率,该如何计算? 句子由单词构成,把句子表示成单词列表,则一个句子在一个语料库出现的概率为: 而利用极大似然估计可以计算每个后验概率: 随着句子长度的增大,语料库极有可能统计不到长句子的频次,导致=0 马尔科夫链:给定时间线上一串事件顺序发生,每个事件发生概率只取决于前一个
阅读全文
摘要:关键词提取 关键词的定义:这是一个仁者见仁,智者见智的问题。 一:词频统计 通过统计文章中反复出现的词语。 词频统计的流程:分词、停用词过滤、按词频取前n个。(m个元素取前n个元素通常利用最大堆解决。其复杂度为O(mlogn)) 缺点:高频词并不等价于关键词。 二:使用TF-IDF(词频-倒排文档频
阅读全文
摘要:什么是词典分词: 词典分词是最简单、最常见的分词算法,它是一套仅需一部词典和一套查词典的规则。 什么是词: 语言学的定义:具有独立意义的最小单位。这太模糊了,”最小单位”到底什么是最小呢? 基于词典的中文分词法中对于词的定义:,在词典中的字符串才是词,词典之外的不是词。 根据齐夫定律:一个“不容易”
阅读全文
摘要:机器学习相关有关术语 模型:模型是用来指导机器自动学习出另一个算法的“元算法”。 特征:将事物的特点转化的数值。 特征提取:将事物的特点转化为数值类型的特征,然后让算法根据数据自动得到特征之间的权重。权重又称模型参数。 特征模板:通过程序定义一套模板提取特征,把所有可能的特征全部覆盖。 特征工程:如
阅读全文
摘要:自然语言处理系统的输入源:语音,图像,文本。 语音识别:将语音经过识别后转化成文本。 光学字符识别:将图像中的字符识别后转化成文本。 得到文本后我们会围绕词语分析,这一步称为词法分析。 词法分析的主要任务: 中文分词:将文本分成有意义的词语。 词性标注:确定词语的类别和浅层的歧义消除。 命名实体识别
阅读全文