摘要: 一、两种分词标准: 1. 粗粒度。 将词作为最小基本单位。比如:浙江大学。 主要用于自然语言处理的各种应用。 2. 细粒度。 不仅对词汇继续切分,也对词汇内部的语素进行切分。比如:浙江/大学。 主要用于搜索引擎。一种常用方案是: 索引的时候使用细粒度的分词以保证召回,比如浙江/大学 询的时候使用粗粒 阅读全文
posted @ 2018-10-05 16:56 A_Present 阅读(802) 评论(0) 推荐(0) 编辑
摘要: 环境:Ubuntu 16.04+anaconda3 一、pyltp 1. 安装 直接用pip安装: 然后下载语言模型库,网址:https://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569#list/path=%2F 这里我下载的是 阅读全文
posted @ 2018-10-04 20:15 A_Present 阅读(2265) 评论(1) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-09-15 22:29 A_Present 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 一、简介 实例: 电影评论、产品评论是positive还是negative 公众、消费者的信心是否在增加 公众对于候选人、社会事件等的倾向 预测股票市场的涨跌 Affective States又分为: emotion:短暂的情感,比如生气、伤心、joyful开心、害怕、羞愧、骄傲等 mood:漫无原 阅读全文
posted @ 2018-08-16 21:00 A_Present 阅读(647) 评论(0) 推荐(0) 编辑
摘要: 一、实验评估参数 实验数据本身可以分为是否属于某一个类(即correct和not correct),表示本身是否属于某一类别上,这是客观事实;又可以按照我们系统的输出是否属于某一个类(即selected和not selected),表示是否分到某一类别,这是实验输出。 以垃圾邮件为例: tp:表示系 阅读全文
posted @ 2018-08-14 18:40 A_Present 阅读(435) 评论(0) 推荐(0) 编辑
摘要: 文本分类实例:分辨垃圾邮件、文章作者识别、作者性别识别、电影评论情感识别(积极或消极)、文章主题识别及任何可分类的任务。 一、文本分类问题定义: 输入: 一个文本d 一个固定的类别集合C={c1,c2,...,cj},一共j个类别 输出:一个d的预测类别c∈C 方法: 最简单的是使用基于词或其他特征 阅读全文
posted @ 2018-08-13 17:37 A_Present 阅读(834) 评论(0) 推荐(0) 编辑
摘要: 在多种应用比如word中都有拼写检查和校正功能,具体步骤分为: 自动校正:hte -> the 建议一个校正 建议多个校正 拼写错误类型: 检测方法:认为任一不在字典中的词都是一个非词错误,因此字典本身越大越好 校正方法:为错误词产生一个候选,其是跟错误词相似的真词,然后选择加权编辑距离最短或者信道 阅读全文
posted @ 2018-08-12 19:39 A_Present 阅读(1453) 评论(0) 推荐(0) 编辑
摘要: 平滑方法: 1. Add-1 smoothing 2. Add-k smoothing 设m=1/V,则有 从而每一项可以跟词汇表的大小相关 3. Unigram prior smoothing 将上式中的1/v换成unigram概率P(wi),则有: 其是插值的一种变体,其将某种unigram概率 阅读全文
posted @ 2018-08-11 17:02 A_Present 阅读(1175) 评论(0) 推荐(0) 编辑
摘要: 一、产生句子 方法:Shannon Visualization Method 过程:根据概率,每次随机选择一个bigram,从而来产生一个句子 比如: 从句子开始标志的bigram开始,我们先有一个(<s>, w),w是随机一个单词,比较有可能的是I这个单词,那么我们就有(<s>, I) 随机选择下 阅读全文
posted @ 2018-08-07 20:16 A_Present 阅读(984) 评论(0) 推荐(0) 编辑
摘要: 一、如何评价语言模型的好坏 标准:比起语法不通的、不太可能出现的句子,是否为“真实”或"比较可能出现的”句子分配更高的概率 过程:先在训练数据集上训练模型的参数,然后在测试数据集上测试模型的效果。 要求:测试数据集与训练数据集完全不同 评价指标:用以评价模型的测试数据集上的效果 二、N-gram 模 阅读全文
posted @ 2018-08-07 19:23 A_Present 阅读(336) 评论(0) 推荐(0) 编辑