HBU_DAVID - 博客园

基于词典的中文分词算法1：最大匹配法

摘要： https://zhuanlan.zhihu.com/p/103392455 https://www.cnblogs.com/dahuang123/p/11990651.html https://www.cnblogs.com/by-dream/p/6429615.html 阅读全文

posted @ 2020-07-04 12:39 HBU_DAVID 阅读(389) 评论(0) 推荐(0) 编辑

中文分词常用方法

摘要： https://www.cnblogs.com/ysherlock/p/7822304.html 基于词典的方法、基于统计的方法、基于规则的方法 1、基于词典的方法（字符串匹配，机械分词方法）定义:按照一定策略将待分析的汉字串与一个大机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。阅读全文

posted @ 2020-07-04 11:53 HBU_DAVID 阅读(1975) 评论(0) 推荐(0) 编辑

隐马三问：隐马模型的三个基本问题

摘要：序号问题别名问题详细描述解法 1. 评估问题概率计算问题样本生成问题给定一个模型，如何计算某个特定的输出序列的概率 Forward-Backward算法 2. 学习问题参数估计问题模型训练问题给定足够量的观测数据，如何估计隐含马尔科夫模型的参数 Baum-Welch算法 3. 预阅读全文

posted @ 2020-07-03 19:24 HBU_DAVID 阅读(300) 评论(0) 推荐(0) 编辑

隐马尔可夫模型(Hidden Markov model, HMM)

摘要：开篇就是“大量公式+抽象算法+密密麻麻文字”的帖子，实在是读不下去。网上搜搜讲的有趣点的，有图的，例子计较通俗易懂的。不要一开篇就是 \(x_1,x_2 ...,x_n\) ，非常打击积极性。循序渐进，从具体的例子，慢慢的再到抽象的公式。阶梯型的学习，才是正确的学习方法。隐马模型(Hidd 阅读全文

posted @ 2020-07-03 16:48 HBU_DAVID 阅读(542) 评论(0) 推荐(0) 编辑

马尔科夫模型

摘要：马尔科夫（Andrey Markov，1856－1922） “下一时刻的状态只与当前状态有关，与上一时刻状态无关”的性质，称为无后效性或者马尔可夫性。具有这种性质的过程称为马尔可夫过程。时间、状态都是离散的马尔可夫过程称为马尔可夫链。马尔可夫假设：给定时间线上有一串事件顺序发生，假设每个事件的发阅读全文

posted @ 2020-07-03 13:02 HBU_DAVID 阅读(888) 评论(0) 推荐(0) 编辑

统计自然语言处理（第2版）目录

摘要：第1章绪论 1.1 基本概念 1.1.1 语言学与语音学 1.1.2 自然语言处理 1.1.3 关于“理解”的标准 1.2 自然语言处理研究的内容和面临的困难 1.2.1 自然语言处理研究的内容 1.2.2 自然语言处理涉及的几个层次 1.2.3 自然语言处理面临的困难 1.3 自然语言处理的基本阅读全文

posted @ 2020-07-03 11:37 HBU_DAVID 阅读(228) 评论(0) 推荐(0) 编辑

古德-图灵估计(Good-Turing Estimate)

摘要： 1953年古德(I.J.Good)在图灵(Alan Turing)的指导下，提出的在统计中相信可靠的统计数据，而对不可信的统计数据打折扣的一种概率估计方法，同时将折扣出来的那一小部分概率给与未看见的时间(Unseen Events)。古德和图灵还给出一个很漂亮的重新估算概率的公式，这个公式后来被称阅读全文

posted @ 2020-07-02 11:18 HBU_DAVID 阅读(1470) 评论(0) 推荐(0) 编辑

拉普拉斯平滑（Laplace Smoothing）

摘要：拉普拉斯平滑（Laplace Smoothing）又称加1平滑，常用平滑方法。解决零概率问题。背景:为什么要做平滑处理? 零概率问题：在计算实例的概率时，如果某个量x，在观察样本库（训练集）中没有出现过，会导致整个实例的概率结果是0。在文本分类的问题中，当一个词语没有在训练样本中出现，该词语调阅读全文

posted @ 2020-07-01 18:24 HBU_DAVID 阅读(4453) 评论(0) 推荐(0) 编辑

分类与聚类

摘要：分类：根据文本的特征或属性，划分到已有的类别中。也就是说，这些类别是已知的，通过对已知分类的数据进行训练和学习，找到这些不同类的特征，再对未分类的数据进行分类。聚类：不知道数据会分为几类，通过聚类分析将数据或者说用户聚合成几个群体。聚类不需要对数据进行训练和学习。分类属于监督学习，聚类属于无监督阅读全文

posted @ 2020-06-29 11:52 HBU_DAVID 阅读(538) 评论(0) 推荐(0) 编辑

文本聚类（Text clustering）

摘要：文本聚类（Text clustering）文档聚类主要是依据著名的聚类假设：同类的文档相似度较大，而不同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效地组织、摘要和导阅读全文

posted @ 2020-06-28 10:48 HBU_DAVID 阅读(1911) 评论(0) 推荐(0) 编辑

文本分类（Text Categorization）

摘要：对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。它根据一个已经被标注的训练文档集合, 找到文档特征和文档类别之间的关系模型, 然后利用这种学习得到的关系模型对新的文档进行类别判断。文本分类从基于知识的方法逐渐转变为基于统计和机器学习的方法。通常，进行文本分类的主要方法阅读全文

posted @ 2020-06-28 10:29 HBU_DAVID 阅读(708) 评论(0) 推荐(0) 编辑

信息抽取（Information Extraction）

摘要：信息抽取（information extraction），即从自然语言文本中，抽取出特定的事件或事实信息，帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体（entity）、关系（relation）、事件（event）。例如从新闻中抽取时间、地点、关键人物，或者从技术文档中抽取产品名称阅读全文

posted @ 2020-06-28 10:18 HBU_DAVID 阅读(887) 评论(0) 推荐(0) 编辑

序列标注（Sequence Tagging）

摘要：序列标注（Sequence Tagging）是一个比较简单的NLP任务，但也可以称作是最基础的任务。序列标注的涵盖范围是非常广泛，可用于解决一系列对字符进行分类的问题，如分词、词性标注、命名实体识别、关系抽取等等。常用模型包括：隐马尔可夫模型（HMM）、条件随机场（CRF）、BiLSTM + C 阅读全文

posted @ 2020-06-27 12:03 HBU_DAVID 阅读(1415) 评论(0) 推荐(0) 编辑

NLP实验计划1.0

摘要： 1. 实验环境配置安装IDE ：VS Code / Pycharm 或其他Python编程工具安装Python3 程序1：输出“Hello，World”。安装 jieba，hanLP（需要C++14.0，java1.8支撑）程序2：做简单中文分词程序。输入任意语句，输出分词结果。 2. 文阅读全文

posted @ 2020-06-26 23:15 HBU_DAVID 阅读(154) 评论(0) 推荐(0) 编辑

NLP开源中文分词工具

摘要： Jieba: https://github.com/fxsjy/jieba SnowNLP: https://github.com/isnowfy/snownlp PkuSeg: https://github.com/lancopku/pkuseg-python THULAC: https://gi 阅读全文

posted @ 2020-06-26 21:50 HBU_DAVID 阅读(486) 评论(0) 推荐(0) 编辑

NLP在线演示

摘要：何晗：HanLP：面向生产环境的自然语言处理工具包清华：THULAC：一个高效的中文词法分析工具包搜狗：搜狗实验室分词和词性标注斯坦福：CORENLP 哈工大：LTP：语言技术平台(Language Technology Platform) NLPIR：NLPIR 中科大：科大讯飞云孚科技阅读全文

posted @ 2020-06-26 21:15 HBU_DAVID 阅读(678) 评论(0) 推荐(0) 编辑

句法分析

摘要：句法分析(Parsing) 对句子中的词语语法功能进行分析。 https://hanlp.hankcs.com/ http://ltp.ai/demo.html 常见的句法分析应用有: 计算机翻译、文字注释、问答系统、信息的自然摘录以及自动搜索等。阅读全文

posted @ 2020-06-26 20:16 HBU_DAVID 阅读(451) 评论(0) 推荐(0) 编辑

《自然语言处理入门》源码 vs code :python相对路径

摘要： https://www.zhihu.com/question/313379182/answer/986009654 import osimport sys # 得到当前根目录 o_path = os.getcwd() # 返回当前工作目录 sys.path.append(o_path) # 添加自己阅读全文

posted @ 2020-06-26 01:58 HBU_DAVID 阅读(94) 评论(0) 推荐(0) 编辑

词法分析：命名实体识别

摘要：词法分析（lexical analysis）：将字符序列转换为单词（Token）序列的过程。分词，命名实体识别，词性标注并称汉语词法分析“三姐妹”。命名实体识别（Named Entity Recognition，NER）NER的过程，就是根据输入的句子，预测出其标注序列的过程。主要关注人名阅读全文

posted @ 2020-06-26 00:27 HBU_DAVID 阅读(909) 评论(0) 推荐(1) 编辑

Notebook