07 2016 档案
摘要:摘要:大数据发展的基石就是数据量的指数增加,无论是数据挖掘、文本处理、自然语言处理还是机器模型的构建,大多都是基于一定量的数据,数据规模达到一定程度,采用基于规则方法或者概率统计学的方法进行模型构建,感兴趣知识的获取才更有意义。那么,是不是数据足够大就是大数据了?是不是数据足够多就构成语料库了?往往一个模型好坏跟训练数据或者检验数据的语料库息息相关。本文笔者带你走进语料库的世界,在随后模型构建过程避免一些语料注意事项,大大提升模型效率。(本文原创,转载请注明出处:大数据之行,始于足下:谈谈语料库知多少。)
阅读全文
摘要:摘要:写本文的初衷源于基于HMM模型序列标注的一个实验,实验完成之后,迫切想知道采用的序列标注模型的好坏,有哪些指标可以度量。于是,就产生了对这一专题进度学习总结,这样也便于其他人参考,节约大家的时间。本文依旧旨在简明扼要梳理出模型评估核心指标,重点达到实用。本文布局如下:第一章采用统计学习角度介绍什么是学习模型以及如何选择,因为现今的自然语言处理方面大都采用概率统计完成的,事实证明这也比规则的方法好。第二章采用基于数据挖掘的角度探讨模型评估指标和选择。第三章采用统计自然语言处理的方法看看模型评价方法。第四章以R语言为实例,进行实战操作,更深入了解模型的相关问题。(本文原创,转载请注明出处:基于NLP角度的模型评价方法。)
阅读全文
摘要:摘要:写本文的初衷源于基于HMM模型序列标注的一个实验,实验完成之后,迫切想知道采用的序列标注模型的好坏,有哪些指标可以度量。于是,就产生了对这一专题进度学习总结,这样也便于其他人参考,节约大家的时间。本文依旧旨在简明扼要梳理出模型评估核心指标,重点达到实用。本文布局如下:第一章采用统计学习角度介绍什么是学习模型以及如何选择,因为现今的自然语言处理方面大都采用概率统计完成的,事实证明这也比规则的方法好。第二章采用基于数据挖掘的角度探讨模型评估指标和选择。第三章采用统计自然语言处理的方法看看模型评价方法。第四章以R语言为实例,进行实战操作,更深入了解模型的相关问题。(本文原创,转载请注明出处:基于Data Mining角度的模型评估与选择。)
阅读全文
摘要:摘要:写本文的初衷源于基于HMM模型序列标注的一个实验,实验完成之后,迫切想知道采用的序列标注模型的好坏,有哪些指标可以度量。于是,就产生了对这一专题进度学习总结,这样也便于其他人参考,节约大家的时间。本文依旧旨在简明扼要梳理出模型评估核心指标,重点达到实用。本文布局如下:第一章采用统计学习角度介绍什么是学习模型以及如何选择,因为现今的自然语言处理方面大都采用概率统计完成的,事实证明这也比规则的方法好。第二章采用基于数据挖掘的角度探讨模型评估指标和选择。第三章采用统计自然语言处理的方法看看模型评价方法。第四章以R语言为实例,进行实战操作,更深入了解模型的相关问题。(本文原创,转载请注明出处:谈谈学习器模型的评估指标。)
阅读全文
摘要:摘要:最早接触马尔可夫模型的定义源于吴军先生《数学之美》一书,起初觉得深奥难懂且无什么用场。直到学习自然语言处理时,才真正使用到隐马尔可夫模型,并体会到此模型的妙用之处。马尔可夫模型在处理序列分类时具体强大的功能,诸如解决:词类标注、语音识别、句子切分、字素音位转换、局部句法剖析、语块分析、命名实体识别、信息抽取等。另外广泛应用于自然科学、工程技术、生物科技、公用事业、信道编码等多个领域。本文写作思路如下:第一篇对马尔可夫个人简介和马尔科夫链的介绍;第二篇介绍马尔可夫链(显马尔可夫模型)和隐马尔可夫模型以及隐马尔可夫模型的三大问题(似然度、编码、参数学习);第三至五篇逐一介绍三大问题相关算法:(向前算法、维特比算法、向前向后算法);最后非常得益于冯志伟先生自然语言处理教程一书,冯老研究自然语言几十余载,在此领域别有建树。(本文原创,转载注明出处:向前向后算法解决隐马尔可夫模型机器学习问题 )
阅读全文
摘要:摘要:最早接触马尔可夫模型的定义源于吴军先生《数学之美》一书,起初觉得深奥难懂且无什么用场。直到学习自然语言处理时,才真正使用到隐马尔可夫模型,并体会到此模型的妙用之处。马尔可夫模型在处理序列分类时具体强大的功能,诸如解决:词类标注、语音识别、句子切分、字素音位转换、局部句法剖析、语块分析、命名实体识别、信息抽取等。另外广泛应用于自然科学、工程技术、生物科技、公用事业、信道编码等多个领域。本文写作思路如下:第一篇对马尔可夫个人简介和马尔科夫链的介绍;第二篇介绍马尔可夫链(显马尔可夫模型)和隐马尔可夫模型以及隐马尔可夫模型的三大问题(似然度、编码、参数学习);第三至五篇逐一介绍三大问题相关算法:(向前算法、维特比算法、向前向后算法);最后非常得益于冯志伟先生自然语言处理教程一书,冯老研究自然语言几十余载,在此领域别有建树。(本文原创,转载注明出处:维特比算法解决隐马尔可夫模型解码问题(中文句法标注) )
阅读全文
摘要:摘要:最早接触马尔可夫模型的定义源于吴军先生《数学之美》一书,起初觉得深奥难懂且无什么用场。直到学习自然语言处理时,才真正使用到隐马尔可夫模型,并体会到此模型的妙用之处。马尔可夫模型在处理序列分类时具体强大的功能,诸如解决:词类标注、语音识别、句子切分、字素音位转换、局部句法剖析、语块分析、命名实体识别、信息抽取等。另外广泛应用于自然科学、工程技术、生物科技、公用事业、信道编码等多个领域。本文写作思路如下:第一篇对马尔可夫个人简介和马尔科夫链的介绍;第二篇介绍马尔可夫链(显马尔可夫模型)和隐马尔可夫模型以及隐马尔可夫模型的三大问题(似然度、编码、参数学习);第三至五篇逐一介绍三大问题相关算法:(向前算法、维特比算法、向前向后算法);最后非常得益于冯志伟先生自然语言处理教程一书,冯老研究自然语言几十余载,在此领域别有建树。(本文原创,转载注明出处:向前算法解决隐马尔可夫模型似然度问题 )
阅读全文
摘要:摘要:最早接触马尔可夫模型的定义源于吴军先生《数学之美》一本。直到做自然语言处理时,才真正使用到隐马尔可夫模型HMM,并真正体会到此模型的妙用之处。起初参考的资料多来源于网站博客,不少介绍马尔可夫模型的文章是转载的,千篇一律且不能透彻解析其中问题。于是笔者开始自己系统的学习此块内容,并作系列文章发表共享。马尔可夫模型在处理序列分类时具体强大的功能,诸如解决:词类标注、语音识别、句子切分、字素音位转换、局部句法剖析、语块分析、命名实体识别、信息抽取等。另外广泛应用于自然科学、工程技术、生物科技、公用事业、信道编码等多个领域。本文写作思路如下:第一章对马尔可夫进行个人简介;第二章介绍马尔科夫链:序列标注器、马尔可夫过程、随机过程、马尔科夫链描述、马尔可夫应用实例;第三章介绍马尔可夫链(显马尔可夫模型)和隐马尔可夫模型、隐马尔可夫模型案例分析、隐马尔可夫模型的三大问题(似然度、编码、参数学习)、隐马尔可夫模型现实运用;第四章介绍三大问题之一的向前算法相关知识;第五章介绍三大问题之一的维特比算法相关知识;第六章简述三大问题之一的向前向后算法相关知识;最后进行隐马尔可夫模型相关知识补充。(本文原
阅读全文
摘要:摘要:最早接触马尔可夫模型的定义源于吴军先生《数学之美》一本。直到做自然语言处理时,才真正使用到隐马尔可夫模型HMM,并真正体会到此模型的妙用之处。起初参考的资料多来源于网站博客,不少介绍马尔可夫模型的文章是转载的,千篇一律且不能透彻解析其中问题。于是笔者开始自己系统的学习此块内容,并作系列文章发表共享。马尔可夫模型在处理序列分类时具体强大的功能,诸如解决:词类标注、语音识别、句子切分、字素音位转换、局部句法剖析、语块分析、命名实体识别、信息抽取等。另外广泛应用于自然科学、工程技术、生物科技、公用事业、信道编码等多个领域。本文写作思路如下:第一章对马尔可夫进行个人简介;第二章介绍马尔科夫链:序列标注器、马尔可夫过程、随机过程、马尔科夫链描述、马尔可夫应用实例;第三章介绍马尔可夫链(显马尔可夫模型)和隐马尔可夫模型、隐马尔可夫模型案例分析、隐马尔可夫模型的三大问题(似然度、编码、参数学习)、隐马尔可夫模型现实运用;第四章介绍三大问题之一的向前算法相关知识;第五章介绍三大问题之一的维特比算法相关知识;第六章简述三大问题之一的向前向后算法相关知识;最后进行隐马尔可夫模型相关知识补充。(本文原
阅读全文