2017年11月30日

小白爬取单个微博用户的评论

摘要: 一、简要介绍 对“深圳移动”微博用户爬取所有微博及其评论。 二、工具介绍 语言:python 2.7使用的库:import requests微博账号:网上购买若干IP代理:网上租动态IP的代理服务器User-agent:网上搜索若干 三、整体思路 1.首先找到“深圳移动”的手机微博页面 https: 阅读全文

posted @ 2017-11-30 10:41 Denise_hzf 阅读(11952) 评论(3) 推荐(0) 编辑

2017年3月24日

lucene实现初级搜索引擎

摘要: 一、系统设计 搜索引擎项目代码主要分为三个部分,第一部分是构建索引,全文检索;第二部分是输入问题,对问题进行分词、提取关键词、关键词扩展;第三部分是将搜索结果输出到GUI图形用户界面。 二、搜索引擎 搜索引擎的工作流程可以简化归结为以下四个步骤: (1)网上抓取网页 (2)建立索引数据库 (3)在索 阅读全文

posted @ 2017-03-24 19:01 Denise_hzf 阅读(2216) 评论(0) 推荐(0) 编辑

使用哈工大LTP进行句法分析

摘要: 作者注:本教程旨在对哈工大LTP在github上的LTP4J(LTP的java版本)教程的补充,请结合以下参考网站一起食用。 参考网站: 【1】哈工大语言技术平台云官网--LTP使用文档 http://ltp.readthedocs.io/zh_CN/latest/install.html 【2】《 阅读全文

posted @ 2017-03-24 18:29 Denise_hzf 阅读(26328) 评论(1) 推荐(0) 编辑

使用Stanford Parser进行句法分析

摘要: 一、句法分析 1、定义 句法分析判断输入的单词序列(一般为句子)的构成是否合乎给定的语法,并通过构造句法树来确定句子的结构以及各层次句法成分之间的关系,即确定一个句子中的哪些词构成一个短语,哪些词是动词的主语或宾语等问题。 2、主流技术 基于统计的方法是现阶段句法分析的主流技术。常见的概率句法分析模 阅读全文

posted @ 2017-03-24 17:27 Denise_hzf 阅读(44164) 评论(0) 推荐(2) 编辑

使用Berkeley Parser进行句法分析

摘要: 一、句法分析 1、定义 句法分析判断输入的单词序列(一般为句子)的构成是否合乎给定的语法,并通过构造句法树来确定句子的结构以及各层次句法成分之间的关系,即确定一个句子中的哪些词构成一个短语,哪些词是动词的主语或宾语等问题。 2、主流技术 基于统计的方法是现阶段句法分析的主流技术。常见的概率句法分析模 阅读全文

posted @ 2017-03-24 17:00 Denise_hzf 阅读(5407) 评论(1) 推荐(1) 编辑

HMM模型和Viterbi算法

摘要: 一、隐含马尔可夫模型(Hidden Markov Model) 1、简介 隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是以他名字命名的。隐含马尔可夫模型一直被认为是解决大多数自然语言处理问题最为快速、有效的方法。 2、马 阅读全文

posted @ 2017-03-24 16:41 Denise_hzf 阅读(35561) 评论(5) 推荐(7) 编辑

词性标注算法之CLAWS算法和VOLSUNGA算法

摘要: 背景知识 词性标注:将句子中兼类词的词性根据上下文唯一地确定下来。 一、基于规则的词性标注方法 1.原理 利用事先制定好的规则对具有多个词性的词进行消歧,最后保留一个正确的词性。 2.步骤 ①对词性歧义建立单独的标注规则库 ②标注时,查词典,如果某个词具有多个词性,则查找规则库,对具有相同模式的歧义 阅读全文

posted @ 2017-03-24 15:58 Denise_hzf 阅读(4241) 评论(0) 推荐(0) 编辑

基于统计的自动分词算法

摘要: 简介:利用字与字间、词与词间的同现频率作为分词的依据,不一定需要建立好的词典。需要大规模的训练文本用来训练模型参数。优缺点:不受应用领域的限制;但训练文本的选择将影响分词结果。 概率最大统计分词算法 一、主要原理 对于任意一个语句,首先按语句中词组的出现顺序列出所有在语料库中出现过的词组;将上述词组 阅读全文

posted @ 2017-03-24 15:26 Denise_hzf 阅读(2331) 评论(0) 推荐(0) 编辑

2016年12月1日

基于规则的自动分词算法

摘要: 所谓中文分词,就是将中文语句中的词汇切分出来。中文文本自动分词算法从20世纪80年代以来就一直是研究热点。分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。 本文将讨论三种基于规则的中文分词算法,分别是正向最大匹配法、逆向最大匹配法、双向匹配法,介绍 阅读全文

posted @ 2016-12-01 22:52 Denise_hzf 阅读(2862) 评论(0) 推荐(0) 编辑

导航