2019年12月3日

中文短文本分类项目实践

摘要: 一、WordCloud 制作词云 在网上摘取了一些文本(自己线下可以继续添加语料),下面来制作一个中美贸易战相关的词云。 1. jieba 分词安装 jieba 俗称中文分词利器,作用是来对文本语料进行分词。 全自动安装:easy_install jieba 或者 pip install jieba 阅读全文

posted @ 2019-12-03 16:14 农夫三拳有點疼 阅读(1565) 评论(0) 推荐(2) 编辑

知识挖掘与知识图谱概述

摘要: 搜索技术日新月异,如今它不再是搜索框中输入几个单词那么简单了。不仅输入方式多样化,并且还要在非常短的时间内给出一个精准而又全面的答案。目前,谷歌给出的解决方案就是——知识图谱(Knowledge Graph)。 知识图谱能做什么? 知识图谱想做的,就是在不同数据(来自现实世界)之间建立联系,从而带给 阅读全文

posted @ 2019-12-03 16:01 农夫三拳有點疼 阅读(855) 评论(0) 推荐(0) 编辑

Neo4j构建一个简单知识图谱

摘要: Neo4j 是一个图形数据库,就像传统的关系数据库中的 Oracel 和 MySQL一样,用来持久化数据。Neo4j 是最近几年发展起来的新技术,属于 NoSQL 数据库中的一种。 本文主要从 Neo4j 为什么被用来做知识图谱,Neo4j 的简单安装,在 Neo4j 浏览器中创建节点和关系,Neo 阅读全文

posted @ 2019-12-03 16:01 农夫三拳有點疼 阅读(6271) 评论(12) 推荐(2) 编辑

模型部署上线的几种服务发布方式

该文被密码保护。 阅读全文

posted @ 2019-12-03 16:00 农夫三拳有點疼 阅读(32) 评论(0) 推荐(0) 编辑

基于 CRF 的中文句法依存分析模型(下)

摘要: 句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单 阅读全文

posted @ 2019-12-03 15:59 农夫三拳有點疼 阅读(730) 评论(0) 推荐(0) 编辑

基于 CRF 的中文命名实体识别模型(上)

摘要: 命名实体识别在越来越多的场景下被应用,如自动问答、知识图谱等。非结构化的文本内容有很多丰富的信息,但找到相关的知识始终是一个具有挑战性的任务,命名实体识别也不例外。 前面我们用隐马尔可夫模型(HMM)自己尝试训练过一个分词器,其实 HMM 也可以用来训练命名实体识别器,但在本文,我们讲另外一个算法— 阅读全文

posted @ 2019-12-03 15:58 农夫三拳有點疼 阅读(1585) 评论(0) 推荐(0) 编辑

简易聊天机器人

摘要: 自动问答简介 自动聊天机器人,也称为自动问答系统,由于所使用的场景不同,叫法也不一样。自动问答(Question Answering,QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文 阅读全文

posted @ 2019-12-03 15:57 农夫三拳有點疼 阅读(451) 评论(0) 推荐(0) 编辑

中文命名实体提取

摘要: 命名实体识别(Named EntitiesRecognition,NER)是自然语言处理的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体。 由于命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分) 阅读全文

posted @ 2019-12-03 15:57 农夫三拳有點疼 阅读(1639) 评论(0) 推荐(0) 编辑

完全基于情感词典的文本情感分析

摘要: 目前情感分析在中文自然语言处理中比较火热,很多场景下,我们都需要用到情感分析。比如,做金融产品量化交易,需要根据爬取的舆论数据来分析政策和舆论对股市或者基金期货的态度;电商交易,根据买家的评论数据,来分析商品的预售率等等。 下面我们通过以下几点来介绍中文自然语言处理情感分析: 中文情感分析方法简介; 阅读全文

posted @ 2019-12-03 15:56 农夫三拳有點疼 阅读(16182) 评论(1) 推荐(2) 编辑

基于 LSTM 轻松生成各种古诗

摘要: 整个过程分为以下步骤完成: 语料准备 语料预处理 模型参数配置 构建模型 训练模型 模型作诗 绘制模型网络结构图 下面一步步来构建和训练一个会写诗的模型。 第一,语料准备。一共四万多首古诗,每行一首诗,标题在预处理的时候已经去掉了。 第二,文件预处理。首先,机器并不懂每个中文汉字代表的是什么,所以要 阅读全文

posted @ 2019-12-03 15:55 农夫三拳有點疼 阅读(1948) 评论(0) 推荐(0) 编辑

基于CNN的电影推荐系统

摘要: 从深度学习卷积神经网络入手,基于 Github 的开源项目来完成 MovieLens 数据集的电影推荐系统。 什么是推荐系统呢? 什么是推荐系统呢?首先我们来看看几个常见的推荐场景。 如果你经常通过豆瓣电影评分来找电影,你会发现下图所示的推荐: 如果你喜欢购物,根据你的选择和购物行为,平台会给你推荐 阅读全文

posted @ 2019-12-03 15:54 农夫三拳有點疼 阅读(2406) 评论(0) 推荐(0) 编辑

神经序列模型之RNN 及其变种LSTM、GRU

摘要: 序列数据的处理,从语言模型 N-gram 模型说起,然后着重谈谈 RNN,并通过 RNN 的变种 LSTM 和 GRU 来实战文本分类。 语言模型 N-gram 模型 一般自然语言处理的传统方法是将句子处理为一个词袋模型(Bag-of-Words,BoW),而不考虑每个词的顺序,比如用朴素贝叶斯算法 阅读全文

posted @ 2019-12-03 15:52 农夫三拳有點疼 阅读(2162) 评论(0) 推荐(0) 编辑

NLP中的HMM 和 CRF

摘要: 在自然语言处理领域中,HMM(隐马尔可夫模型)和 CRF(条件随机场)算法常常被用于分词、句法分析、命名实体识别、词性标注等。由于两者之间有很大的共同点,所以在很多应用上往往是重叠的,但在命名实体、句法分析等领域 CRF 似乎更胜一筹。通常来说如果做自然语言处理,这两个模型应该都要了解,下面我们来看 阅读全文

posted @ 2019-12-03 15:50 农夫三拳有點疼 阅读(1960) 评论(0) 推荐(0) 编辑

中文短文本聚类

摘要: 文本聚类是将一个个文档由原有的自然语言文字信息转化成数学信息,以高维空间点的形式展现出来,通过计算哪些点距离比较近,从而将那些点聚成一个簇,簇的中心叫做簇心。一个好的聚类要保证簇内点的距离尽量的近,但簇与簇之间的点要尽量的远。 如下图,以 K、M、N 三个点分别为聚类的簇心,将结果聚为三类,使得簇内 阅读全文

posted @ 2019-12-03 15:48 农夫三拳有點疼 阅读(4522) 评论(1) 推荐(2) 编辑

中文短文本分类

摘要: 文本分类,属于有监督学习中的一部分,在很多场景下都有应用,下面通过小数据的实例,一步步完成中文短文本的分类实现,整个过程尽量做到少理论重实战。 下面使用的数据是一份司法数据,需求是对每一条输入数据,判断事情的主体是谁,比如报警人被老公打,报警人被老婆打,报警人被儿子打,报警人被女儿打等来进行文本有监 阅读全文

posted @ 2019-12-03 15:47 农夫三拳有點疼 阅读(2297) 评论(1) 推荐(0) 编辑

词袋和词向量模型

摘要: 词袋模型(Bag of Words Model) 词袋模型的概念 先来看张图,从视觉上感受一下词袋模型的样子。 词袋模型看起来像一个口袋把所有词都装进去,但却不完全如此。在自然语言处理和信息检索中作为一种简单假设,词袋模型把文本(段落或者文档)被看作是无序的词汇集合,忽略语法甚至是单词的顺序,把每一 阅读全文

posted @ 2019-12-03 15:44 农夫三拳有點疼 阅读(1676) 评论(0) 推荐(0) 编辑

导航