随笔分类 -  自然语言处理

摘要:1、文本相似度,文本匹配模型归纳总结 https://blog.csdn.net/u012526436/article/details/90179466 2、短文本匹配的利器-ESIM https://zhuanlan.zhihu.com/p/47580077 阅读全文
posted @ 2019-09-18 10:07 焦距 阅读(3711) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2019-07-08 23:09 焦距 阅读(1) 评论(0) 推荐(0) 编辑
摘要:转自:3.4 解决样本类别分布不均衡的问题 | 数据常青藤 (组织排版上稍有修改) 3.4 解决样本类别分布不均衡的问题 说明:本文是《Python数据分析与数据化运营》中的“3.4 解决样本类别分布不均衡的问题”。 下面是正文内容 所谓的不平衡指的是不同类别的样本量异非常大。样本类别分布不平衡主要 阅读全文
posted @ 2018-10-10 14:56 焦距 阅读(5740) 评论(0) 推荐(0) 编辑
摘要:1. 模型原理 1.1 论文 Yoon Kim在论文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出TextCNN。 将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中 阅读全文
posted @ 2018-09-20 14:52 焦距 阅读(81219) 评论(3) 推荐(7) 编辑
摘要:show the code: 参考的是sklearn中的样例: Gradient Boosting regression — scikit-learn 0.19.2 documentation 画出的图如下所示: 阅读全文
posted @ 2018-08-15 19:46 焦距 阅读(4465) 评论(0) 推荐(0) 编辑
摘要:1. 词云简介 词云,又称文字云、标签云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。常见于博客、微博、文章分析等。 除了网上现成的Wordle、Tagxedo、Tagul、Tagcrowd等词云制作工 阅读全文
posted @ 2018-07-22 17:46 焦距 阅读(11674) 评论(0) 推荐(2) 编辑
摘要:这里介绍一下文本预处理中常用的操作: 1.英文统一小写 2.分词 3.去噪 两种方式 (1)去停用词 包括中英文标点符号、以及噪音词,参考附录[1] (2)只保留指定词典中的词 这个词典与任务强相关,通常是当前任务重点关注的特征词 其中,为了保证分词的结果是我们想要的,通常需要调整jieba词典: 阅读全文
posted @ 2018-05-29 12:01 焦距 阅读(1011) 评论(0) 推荐(0) 编辑
摘要:常用的中英字符/汉字: 英文字符可以从string包得到: 阅读全文
posted @ 2018-05-18 11:58 焦距 阅读(6644) 评论(0) 推荐(0) 编辑
摘要:sklearn中,计数向量化用CountVectorizer,tfidf向量化用TfidfVectorizer: TfidfVectorizer初始化对象时可以指定归一化参数norm : 'l1', 'l2' or None, optional Countvectorizer和TfidfVector 阅读全文
posted @ 2018-03-29 15:39 焦距 阅读(2661) 评论(0) 推荐(0) 编辑
摘要:记正样本为P,负样本为N,下表比较完整地总结了准确率accuracy、精度precision、召回率recall、F1-score等评价指标的计算方式: (右键点击在新页面打开,可查看清晰图像) 简单版: *********************************************** 阅读全文
posted @ 2018-03-21 17:05 焦距 阅读(22915) 评论(0) 推荐(1) 编辑
摘要:1. LTP介绍和安装 LTP语言云官网 在线演示 | 语言云(语言技术平台云 LTP-Cloud) 安装LTP的python接口包 模型文件下载 LTP 3.3 文档 百度云 2. 使用LTP的python接口进行语言分析 输出结果: 通过LTP的在线演示demo可以看到对应的图结构如下: (参考 阅读全文
posted @ 2018-03-15 16:24 焦距 阅读(10000) 评论(1) 推荐(0) 编辑
摘要:工业界 腾讯人工智能实验室(Tencent AI Lab) 百度自然语言处理(Baidu NLP):对外提供了百度AI开放平台,王海峰(现任百度副总裁,AI技术平台体系AIG总负责人) 微软亚洲研究院自然语言计算组(Natural Language Computing - Microsoft Res 阅读全文
posted @ 2018-02-27 17:25 焦距 阅读(2444) 评论(0) 推荐(0) 编辑
摘要:参考:Familia的Github项目地址、百度NLP专栏介绍 Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding 阅读全文
posted @ 2018-02-27 13:53 焦距 阅读(831) 评论(0) 推荐(0) 编辑
摘要:一、TextRank原理 TextRank是一种用来做关键词提取的算法,也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的,所以首先简要介绍下PageRank算法。 1. PageRank算法 PageRank设计之初是用于Google的网页排名的,以该公司创办人拉里·佩奇( 阅读全文
posted @ 2018-02-23 15:45 焦距 阅读(3337) 评论(0) 推荐(0) 编辑
摘要:方案一:利用预训练好的词向量模型 优点: (1)能把词进行语义上的向量化(2)能得到词与词的相似度 缺点: (1)词向量的效果和语料库的大小和质量有较大的关系(2)用most_similar() 得到往往不是“同义词”,而是“共现词” 方案二:同义词近义词库 比较经典的是哈工大社会计算与信息检索研究 阅读全文
posted @ 2018-02-11 14:39 焦距 阅读(4417) 评论(0) 推荐(0) 编辑
摘要:前一篇[基于Ubuntu16.04的GeForce GTX 1080驱动安装,遇到的问题及对应的解决方法]是在机器原有系统上安装GPU驱动,后来决定备份数据后重装系统,让服务器环境更干净清爽。 1.安装操作系统Ubuntu16.04 采用U盘启动安装的方式: => 插入系统U盘,开启电源 => 按D 阅读全文
posted @ 2017-12-14 10:40 焦距 阅读(1678) 评论(0) 推荐(0) 编辑
摘要:转自知乎上看到的一篇很棒的文章:用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部 阅读全文
posted @ 2017-08-22 15:52 焦距 阅读(1025) 评论(0) 推荐(0) 编辑
摘要:LabelEncoder的说明: 阅读全文
posted @ 2017-08-21 15:11 焦距 阅读(5418) 评论(0) 推荐(0) 编辑