自然语言处理 - 随笔分类 - 焦距

文本匹配算法

摘要：1、文本相似度，文本匹配模型归纳总结 https://blog.csdn.net/u012526436/article/details/90179466 2、短文本匹配的利器-ESIM https://zhuanlan.zhihu.com/p/47580077 阅读全文

posted @ 2019-09-18 10:07 焦距阅读(3734) 评论(0) 推荐(0)

keras-bert实践

该文被密码保护。

posted @ 2019-07-08 23:09 焦距阅读(1) 评论(0) 推荐(0)

人工智能/机器学习/深度学习/自然语言处理相关资料（书籍/视频）

该文被密码保护。

posted @ 2019-04-22 21:38 焦距阅读(5) 评论(0) 推荐(0)

[ML] 解决样本类别分布不均衡的问题

摘要：转自：3.4 解决样本类别分布不均衡的问题 | 数据常青藤（组织排版上稍有修改） 3.4 解决样本类别分布不均衡的问题说明：本文是《Python数据分析与数据化运营》中的“3.4 解决样本类别分布不均衡的问题”。下面是正文内容所谓的不平衡指的是不同类别的样本量异非常大。样本类别分布不平衡主要阅读全文

posted @ 2018-10-10 14:56 焦距阅读(5908) 评论(0) 推荐(0)

[NLP] TextCNN模型原理和实现

摘要：1. 模型原理 1.1 论文 Yoon Kim在论文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出TextCNN。将卷积神经网络CNN应用到文本分类任务，利用多个不同size的kernel来提取句子中阅读全文

posted @ 2018-09-20 14:52 焦距阅读(82056) 评论(3) 推荐(7)

sklearn 可视化模型的训练测试收敛情况和特征重要性

摘要：show the code: 参考的是sklearn中的样例: Gradient Boosting regression — scikit-learn 0.19.2 documentation 画出的图如下所示：阅读全文

posted @ 2018-08-15 19:46 焦距阅读(4511) 评论(0) 推荐(0)

[python] 基于词云的关键词提取：wordcloud的使用、源码分析、中文词云生成和代码重写

摘要：1. 词云简介词云，又称文字云、标签云，是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现，形成关键词的渲染形成类似云一样的彩色图片，从而一眼就可以领略文本数据的主要表达意思。常见于博客、微博、文章分析等。除了网上现成的Wordle、Tagxedo、Tagul、Tagcrowd等词云制作工阅读全文

posted @ 2018-07-22 17:46 焦距阅读(12112) 评论(0) 推荐(2)

文本处理常用操作

摘要：这里介绍一下文本预处理中常用的操作：１．英文统一小写２．分词３．去噪两种方式（１）去停用词包括中英文标点符号、以及噪音词，参考附录[1] （２）只保留指定词典中的词这个词典与任务强相关，通常是当前任务重点关注的特征词其中，为了保证分词的结果是我们想要的，通常需要调整jieba词典：阅读全文

posted @ 2018-05-29 12:01 焦距阅读(1047) 评论(0) 推荐(0)

常用中文英文字符集

摘要：常用的中英字符/汉字：英文字符可以从string包得到：阅读全文

posted @ 2018-05-18 11:58 焦距阅读(7426) 评论(0) 推荐(0)

基于sklearn进行文本向量化

摘要：sklearn中，计数向量化用CountVectorizer，tfidf向量化用TfidfVectorizer： TfidfVectorizer初始化对象时可以指定归一化参数norm : 'l1', 'l2' or None, optional Countvectorizer和TfidfVector 阅读全文

posted @ 2018-03-29 15:39 焦距阅读(2727) 评论(0) 推荐(0)

评价指标的计算：accuracy、precision、recall、F1-score等

摘要：记正样本为P，负样本为N，下表比较完整地总结了准确率accuracy、精度precision、召回率recall、F1-score等评价指标的计算方式：（右键点击在新页面打开，可查看清晰图像）简单版： *********************************************** 阅读全文

posted @ 2018-03-21 17:05 焦距阅读(23289) 评论(0) 推荐(1)

哈工大LTP语言分析：分词、词性标注、句法分析等

摘要：1. LTP介绍和安装 LTP语言云官网在线演示 | 语言云（语言技术平台云 LTP-Cloud）安装LTP的python接口包模型文件下载 LTP 3.3 文档百度云 2. 使用LTP的python接口进行语言分析输出结果：通过LTP的在线演示demo可以看到对应的图结构如下：（参考阅读全文

posted @ 2018-03-15 16:24 焦距阅读(10231) 评论(1) 推荐(0)

国内知名的自然语言处理(NLP)团队

摘要：工业界腾讯人工智能实验室（Tencent AI Lab）百度自然语言处理（Baidu NLP）：对外提供了百度AI开放平台，王海峰（现任百度副总裁，AI技术平台体系AIG总负责人）微软亚洲研究院自然语言计算组（Natural Language Computing - Microsoft Res 阅读全文

posted @ 2018-02-27 17:25 焦距阅读(2774) 评论(0) 推荐(0)

Familia：百度NLP开源的中文主题模型应用工具包

摘要：参考：Familia的Github项目地址、百度NLP专栏介绍 Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型：Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding 阅读全文

posted @ 2018-02-27 13:53 焦距阅读(921) 评论(0) 推荐(0)

基于TextRank提取关键词、关键短语、摘要

摘要：一、TextRank原理 TextRank是一种用来做关键词提取的算法，也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的，所以首先简要介绍下PageRank算法。 1. PageRank算法 PageRank设计之初是用于Google的网页排名的，以该公司创办人拉里·佩奇（阅读全文

posted @ 2018-02-23 15:45 焦距阅读(3674) 评论(0) 推荐(0)

【中文同义词近义词】词向量 vs 同义词近义词库

摘要：方案一：利用预训练好的词向量模型优点：（1）能把词进行语义上的向量化（2）能得到词与词的相似度缺点：（1）词向量的效果和语料库的大小和质量有较大的关系（2）用most_similar() 得到往往不是“同义词”，而是“共现词” 方案二：同义词近义词库比较经典的是哈工大社会计算与信息检索研究阅读全文

posted @ 2018-02-11 14:39 焦距阅读(5093) 评论(0) 推荐(0)

服务器重装和配置：Ubuntu16.04 + Anaconda3 + GTX1080驱动 + CUDA8 + cuDNN + 常用工具安装

摘要：前一篇[基于Ubuntu16.04的GeForce GTX 1080驱动安装，遇到的问题及对应的解决方法]是在机器原有系统上安装GPU驱动，后来决定备份数据后重装系统，让服务器环境更干净清爽。１．安装操作系统Ubuntu16.04 采用U盘启动安装的方式： => 插入系统U盘，开启电源 => 按D 阅读全文

posted @ 2017-12-14 10:40 焦距阅读(1744) 评论(0) 推荐(0)

[转] 用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践

摘要：转自知乎上看到的一篇很棒的文章：用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目，恰好硕士毕业时论文题目便是文本分类问题，趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部阅读全文

posted @ 2017-08-22 15:52 焦距阅读(1067) 评论(0) 推荐(0)

利用sklearn的LabelEncoder对标签进行数字化编码

摘要：LabelEncoder的说明：阅读全文

posted @ 2017-08-21 15:11 焦距阅读(5459) 评论(0) 推荐(0)

焦距

向前一步

随笔分类 - 自然语言处理

公告