NLP - 随笔分类(第10页) - 今夜无风

opencc介绍

摘要：1.什么是opencc？ Open Chinese Convert（OpenCC）是一个开源的中文简繁转换项目，致力于制作高质量的基于统计预料的简繁转换词库。还提供函数库(libopencc)、命令行简繁转换工具、人工校对工具、词典生成程序、在线转换服务及图形用户界面。 2.我用在了哪里？之前做文阅读全文

posted @ 2019-05-18 15:16 今夜无风阅读(3922) 评论(0) 推荐(0) 编辑

百度AI文本审核API使用说明

摘要：虽然，虽然，虽然，今天：百度发布了2019年第一季度未经审计的财务报告。本季度百度营收241亿元人民币（约合35.9亿美元），同比增长15%，移除业务拆分收入影响，同比增长21%。低于市场预期242.7亿元。净亏损为人民币3.27亿元（约合4900万美元），去年同期净利润为人民币66.94亿元。这阅读全文

posted @ 2019-05-18 14:16 今夜无风阅读(3723) 评论(0) 推荐(0) 编辑

AAAI2018中的自注意力机制(Self-attention Mechanism)

摘要：近年来，注意力（Attention）机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中。随着注意力机制的深入研究，各式各样的attention被研究者们提出，如单个、多个、交互式等等。去年6月，google机器翻译团队在arXiv上的《Attention is all you need》阅读全文

posted @ 2019-04-16 11:43 今夜无风阅读(11500) 评论(0) 推荐(0) 编辑

迁移学习在自然语言处理中的应用

摘要：迁移学习近年来在图形领域中得到了快速的发展，主要在于某些特定的领域不具备足够的数据，不能让深度模型学习的很好，需要从其它领域训练好的模型迁移过来，再使用该模型进行微调，使得该模型能很好地拟合少量数据的同时又具备较好的泛化能力（不过拟合）。在迁移学习任务中，需要事先定义一组源数据集合，使用该集合训练阅读全文

posted @ 2019-04-15 18:46 今夜无风阅读(873) 评论(0) 推荐(0) 编辑

pytorch实现AlexNet网络

摘要：直接上图吧写网络就像搭积木阅读全文

posted @ 2019-04-10 19:53 今夜无风阅读(1874) 评论(0) 推荐(0) 编辑

word2vec生成词向量和字向量

摘要：生成字符向量的过程中需要注意： 1）在收集数据生成corpus时候，通过Word2Vec生成字向量的时候，产生了“ ”空格字符向量，但是加载模型是不会成功的。那么你不是生成的binary文件，就可以修改此文件，更改或删除。示例参考代码如下：阅读全文

posted @ 2019-04-09 10:15 今夜无风阅读(6678) 评论(7) 推荐(1) 编辑

Tensorflow 的saved_model模块学习

摘要：saved_model模块主要用于TensorFlow Serving。TF Serving是一个将训练好的模型部署至生产环境的系统，主要的优点在于可以保持Server端与API不变的情况下，部署新的算法或进行试验，同时还有很高的性能。在模型的训练阶段，同时要保存tfs需要的saved_model 阅读全文

posted @ 2019-04-03 09:12 今夜无风阅读(1943) 评论(0) 推荐(0) 编辑

知识驱动对话-Learning to Select Knowledge for Response Generation in Dialog Systems-阅读笔记

摘要：今日看了一篇文章《Learning to Select Knowledge for Response Generation in Dialog Systems》，以知识信息、对话目标、对话历史信息为基础，进行端到端的对话语句生成。期间做了一些笔记，还有个人想法。大家一起进步！阅读全文

posted @ 2019-03-26 09:17 今夜无风阅读(1367) 评论(2) 推荐(1) 编辑

tensorflow使用pb文件进行模型预测

摘要：阅读全文

posted @ 2019-03-19 15:38 今夜无风阅读(4621) 评论(0) 推荐(0) 编辑

sklearn的K折交叉验证函数KFold使用

摘要：K折交叉验证时使用： KFold（n_split, shuffle, random_state）参数：n_split:要划分的折数 shuffle: 每次都进行shuffle，测试集中折数的总和就是训练集的个数 random_state:随机状态阅读全文

posted @ 2019-03-19 13:54 今夜无风阅读(26438) 评论(2) 推荐(1) 编辑

深度学习模型融合stacking

摘要：当你的深度学习模型变得很多时，选一个确定的模型也是一个头痛的问题。或者你可以把他们都用起来，就进行模型融合。我主要使用stacking和blend方法。先把代码贴出来，大家可以看一下。阅读全文

posted @ 2019-03-19 11:03 今夜无风阅读(7126) 评论(0) 推荐(0) 编辑

TF模型训练中注意Loss和F1的变化情况

摘要：之前训练模型，认为网络图构建完成，Loss肯定是呈现下降的，就没有太留心，知识关注F1的变化情况，找到最优的F1训练就停止了，认为模型就ok。但实际中发现，我们要时刻关注网络的损失变化情况，batch size过小（6,8）都会导致模型不收敛，此时你就看不到损失的变化，只能根据F1优劣判断模型。阅读全文

posted @ 2019-03-15 09:31 今夜无风阅读(1642) 评论(0) 推荐(0) 编辑

python中的os.path.dirname(__file__)的使用

摘要：在编程时，我们要获取当前文件所在的路径，以适合所有的工程，建立相对路径。 python的os.path.dirname(__file__)非常好用，建议大家使用：输出：阅读全文

posted @ 2019-03-11 19:05 今夜无风阅读(2326) 评论(0) 推荐(0) 编辑

查看CUDA和cuDNN的版本号

摘要：1、查看cuda版本 cat /usr/local/cuda/version.txt2、查看cudnn版本 cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2 按照结果顺序读取出版本号阅读全文

posted @ 2019-03-06 18:04 今夜无风阅读(3968) 评论(0) 推荐(0) 编辑

TensorRT下安装pycuda

摘要：为了模型小型化，效率更高，使用TensorRT进行优化。前提是你必须要安装pycuda，可是费了我一番功夫。做一个笔记如下： 1.参考网址： https://wiki.tiker.net/PyCuda/Installation/Linux/ 2.配置代码阅读全文

posted @ 2019-03-04 15:00 今夜无风阅读(3727) 评论(0) 推荐(0) 编辑

NLP去特殊字符

摘要：在自然语言处理中，我们有时对文本进行处理，需要去除一些特殊符号，保留中文，这是在预处理过程中常用到的。分享给你，希望对你有帮助！阅读全文

posted @ 2019-02-28 16:22 今夜无风阅读(751) 评论(0) 推荐(0) 编辑

tensorflow模型在实际上线进行预测的时候，使用CPU工作

摘要：最近已经训练好了一版基于DeepLearning的文本分类模型，TextCNN原理。在实际的预测中，如果默认模型会优先选择GPU那么每一次实例调用，都会加载GPU信息，这会造成很大的性能降低。那么，在使用的过程中我们无关乎使用GPU还是CPU，使用CPU反而是很快的，所以在有GPU的服务器部署模型阅读全文

posted @ 2019-02-21 17:17 今夜无风阅读(1791) 评论(0) 推荐(0) 编辑

二分类模型精度高而召回率低的原因

摘要：最近在做二分类模型的调优工作。最终发现模型的正例精度在95%，而正例的召回率在83%，这是什么情况呢。我把模型预测的2000条样本结果的错误标签和内容都打印出来，发现，在样本标注的时候，多数的正样本被错误的标注为负样本，这样模型学到正例的能力就变弱了，这样将大多数正样本预测为负样本的同时，负样本的阅读全文

posted @ 2019-02-18 10:33 今夜无风阅读(7641) 评论(0) 推荐(0) 编辑

seaborn画热力图注意的几点问题

摘要：最近在使用注意力机制实现文本分类，我们需要观察每一个样本中，模型的重心放在哪里了，就是观察到权重最大的token。这时我们需要使用热力图进行可视化。我这里用到：seaborn seaborn.heatmap seaborn.heatmap(data, vmin=None, vmax=None, c 阅读全文

posted @ 2019-02-14 16:40 今夜无风阅读(5308) 评论(0) 推荐(0) 编辑

微信、QQ群短文本聊天语料总结

摘要：在文本分类任务中，语料的特性千差万别，我们需要找到适合模型并抓住数据的特性，最终才能得到较好的model。最近在文本类别标注任务，就是给文本打标签确定该文本的类别。这是一个很费人工的过程，需要认真仔细，因为我们都知道有多少人工就有多少智能。微信、QQ短文本：（1）如何分段聊天文本的边界是无法确阅读全文

posted @ 2019-01-16 10:28 今夜无风阅读(1627) 评论(0) 推荐(0) 编辑

随笔分类 - NLP

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论