02 2019 档案

摘要:在自然语言处理中,我们有时对文本进行处理,需要去除一些特殊符号,保留中文,这是在预处理过程中常用到的。分享给你,希望对你有帮助! 阅读全文
posted @ 2019-02-28 16:22 今夜无风 阅读(728) 评论(0) 推荐(0) 编辑
摘要:在深度学习模型真正上线去工作的时候,我们最为关注的就是效率,即实时处理能力。 在进行去停用词的过程中,耗费的时间非常大,主要原因为我将停用词存储到list中,但是list在查询过程中,效率非常低。之后,尝试将数据放入到字典中,键是词,值是任意的数字。 再进行去停用词操作,效率果然飞的彪起来啊。 所以 阅读全文
posted @ 2019-02-27 19:34 今夜无风 阅读(683) 评论(0) 推荐(0) 编辑
摘要:最近已经训练好了一版基于DeepLearning的文本分类模型,TextCNN原理。在实际的预测中,如果默认模型会优先选择GPU那么每一次实例调用,都会加载GPU信息,这会造成很大的性能降低。 那么,在使用的过程中我们无关乎使用GPU还是CPU,使用CPU反而是很快的,所以在有GPU的服务器部署模型 阅读全文
posted @ 2019-02-21 17:17 今夜无风 阅读(1785) 评论(0) 推荐(0) 编辑
摘要:最近在做二分类模型的调优工作。最终发现模型的正例精度在95%,而正例的召回率在83%,这是什么情况呢。 我把模型预测的2000条样本结果的错误标签和内容都打印出来,发现,在样本标注的时候,多数的正样本被错误的标注为负样本,这样模型学到正例的能力就变弱了,这样将大多数正样本预测为负样本的同时,负样本的 阅读全文
posted @ 2019-02-18 10:33 今夜无风 阅读(7539) 评论(0) 推荐(0) 编辑
摘要:最近在使用注意力机制实现文本分类,我们需要观察每一个样本中,模型的重心放在哪里了,就是观察到权重最大的token。这时我们需要使用热力图进行可视化。 我这里用到:seaborn seaborn.heatmap seaborn.heatmap(data, vmin=None, vmax=None, c 阅读全文
posted @ 2019-02-14 16:40 今夜无风 阅读(5281) 评论(0) 推荐(0) 编辑
摘要:指明函数的入口,即从哪里执行函数。 如果你的代码中的入口函数不叫main(),而是一个其他名字的函数,如test(),则你应该这样写入口tf.app.run(test()) 如果你的代码中的入口函数叫main(),则你就可以把入口写成tf.app.run() 阅读全文
posted @ 2019-02-13 14:51 今夜无风 阅读(1729) 评论(0) 推荐(0) 编辑
摘要:在利用tensorflow框架进行模型训练的时候,有时我们需要多次训练对结果求均值来得到一个均衡的评测结论。比如训练十次求平均值。但是tf的本质就是图,当变量第一次定义使用后,第二次再使用就是提示: ValueError: Variable rnn/basic_rnn_cell/kernel alr 阅读全文
posted @ 2019-02-12 16:56 今夜无风 阅读(5206) 评论(2) 推荐(0) 编辑