摘要: 1、完全图解RNN、RNN变体、Seq2Seq、Attention机制 "相关知识点可以去看" 2、自然语言处理中的Attention机制总结 "相关知识点可以去看" 阅读全文
posted @ 2019-06-24 20:47 宁小静 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 以下是Python3语言,一个文件里有很多个.txt文档,里面编码格式都是ASCII。现需要将这些编码格式转化为utf 8,以下是python3语言编写的脚本,一般只需改变path路径就可以运行。 阅读全文
posted @ 2019-05-06 10:36 宁小静 阅读(6441) 评论(1) 推荐(0) 编辑
摘要: Counter类的目的是用来跟踪值出现的次数。它是一个无序的容器类型,以字典的键值对形式存储,其中元素作为key,其计数作为value。计数值可以是任意的Interger(包括0和负数)。Counter类和其他语言的bags或multisets很相似。 1、Counter类创建 2、计数值的访问与缺 阅读全文
posted @ 2019-05-03 15:49 宁小静 阅读(789) 评论(0) 推荐(0) 编辑
摘要: 在解析xml文件时,需要url解析,代码如下: 输出结果为: 阅读全文
posted @ 2019-04-29 16:31 宁小静 阅读(124) 评论(0) 推荐(1) 编辑
摘要: 1、要预处理xml文件,解决docs,url,content标签问题。主要代码是deal_label.py 存入数据文件夹是sougou_label_after SogouCS.reduced:存放原始的txt; sougou_label_after:解决docs,url,content标签问题 2 阅读全文
posted @ 2019-04-26 17:09 宁小静 阅读(1303) 评论(0) 推荐(0) 编辑
摘要: 文本分类 一、建立语料库 文本数据的获取方法一般有两种: 使用别人做好的语料库 爬虫去获取自己的预料数据 二、文本预处理 1、 除去数据中非文本部分 一般可以使用正则表达式去进行删除 2、 处理中文编码问题 由于python2不支持unicode的处理,因此使用python2做中文文本预处理需要遵循 阅读全文
posted @ 2019-04-11 21:04 宁小静 阅读(2198) 评论(0) 推荐(0) 编辑
摘要: 问题: 在调试一个很简单的代码时无法输出结果,运行结果如下形式: 出现以上情况,主要是因为在运行时是以pytest方式运行的,要换回以普通方式去运行。 问题解决: 首先是红色圈圈里的白色三角形。 然后再点击三角形下的Edit configurations... 点击”-“,去掉test_argv.p 阅读全文
posted @ 2019-04-03 18:15 宁小静 阅读(15260) 评论(0) 推荐(1) 编辑