摘要: 原文链接:http://www.one2know.cn/nlp22/ + 预处理 数据集使用Facebook上的BABI数据集 将文件提取成可训练的数据集,包括:文章 问题 答案 输出: + 如何实现 1.预处理:创建字典并将文章,问题和答案映射到词表,进一步映射成向量形式 2.模型创建和验证:训练 阅读全文
posted @ 2019-07-16 15:20 鹏懿如斯 阅读(695) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp21/ 根据已有文本LSTM自动生成文本 + 原理 与股票预测类似,用前面的n个字符预测下一个字符 https://www.cnblogs.com/peng8098/p/keras_5.html + 代码 输出: 阅读全文
posted @ 2019-07-16 15:17 鹏懿如斯 阅读(1263) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/keras6/ + LSTM 是 long short term memory 的简称, 中文叫做 长短期记忆. 是当下最流行的 RNN 形式之一 + RNN 的弊端 RNN没有长久的记忆,比如一个句子太长时开头部分可能会忘记,从而给出错误的答 阅读全文
posted @ 2019-07-13 10:49 鹏懿如斯 阅读(8678) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/keras7/ Autoencoder 自编码 + 压缩与解压 原来有时神经网络要接受大量的输入信息, 比如输入信息是高清图片时, 输入信息量可能达到上千万, 让神经网络直接从上千万个信息源中学习是一件很吃力的工作. 所以, 何不压缩一下, 提 阅读全文
posted @ 2019-07-13 10:49 鹏懿如斯 阅读(2180) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp20/ + 准备 Alice in Wonderland数据集可用于单词抽取,结合稠密网络可实现其单词的可视化,这与编码器 解码器架构类似。 + 代码 输出:不是二维的,为什么!!!看了两天不明白! 阅读全文
posted @ 2019-07-11 20:54 鹏懿如斯 阅读(788) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/keras5/ CNN 卷积神经网络 + 卷积 池化 https://www.cnblogs.com/peng8098/p/nlp_16.html 中有介绍 + 以数据集MNIST构建一个卷积神经网路 输出: RNN 循环神经网络 + 序列数据 阅读全文
posted @ 2019-07-11 14:36 鹏懿如斯 阅读(1217) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/keras4/ backend 兼容 + backend,即基于什么来做运算 Keras 可以基于两个Backend,一个是 Theano,一个是 Tensorflow + 查看当前backend 输出: 或者 + 修改backend 找到~/ 阅读全文
posted @ 2019-07-11 14:30 鹏懿如斯 阅读(428) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/bug10/ + 报错 + 原因 输入的格式不对 + 解决 将数据集标准化 阅读全文
posted @ 2019-07-11 11:46 鹏懿如斯 阅读(10305) 评论(1) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/keras3/ Application的五款已训练模型 + H5py简述 + Keras的应用模块Application提供了带有预训练权重的Keras模型,这些模型可以用来进行预测、特征提取和finetune。 后续还有对以下几个模型的参数介 阅读全文
posted @ 2019-07-10 16:31 鹏懿如斯 阅读(2799) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/python10/ 阅读全文
posted @ 2019-07-10 12:43 鹏懿如斯 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/keras_mnist/ 输出: 阅读全文
posted @ 2019-07-09 16:34 鹏懿如斯 阅读(421) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/bug9/ + 报错 + 原因 没有叫include_top的参数 + 解决 打开keras.applications.imagenet_utils找到preprocess_input()函数, 将参数 改成`require_flatten` 阅读全文
posted @ 2019-07-09 15:08 鹏懿如斯 阅读(1415) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/bug8/ + 报错 + 原因 换地方了 + 解决 改成 `from keras_applications.imagenet_utils import _obtain_input_shape` 阅读全文
posted @ 2019-07-09 15:00 鹏懿如斯 阅读(2418) 评论(1) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/bug7/ + 报错 + 原因 单纯的没有结构一个model不能导入那么多参数 + 解决 也可以: 先加载model的layers,再加载模型 阅读全文
posted @ 2019-07-09 14:26 鹏懿如斯 阅读(3083) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/keras1/ 原文链接:http://www.one2know.cn/keras2/ keras介绍与基本的模型保存 + 思维导图 1.keras网络结构 2.keras网络配置 3.keras预处理功能 + 模型的节点信息提取 把model 阅读全文
posted @ 2019-07-08 19:27 鹏懿如斯 阅读(6415) 评论(0) 推荐(1) 编辑
摘要: 原文链接:http://www.one2know.cn/bug6/ + 报错 + 原因 输入第一层的张量与数据集的shape不同 + 解决 将data转置: 然后会报错: 再把shape按照提示改正: `inputs = Input(shape=(300,))` 阅读全文
posted @ 2019-07-08 16:19 鹏懿如斯 阅读(7168) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp19/ + 使用IMDB情绪数据来比较CNN和RNN两种方法,预处理与上节相同 输出: + 如何实现 1.预处理 2.LSTM模型的构建和验证 3.模型评估 + 代码 输出: Using TensorFlow backend. x_tra 阅读全文
posted @ 2019-07-07 21:11 鹏懿如斯 阅读(2493) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp18/ + 准备 Keras的IMDB数据集,包含一个词集和对应的情感标签 输出: + 如何实现 1.预处理,数据整合到一个固定的维度 2.一维CNN模型的构建和验证 3.模型评估 + 代码 输出: Using TensorFlow ba 阅读全文
posted @ 2019-07-07 19:21 鹏懿如斯 阅读(733) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp17/ + 数据集 scikit learn中20个新闻组,总邮件18846,训练集11314,测试集7532,类别20 输出: + 实现步骤 1. 预处理 1)去标点符号 2)分词 3)单词都转化成小写 4)去停用词 5)保留长度至少为 阅读全文
posted @ 2019-07-07 10:38 鹏懿如斯 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp16/ + 深度学习中的核心主题是 和`循环神经网络(RNN)` 卷积神经网络 + CNN用于图像处理 卷积: 原始图像 5×5 滤波器 3×3 滤波器以步长大于小于1,到处平移,并与原始图像里的3×3做乘积运算,得到卷积特征/激活映射( 阅读全文
posted @ 2019-07-07 10:35 鹏懿如斯 阅读(461) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp15/ + 对话引擎 1.了解目标用户 2.理解用于沟通得语言 3.了解用户的意图 4.应答用户,并给出进一步线索 + NLTK中的引擎 阅读全文
posted @ 2019-07-05 16:34 鹏懿如斯 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp14/ + 情感在自然语言中的表达方式 | 例句 | 解释 | | | | | I am very happy | 开心的情感 | | She is so :( | 表达悲伤的图标 | 输出: + 高阶情感分析 输出: 阅读全文
posted @ 2019-07-05 16:32 鹏懿如斯 阅读(886) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp13/ + 一个词可能有多个词义 | 例句 | 解释 | | | | | She is my date | date: 约会,日期 | | You have taken too many leaves to skip cleaning l 阅读全文
posted @ 2019-07-05 16:31 鹏懿如斯 阅读(1117) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp12/ + 代词是用来代替重复出现的名词 例句: 1.Ravi is a boy. He often donates money to the poor. 先出现主语,后出现代词,所以流动的方向从左到右,这类句子叫回指(Anaphora) 阅读全文
posted @ 2019-07-05 16:29 鹏懿如斯 阅读(2975) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp11/ + gensim.summarization库的函数 gensim.summarization.summarize(text, ratio=0.2, word_count=None, split=False) Parameters 阅读全文
posted @ 2019-07-05 16:28 鹏懿如斯 阅读(1586) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp10/ + 主题识别 是发现输入文本集合中存在的主题的过程 LDA算法,即狄利克雷分布算法 输出: 阅读全文
posted @ 2019-07-05 16:26 鹏懿如斯 阅读(984) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp9/ + 多个维度判别文本之间相似度 1. 情感维度 Sentiment/Emotion 2. 感官维度 Sense 3. 特定词的出现 + 词频 TF 逆文本频率 IDF 构建N个M维向量,N是文档总数,M是所有文档的去重词汇量 + 余 阅读全文
posted @ 2019-07-05 16:24 鹏懿如斯 阅读(657) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp8/ + 一条管道可以被看作一个多阶段的数据流系统,其中一个组件的输出被视为另一个组件的输入 + 管道特点: 1. 数据始终从一个组件流向另一个组件 2. 组件是一个只考虑输入和输出数据的黑盒 + NLP管道应有的功能: 1. 采集输入数 阅读全文
posted @ 2019-07-05 16:21 鹏懿如斯 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/bug5/ + 报错 Traceback (most recent call last): File "D:/PyCharm 5.0.3/WorkSpace/2.NLP/8.高阶实践/1.PipelineQ.py", line 1, in im 阅读全文
posted @ 2019-07-04 16:30 鹏懿如斯 阅读(3244) 评论(1) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp7/ + 命名实体 专有名词:人名 地名 产品名 | 例句 | 命名实体 | | | | | Hampi is on the South Bank of Tungabhabra river | Hampi,Tungabhabra Rive 阅读全文
posted @ 2019-07-04 14:04 鹏懿如斯 阅读(4593) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp6/ + 内置分块器 分块:从文本中抽取短语 输出: + 编写简单的RE分块器 输出: + 训练分块器 IOB标注格式: | 列 | 描述 | | | | | IOB第一列 | 输入句子中的单词 | | IOB第二列 | 单词对应的词性 阅读全文
posted @ 2019-07-03 15:49 鹏懿如斯 阅读(4348) 评论(0) 推荐(1) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp5/ + NLTK内置词性标注器 用nltk.pos_tag()函数进行词性标注 输出: + 自己的词性标注器 输出: + 训练自己的词性标注器 输出: + 编写自己的文法 上下文无关文法: 1.开始符号/标记 2.终结符号集合 3.非终 阅读全文
posted @ 2019-07-02 20:37 鹏懿如斯 阅读(1028) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp4/ + \ \+ ? \ :0个或多个 \+ :1个或多个 ? :0个或1个 re.search()函数,将str和re匹配,匹配正确返回True 输出: + $ ^ . $ :结尾 ^ :开头 . :除换行符以外的任何字符 \w :字 阅读全文
posted @ 2019-07-02 11:05 鹏懿如斯 阅读(498) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp3/ + 分词 from nltk.tokenize import LineTokenizer,SpaceTokenizer,TweetTokenizer from nltk import word_tokenize 根据行分词,将每行作 阅读全文
posted @ 2019-07-01 20:22 鹏懿如斯 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/python9/ python DB API + python访问数据库的统一接口规范,完成不同数据库的访问 + 包含的内容: + 访问数据库流程: 1.创建connection 2.获取cursor 3.操作 4.关闭cursor 5.关闭c 阅读全文
posted @ 2019-07-01 16:56 鹏懿如斯 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/python8/ + Python 提供了两个级别访问的网络服务: 1. 低级别的网络服务支持基本的 Socket,它提供了标准的 BSD Sockets API,可以访问底层操作系统Socket接口的全部方法。 2. 高级别的网络服务模块 S 阅读全文
posted @ 2019-07-01 16:49 鹏懿如斯 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/python7/ 案例一 导入图片 + 思路: 1.导入库 2.加载图片 3.创建窗口 4.显示图片 5.暂停窗口 6.关闭窗口 案例二 在图片上添加人脸识别 + 思路: 1.导入库 2.加载图片 3.加载人脸模型 4.调整图片灰度 5.检查人 阅读全文
posted @ 2019-07-01 16:46 鹏懿如斯 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/nlp2/ + Why we do this 将获取的数据统一格式,得到规范化和结构化得数据 + 字符串操作 输出: + 字符串操作深入 输出: + Pyhton读取PDF 输出: + Python读取Word 每个文档有多个paragraph 阅读全文
posted @ 2019-07-01 16:41 鹏懿如斯 阅读(346) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/bug4/ + 报错 Traceback (most recent call last): File "D:/PyCharm 5.0.3/WorkSpace/2.NLP/2.获取数据源和规范化/5.createCorpus.py", line 阅读全文
posted @ 2019-07-01 15:50 鹏懿如斯 阅读(1823) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.one2know.cn/bug3/ + 报错 Traceback (most recent call last): File "D:/PyCharm 5.0.3/WorkSpace/2.NLP/2.获取数据源和规范化/4.word.py", line 1, in im 阅读全文
posted @ 2019-07-01 11:14 鹏懿如斯 阅读(2219) 评论(0) 推荐(0) 编辑