云野Winfield

2020年4月26日

摘要： [TOC] 模型介绍马尔科夫假设: 假设模型的当前状态仅仅依赖于前面的几个状态一个马尔科夫过程是状态间的转移仅依赖于前n个状态的过程。这个过程被称之为n阶马尔科夫模型，其中n是影响下一个状态选择的（前）n个状态。最简单的马尔科夫过程是一阶模型，它的状态选择仅与前一个状态有关。这里要注意它与确定性阅读全文

posted @ 2020-04-26 17:28 云野Winfield 阅读(2459) 评论(0) 推荐(0) 编辑

2020年4月23日

基于bert的中文文本分类

摘要：这次我们使用 "今日头条信息流中抽取的38w条新闻标题数据" 作为数据集。数据集中的文本长度在10到30之间，一共15个类别。数据预处理：接下来，定义模型。这里我们用到了这个包：定义训练和测试方法：开始训练：由于colab显存不够，所以调小了batch_size，训练了三小时左右，最终在阅读全文

posted @ 2020-04-23 10:57 云野Winfield 阅读(8817) 评论(1) 推荐(1) 编辑

2020年4月22日

基于生成模型的中文聊天机器人

摘要： [TOC] 这次采用的数据集为，这份语料的质量还是不错的，内容也比较生活化。更多的语料数据可见： "中文公开聊天语料库" 首先，项目依赖：准备数据先读取数据，然后打印几行看看语料质量：打印结果：可以看到，语料的基本质量还是可以的，不过其中还有一些不必要的符号，后续处理时要过滤掉分词阅读全文

posted @ 2020-04-22 22:16 云野Winfield 阅读(1319) 评论(0) 推荐(2) 编辑

2020年3月31日

结合w2v与svm对酒店评论数据进行情感倾向分析

摘要：数据集：ChnSentiCorp Htl ba 4000 ![data_content][1] 由于该数据集中的文件是分散的（一句评论一个文件），这样处理起来会比较麻烦，所以我们先要对它们进行合并：接下来，我们进行数据预处理，这里包含了字符过滤，去停用词，分词等三个步骤：这里使用的停用词表为：阅读全文

posted @ 2020-03-31 23:19 云野Winfield 阅读(720) 评论(0) 推荐(0) 编辑

使用wiki中文数据训练词向量模型

摘要：首先，使用gensim提供的WikiCorpus中的get_texts将维基数据里的每篇文章转换为1行text文本，并且去掉标点符号 wiki中文数据下载地址：https://dumps.wikimedia.org/zhwiki/latest/zhwiki latest pages articles 阅读全文

posted @ 2020-03-31 22:59 云野Winfield 阅读(1050) 评论(0) 推荐(0) 编辑

2020年2月20日

中文文本分类

摘要： [toc] 代码分解代码包括四个部分，分别是：工具类：utils 训练及测试代码：train_eval 模型：models.TextCNN 主函数：main 在notebook中依次运行前三个部分，最后执行main就可以开始训练了 colab链接：https://colab.research.g 阅读全文

posted @ 2020-02-20 05:07 云野Winfield 阅读(2290) 评论(0) 推荐(1) 编辑

2020年2月5日

Pytorch中RNN和LSTM的简单应用

摘要： [toc] 使用RNN执行回归任务使用LSTM执行分类任务参考： "MorvanZhou/PyTorch Tutorial" 阅读全文

posted @ 2020-02-05 15:15 云野Winfield 阅读(2758) 评论(0) 推荐(1) 编辑

2020年2月1日

LSTM笔记

摘要： [toc] 背景知识长短期记忆（Long short term memory, LSTM）是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现。在普通的RNN中，重复模块结构非常简单，例如只有一个ta 阅读全文

posted @ 2020-02-01 19:44 云野Winfield 阅读(275) 评论(0) 推荐(0) 编辑

2020年1月31日

RNN笔记

摘要： [toc] 背景知识 ![20150921225622105.jpg 43.3kB][1] RNN的应用场景：处理序列数据（一串前后依赖的数据流） RNN的局限：较近的输入的影响较大，较远的输入的影响较小，因此它无法捕捉输入间隔较远的数据之间的联系 RNN的改进： LSTM 使网络可以记住之前输入阅读全文

posted @ 2020-01-31 14:38 云野Winfield 阅读(264) 评论(0) 推荐(0) 编辑

2020年1月30日

pytorch基础（二）

摘要： [TOC] An easy way 使用来更快地构建神经网络： Save and reload 两种保存网络模型的方法：读取模型：只读取模型参数： Train on batch 通过中的参数来控制加载数据时的batch大小打印结果： Optimizers 比较不同的优化方法对网络的影响：阅读全文

posted @ 2020-01-30 19:08 云野Winfield 阅读(578) 评论(0) 推荐(0) 编辑

Loading

抓住本质，看大做小，持之以恒

公告