摘要:
本文主要是利用Tensorflow中keras框架记录简单实现seq2seq+Attention模型的过程,seq2seq的应用主要有问答系统、人机对话、机器翻译等。代码中会用一个中文对话数据简单测试。 seq2seq模型介绍 seq2seq模型主要有两个部分Encoder和Decoder,Enco 阅读全文
摘要:
Keras训练模型有多种保存方法,可以保存为hdf5文件,也可以保存为json格式文件,可以同时保存模型图和权重,也可以单独保存模型... 阅读全文
摘要:
这是转载斯坦福NLP课程中讲拼写纠错的一节,感觉讲的比较好,虽然课程很老,但是讲的知识,在目前的query改写、拼写纠错还是很实用的... 阅读全文
摘要:
在完成关于数组的大量算法中,基本都会涉及到元素交换,比如排序中是最常见的,一般的方法是新建一个临时变量,然后完成交换,如果给定的数组中元素是有范围的,其实还有其他方法也可以完成交换。下面就来总结一下这些方法。 临时变量法 临时变量法是最简单的,这个不过多解释。试用任何类型的元素交换。 public 阅读全文
摘要:
本篇主要记录Keras实现BiLSTM+Attention模型,其中Attention是自定义层。然后用该模型完成新闻标题文本分类任务。 详细代码和数据:https://github.com/huanghao128/zh-nlp-demo,如果不嫌弃,欢迎star和Fork~ 数据预处理 这里使用的 阅读全文
摘要:
主要记录了Spark中转换算子transformation和动作算子action具体含义和使用方法。 转换算子-transforma... 阅读全文
摘要:
多层感知器(Multilayer Perceptron) 定义了用于二分类的多层感知器模型。模型输入32维特征,经过三个全连接层,每... 阅读全文
摘要:
新闻语料预处理 本文使用的是搜狗新闻语料库,原始语料是类似下图中xml格式,首先需要提取中语料中正真的新闻内容,就是<content>中对应的文本。还需要过滤一些特殊字符,以及半角和全角的转换问题。 语料的下载,官方地址:https://www.sogou.com/labs/resource/cs. 阅读全文
摘要:
全角与半角转换在处理汉语语料中会经常出现,这里分别说明汉字、数字、字母的unicode编码范围。以及全角与半角的转换方法。最后给出w... 阅读全文
摘要:
由于在实际开发中,经常会在Linux和windows之间互传文件,记录一下使用方便的三个命令rz、sz、nc。 Linux连接工具 ... 阅读全文