摘要:
转载自一个博客——作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! 一、jieba分词特点:支持3种分词模式;支持繁体分词;支持自定义词典。 二、jieba分词的过程: 1、基于前缀词典实现词图扫描,生成句子中所有可 阅读全文
摘要:
将搜狗的scel文件转换成txt格式,从网站上copy的,但是忘记是哪个网站了。 #!/usr/bin/python # -*- coding: utf-8 -*- import struct import sys import binascii import pdb # 搜狗的scel词库就是保存 阅读全文
摘要:
金融领域的专有名词较多,使用通用的分词工具的话效果很不好,我使用了4个分词工具:lac,pkuseg,thulac,jieba,针对分词效果来说,thulac能考虑到金融名词,但是在数字的切词上很奇怪,其余三个则是完全不考虑金融名词,具体过程如下: 原句:三季报显示,公司资本公积比年初增加了2306 阅读全文
摘要:
一、简要 卷积神经网络的核心思想是捕捉局部特征,对于文本来说,局部特征就是由若干单词组成的滑动窗口,类似于N-gram. 卷积神经网络的优势在于能够自动地对N-gram特征进行组合和筛选,获得不同抽象层次的语义信息。 二、textCNN 具体描述: 1、 第一层是输入层,输入层是一个n*d矩阵,其中 阅读全文
摘要:
1、可以使用annoy进行词向量搜索加速,速度可以提高200倍左右 2、腾讯有一个公开的中文词向量集,800多万中文词,200维,有16G多(很占内存) 阅读全文
摘要:
阅读全文
摘要:
一、优化算法:我们知道,经过网络层的计算后,计算结果可能距离真值很远,此时,我们需要通过优化算法来不断调整计算值,使其最终的计算结果——预测值,与真值中的差异尽量小。 二、优化算法举例: 1、梯度下降: Mini-batch梯度下降:用子训练集进行梯度下降 batch梯度下降:用整个训练集进行梯度下 阅读全文
摘要:
一、激活函数:是一个非线性函数,用激活函数套在线性函数外面,正割函数就变成非线性函数,用在神经网络中,可以使得本只能拟合线性曲线的网络层,可以拟合非线性曲线。 二、激活函数举例: 1、sigmoid: y=1/(1+e^{-x}) ——>0<y<1,mean=0.5,适用于二分类 2、tanh: y 阅读全文
摘要:
1、NLLLoss与CrossEntropy之间的区别: NLLLoss中是先做log-softmax处理后,再取负即可。 CrossEntropyLoss则直接计算损失,内部会自动进行softmax处理。 2、BCELoss与CrossEntropyLoss之间的区别:(交叉熵的计算公式不一样) 阅读全文
摘要:
一、摘要的主要分类 文本摘要:从数据上来看,分为利用无监督数据(自动摘要)和有监督数据两种方法 文本摘要:从获取方法上看,分为抽取式摘要(从原文中抽取多个句子组成概要)和生成式摘要(先是自然语言理解进行篇章理解,然后用自然语言生成来生成摘要)两种方法。 深度学习模型:BertSum,XLNet等 阅读全文