摘要: 一、介绍 本文主要提供了一个基于bert的篇章级编码器,能够编码一篇文章并获取每一句话的表征。为了提取句子,我们的提取模型是建立在编码器的顶层,通过叠加一些句间Transformer层来获取篇章级特征。而抽象模型提出了一个编码器-解码器结构,结合相同的预训练bert编码器(使用随机初始化的Trans 阅读全文
posted @ 2020-06-28 00:15 justDoIT& 阅读(1781) 评论(0) 推荐(0) 编辑
摘要: 学习的两个分支:基于符号主义的专家系统(使用规则),基于连接主义的概率统计的系统(如机器学习,深度学习) 使用哪种系统主要看数据量,没有数据或者数据量很少的时候使用专家系统,有大量数据的时候使用机器学习或者深度学习 专家系统=推理引擎+知识 专家系统的流程: 任务:搭建金融知识图谱 1、金融领域或者 阅读全文
posted @ 2020-05-08 21:23 justDoIT& 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 1、准确率:预测正确的样本总样本​ 2、精确率和召回率 CorrectNot correct Selected TP FP Not selected FN TN ——来源于贪心科技NLP班讲解 阅读全文
posted @ 2020-05-08 21:20 justDoIT& 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 简介 分词是NLP的基本功能之一,现在发展比较成熟了,目前比较热门的分词工具有jieba,snownlp,pkuseg等等。分词工具的使用是比较简单的,具体查询相应的github项目即可,上面有比较好的示例。本文我们主要讲解一下分词的相关算法:前向最大匹配,后向最大匹配,语言模型,维特比算法等。现分 阅读全文
posted @ 2020-05-08 21:18 justDoIT& 阅读(487) 评论(0) 推荐(0) 编辑
摘要: 一、文本表示 文本表示:one-hot(单词),boolean representation(句子),count-based representation(句子) 词典:[我,要,去,北京,上海,南京] One-hot:向量空间只有一个维度是1,其余都是0(缺点:高维度高稀疏) w1=我:[1,0, 阅读全文
posted @ 2020-05-08 21:16 justDoIT& 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 语言模型:是一种计算语句自然程度的算法,通过计算概率来做,举个例子: sent:我想学英语,先将句子分词为:我 想 学 英语,则这个句子的自然程度的计算为p(sent) = p(我)p(想|我)p(学|我,想)p(英语|我,想,学) 但是p(英语|我,想,学)的概率是很难计算的,所以为解决这种问题, 阅读全文
posted @ 2020-04-27 17:17 justDoIT& 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 随机森林,是指用随机的方式建立一个森林,森林里面有许多决策树,且随机森林中的树与树之间是彼此独立的。在得到随机森林后,当有一个新的样本输入的时候,让森林中的每一棵树分别进行计算并进行统计汇总,得分最多的那个结果为最终的结果。随机森林既可以处理属性为离散值的样本(ID3算法),也可以处理属性为连续值的 阅读全文
posted @ 2020-04-22 23:27 justDoIT& 阅读(534) 评论(0) 推荐(0) 编辑
摘要: 简介 lightGBM和XGBoost都是对GBDT模型的进化版本,原理上它和GBDT类似,也是采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。 GBDT既可以基于预排序特征值进行特征选取(可以忽略特征零值降低训练成本),也可以基于直方图进行特征选取。但是GBDT在使用直方图进行特 阅读全文
posted @ 2020-04-22 22:44 justDoIT& 阅读(821) 评论(0) 推荐(0) 编辑
摘要: 集成学习 集成学习分为bagging和boosting两类,典型的bagging有随机森林等,典型的boosting有gbdt和adaboost等(xgboost和lightGBM都是基于gbdt的高效实现,在我的另外两篇博文中都有介绍)。 bagging与boosting的区别如下所述: 共同点: 阅读全文
posted @ 2020-04-21 14:35 justDoIT& 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 独热编码 即one-hot编码,nlp中,假设我们有一个词典,包含所有需要的词语,共V个,如果想将文字符号转换成向量表示,one-hot就是一种当前词是1其他词是0的表示方法,其维度是V*1维。举例如下:假设我们祥表示“鼠标”这个词,该词在词典中处于第一个位置,则“鼠标”的one-hot编码为:[1 阅读全文
posted @ 2020-04-20 17:53 justDoIT& 阅读(865) 评论(0) 推荐(0) 编辑