农夫三拳有點疼

word2vec

摘要：在word2vec出现之前，自然语言处理经常把字词转为one-hot编码类型的词向量，这种方式虽然非常简单易懂，但是数据稀疏性非常高，维度很多，很容易造成维度灾难，尤其是在深度学习中；其次这种词向量中任意两个词之间都是孤立的，存在语义鸿沟（这样就不能体现词与词之间的关系）而有Hinton大神提出的D 阅读全文

posted @ 2019-09-16 08:43 农夫三拳有點疼阅读(250) 评论(0) 推荐(0) 编辑

bootstraping、bagging、boosting概念及区别

摘要： Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确说这是一种分类算法的组装方法。即将弱分类器组装成强分类器方法。一、 booststraping 是依靠你自己的资源，称为自助法，它是一种有放回的抽样方法，它是非参数统计中一种重要的估阅读全文

posted @ 2019-09-12 14:21 农夫三拳有點疼阅读(1417) 评论(0) 推荐(1) 编辑

知识图谱简单理解

摘要：目录：概论什么是知识图谱知识图谱的表示知识抽取知识图谱的存储金融知识图谱的搭建定义具体的业务问题数据收集 & 预处理知识图谱的设计把数据存入知识图谱上层应用的开发知识图谱在其他行业中的应用实践上的几点建议结语 1. 概论随着移动互联网的发展，万物互联成为了可能，这种互联阅读全文

posted @ 2019-09-12 13:20 农夫三拳有點疼阅读(540) 评论(0) 推荐(0) 编辑

基于LR的新闻文本分类

摘要：本项目是基于jieba、TfidfVectorizer、LogisticRegression的搜狐新闻文本分类，jieba中文叫做结巴，是一款中文分词工具，TfidfVectorizer中文叫做词袋向量化模型，是用来文章内容向量化的工具，LogisticRegression中文叫做逻辑回归模型，是一阅读全文

posted @ 2019-09-10 16:45 农夫三拳有點疼阅读(777) 评论(0) 推荐(1) 编辑

pickle模块使用

摘要：在机器学习中，我们常常需要把训练好的模型存储起来，这样在进行决策时直接将模型读出，而不需要重新训练模型，这样就大大节约了时间。Python提供的pickle模块就很好地解决了这个问题，它可以序列化对象并保存到磁盘中，并在需要的时候读取出来，任何对象都可以执行序列化操作。 Pickle模块中最常用的函阅读全文

posted @ 2019-09-10 16:22 农夫三拳有點疼阅读(146) 评论(0) 推荐(0) 编辑