炼己者

摘要：所有博文目录，欢迎大家参考阅读全文

posted @ 2018-07-23 20:22 炼己者阅读(307) 评论(0) 推荐(0)

2018年10月20日

摘要：本文主要讲述基于协同训练的半监督算法做文本分类，用三个差异性比较大的分类器对未标注数据进行标注，它们可以进行交叉验证，大大提升了对未标注数据标记的置信度(简单理解就是三个分类器同时对一个未标注数据标记一样的标签，那么这个标签就可信了)，从而提高分类器标注的准确率阅读全文

posted @ 2018-10-20 12:34 炼己者阅读(3493) 评论(0) 推荐(2)

2018年10月16日

如何入门自然语言处理

摘要：本文主要讲述小白如何入门自然语言处理阅读全文

posted @ 2018-10-16 21:23 炼己者阅读(852) 评论(0) 推荐(0)

2018年10月13日

中文文本预处理流程(带你分析每一步)

摘要：本文主要讲述如何对中文文本进行预处理，将原始的中文文本处理成文本向量阅读全文

posted @ 2018-10-13 22:48 炼己者阅读(11541) 评论(0) 推荐(4)

2018年9月23日

用半监督算法做文本分类(自训练)

摘要：本文主要讲述的是基于自训练的半监督学习算法做文本分类，自训练算法是半监督学习中比较常见的方法之一，但是自训练方法有一个很大的问题，在迭代过程中，如果初始训练样本集中已标注样本的数量过少，则可能会出现错误标注，并通过迭代使错误逐渐被放大，最终导致错误累积。所以我们采用对未标注样本重复标记策略来优化自训练算法。阅读全文

posted @ 2018-09-23 14:41 炼己者阅读(7883) 评论(5) 推荐(2)

2018年9月22日

xgboost算法教程(两种使用方法)

摘要：本文主要介绍xgboost算法的实现。xgboost算法有两种方法可以实现，第一种就是调用sklearn库，第二种就是网上下载的xgboost包。阅读全文

posted @ 2018-09-22 00:00 炼己者阅读(10015) 评论(0) 推荐(0)

2018年9月21日

零基础如何入门数据分析

摘要：本文主要是基于我自己的学习路径，和大家分享如何系统的学习数据分析,此路可进可退，进可以去做机器学习，如自然语言处理等方向，退可以做数据分析阅读全文

posted @ 2018-09-21 21:06 炼己者阅读(1437) 评论(0) 推荐(0)

2018年9月13日

ubuntu的学习教程(常用操作)

摘要：最近在学习linux，把自己学习过程中遇到的常用操作以及一些有助于理解的内容记录下来。我用的是ubuntu系统阅读全文