摘要:
所有博文目录,欢迎大家参考 阅读全文
摘要:
本文主要讲述基于协同训练的半监督算法做文本分类,用三个差异性比较大的分类器对未标注数据进行标注,它们可以进行交叉验证,大大提升了对未标注数据标记的置信度(简单理解就是三个分类器同时对一个未标注数据标记一样的标签,那么这个标签就可信了),从而提高分类器标注的准确率 阅读全文
摘要:
本文主要讲述小白如何入门自然语言处理 阅读全文
摘要:
本文主要讲述如何对中文文本进行预处理,将原始的中文文本处理成文本向量 阅读全文
摘要:
本文主要讲述的是基于自训练的半监督学习算法做文本分类,自训练算法是半监督学习中比较常见的方法之一,但是自训练方法有一个很大的问题,在迭代过程中,如果初始训练样本集中已标注样本的数量过少,则可能会出现错误标注,并通过迭代使错误逐渐被放大,最终导致错误累积。所以我们采用对未标注样本重复标记策略来优化自训练算法。 阅读全文
摘要:
本文主要介绍xgboost算法的实现。xgboost算法有两种方法可以实现,第一种就是调用sklearn库,第二种就是网上下载的xgboost包。 阅读全文
摘要:
本文主要是基于我自己的学习路径,和大家分享如何系统的学习数据分析,此路可进可退,进可以去做机器学习,如自然语言处理等方向,退可以做数据分析 阅读全文
摘要:
最近在学习linux,把自己学习过程中遇到的常用操作以及一些有助于理解的内容记录下来。我用的是ubuntu系统 阅读全文
摘要:
本文是对中文命名实体识别项目及原理的总结 阅读全文
摘要:
本文主要讲述了用半监督算法做文本分类(二分类) 。先说结论,这是一个失败的例子,训练到第15000条就不行了,就报错了。如果你的数据量不是很大的话,可以操作一下。这里面有很多值得学习的地方,尤其是关于文本的预处理。后续还会更新,把这条路打通。 阅读全文
摘要:
用半监督学习算法做数字识别 阅读全文