会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
炼己者
NLP公众号:ZhangyhPico
博客园
首页
新随笔
联系
管理
[置顶]
目录
摘要: 所有博文目录,欢迎大家参考
阅读全文
posted @ 2018-07-23 20:22 炼己者
阅读(294)
评论(0)
推荐(0)
2018年10月20日
基于协同训练的半监督文本分类算法
摘要: 本文主要讲述基于协同训练的半监督算法做文本分类,用三个差异性比较大的分类器对未标注数据进行标注,它们可以进行交叉验证,大大提升了对未标注数据标记的置信度(简单理解就是三个分类器同时对一个未标注数据标记一样的标签,那么这个标签就可信了),从而提高分类器标注的准确率
阅读全文
posted @ 2018-10-20 12:34 炼己者
阅读(3464)
评论(0)
推荐(2)
2018年10月16日
如何入门自然语言处理
摘要: 本文主要讲述小白如何入门自然语言处理
阅读全文
posted @ 2018-10-16 21:23 炼己者
阅读(838)
评论(0)
推荐(0)
2018年10月13日
中文文本预处理流程(带你分析每一步)
摘要: 本文主要讲述如何对中文文本进行预处理,将原始的中文文本处理成文本向量
阅读全文
posted @ 2018-10-13 22:48 炼己者
阅读(11484)
评论(0)
推荐(4)
2018年9月23日
用半监督算法做文本分类(自训练)
摘要: 本文主要讲述的是基于自训练的半监督学习算法做文本分类,自训练算法是半监督学习中比较常见的方法之一,但是自训练方法有一个很大的问题,在迭代过程中,如果初始训练样本集中已标注样本的数量过少,则可能会出现错误标注,并通过迭代使错误逐渐被放大,最终导致错误累积。所以我们采用对未标注样本重复标记策略来优化自训练算法。
阅读全文
posted @ 2018-09-23 14:41 炼己者
阅读(7826)
评论(5)
推荐(2)
2018年9月22日
xgboost算法教程(两种使用方法)
摘要: 本文主要介绍xgboost算法的实现。xgboost算法有两种方法可以实现,第一种就是调用sklearn库,第二种就是网上下载的xgboost包。
阅读全文
posted @ 2018-09-22 00:00 炼己者
阅读(9952)
评论(0)
推荐(0)
2018年9月21日
零基础如何入门数据分析
摘要: 本文主要是基于我自己的学习路径,和大家分享如何系统的学习数据分析,此路可进可退,进可以去做机器学习,如自然语言处理等方向,退可以做数据分析
阅读全文
posted @ 2018-09-21 21:06 炼己者
阅读(1417)
评论(0)
推荐(0)
2018年9月13日
ubuntu的学习教程(常用操作)
摘要: 最近在学习linux,把自己学习过程中遇到的常用操作以及一些有助于理解的内容记录下来。我用的是ubuntu系统
阅读全文
posted @ 2018-09-13 21:59 炼己者
阅读(7603)
评论(0)
推荐(0)
2018年9月12日
中文命名实体识别总结
摘要: 本文是对中文命名实体识别项目及原理的总结
阅读全文
posted @ 2018-09-12 20:46 炼己者
阅读(5819)
评论(0)
推荐(1)
2018年8月24日
用半监督算法做文本分类
摘要: 本文主要讲述了用半监督算法做文本分类(二分类) 。先说结论,这是一个失败的例子,训练到第15000条就不行了,就报错了。如果你的数据量不是很大的话,可以操作一下。这里面有很多值得学习的地方,尤其是关于文本的预处理。后续还会更新,把这条路打通。
阅读全文
posted @ 2018-08-24 20:07 炼己者
阅读(3534)
评论(1)
推荐(0)
2018年8月23日
sklearn半监督学习
摘要: 用半监督学习算法做数字识别
阅读全文
posted @ 2018-08-23 21:26 炼己者
阅读(5098)
评论(0)
推荐(0)
下一页
公告