摘要: 机器学习中的数据不平衡问题最近碰到一个问题,其中的阳性数据比阴性数据少很多,这样的数据集在进行机器学习的时候会使得学习到的模型更偏向于预测结果为阴性。查找了相关的一些文献,了解了一些解决这个问题的一些方法和技术。首先,数据集不平衡会造成怎样的问题呢。一般的学习器都有下面的两个假设:一个是使得学习器的... 阅读全文
posted @ 2014-08-20 14:21 佳儿mickey 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 声明:转自人人网三.如何进行文献阅读其实做科研,不看文献要做好科研,可以说一点可能都没有。只有广看论文,深入学习,才能厚积薄发,写出响当当的文章出来。读文献一定不要心浮气躁,或者就是想着混个毕业。相反我们要沉下心来,大量阅读文献,在读的过程中有的文献看懂了,但是看不懂的文献也可能会居多。看懂的认真学... 阅读全文
posted @ 2014-08-19 18:40 佳儿mickey 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 文本分类现已比较成熟,各类开源工具不少,现推荐几个比较常用简单的工具:1、scikit-learn:http://scikit-learn.org/stable/index.html python编写调用,里面有各种分类算法svm、随机森林、贝叶斯等,和特征提取,如字、ngram等,几行代码便可以构... 阅读全文
posted @ 2014-08-18 16:03 佳儿mickey 阅读(547) 评论(0) 推荐(0) 编辑
摘要: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 又有很长的一段时间没有更新博客了,距离上次更新已经有两个月的时间了。其中一个很大的原因是... 阅读全文
posted @ 2014-07-22 11:13 佳儿mickey 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 原文出处:http://blog.csdn.net/amblue/article/details/17023485 在NLP和机器学习中经常会遇到这两种显著不同的模型,在学习阶段(训练阶段)和评估阶段(测试阶段)都有不同的表现总结一下它们之间的区别,欢迎补充:1. 二者最本质的区别是建模对象不同 假... 阅读全文
posted @ 2014-07-22 10:15 佳儿mickey 阅读(548) 评论(0) 推荐(0) 编辑
摘要: 今天我在写关于处理中文的正则表达式,作为初学者走了点弯路,特此把我的经验分享给大家,有什么不对欢迎不吝赐教。我要写的关于匹配类似“我想和某某语音聊天”内容的匹配,首先1,得明确一点:在中文里面不能如你期望那样字符串型处理正则如“[帮我|我想]”其实等价于“[帮|我|我|想]”或者“[帮我我想]”因为正则是按字符而不是串形式处理括号里面内容的。2,Expresso正则表达式检测器的使用。这个软件除了可以检测对否以外,还具有分析正则表达式的功能,也许你多了个点或者空格也或者中文条件下输入等小错误都可以分析出来。3,可以把第三条当作是废话忽略不看。遇到问题须沉下去钻研出问题的本质出在哪里了。End 阅读全文
posted @ 2014-03-15 19:51 佳儿mickey 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 最初的原因只是在已经安装Java环境下安装Gate时提醒我要安装Java,但命令行和Eclipse都没问题,偏偏它有问题。然后就重新下载Gate,请师兄帮忙暂时躲避了安装时的提醒框,选择用命令行安装(java -jar *.jar,其中*是下载的包名),安装时安装上去了,以为万事大吉麻烦就此终结了呢,结果一打开运行发现又返璞归真回到原始状态去了。。不行,那就卸载原来JDK,重新下载个。在orcale上重新下载了一个跟自己电脑匹配的版本,发现鼠标点击单击双击都没反应,顿时间我跪了。啊,安装一个软件花了我那么多时间,上火啊。第二天,终于把这个问题解决了虽然解决过程中很不忍直视。我一直认死理在or. 阅读全文
posted @ 2014-03-10 23:33 佳儿mickey 阅读(292) 评论(2) 推荐(1) 编辑
摘要: 为什么要设置Java环境变量(详解) 从大二开始接触Java,之后是断断续续的学习。大三真正开始Java之旅,估计大部分初学者在学Java时被Java的环境变量搞的晕头转向,虽然找到了正确设置环境变量的方式,但其中的原因一知半解,设置压根不知道是何原因。 今天为止对环境变量的设置还不是很懂,而且网上的大部分资料几乎都是设置方法,没有说原因。今天学Linux,遇到了Java环境变量的设置,无意间找到了详细透彻讲解Java环境变量的设置。 “ 1. PATH环境变量。作用是指定命令搜索路径,在shell下面执行命令时,它会到PATH变量所指定的路径中查找看是否能找到相应的命令程序。我们需要... 阅读全文
posted @ 2014-03-01 11:43 佳儿mickey 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 2014年科学数据大会在国科大雁西湖校区如期顺利举行,很幸运作为对这一领域有很强兴趣的学生在这个校区上课有着天时地利人和的优势参加了会议。以下是我的几点感悟:1、 大数据是一种思想理念引导技术变革但不能作为技术的革新基础。的确随着互联网发展和web2.0用户个性化服务的应用,网络上存在着许多大量的数据资源可供挖掘,但并不只是披着“大数据”的新旗号做着仍旧原来一成不变的研究。想要革大数据的命,得有过硬的技术和深邃的大数据理念。2、 大数据关键在于数据,数据重要性无可替代。目前基于大数据的研究首当其冲谈到的就是数据的获取。而数据的搜集方式以及处理,更重要的是如何提取有用的价值信息都需要不断创新和探 阅读全文
posted @ 2014-02-26 18:28 佳儿mickey 阅读(142) 评论(0) 推荐(0) 编辑