摘要:
项目目前主要关注中文文本的数据挖掘算法。由于每种数据挖掘算法的局限性都很大,就拿分类算法一样,决策树、朴素贝叶斯这两种算法都有着自己的特性,只能在某一种类型的类型的数据上应用比较良好,比如朴素贝叶斯,就对于那些短文本的分类比较适合,而决策树对于短文本、稀疏情况下就效果欠佳了,特别是在数据比较稀疏的情况。在这种情况下,当有一个数据挖掘任务的时候,怎样去找到一个合适的算法就非常重要了。如果从头开发算法,是一个成本很高的事情,特别是对文本来说就更麻烦,需要在前面做一些如分词、去停用词等等操作。如果有一个平台,可以支持快速的开发,让用户能够快速的看到,针对自己的数据,什么样的算法比较合适,就是本项目的一个初衷。 阅读全文
最新评论
- 1. Re:机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
太牛了博主
- --lllbbbbh
- 2. Re:机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)
同求书,811180575@qq.com,谢谢啦
- --meng666
- 3. Re:TensorFlow 源代码初读感受
建模为图可不是TF的创意……至少我知道老早的Theano就是这么搞的了; TF被PyTorch超越,基本也说明这套架构是失败的
- --只读文件
- 4. Re:机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)
非常感谢分享对于我这种追求数学理解的人来说,这类文章太有帮助了~~
- --姜子牙会更好
- 5. Re:也谈谈内卷化、996和程序员的发展
写得非常好,结合我以前的经历,很有感触。我自己也走了一些弯路。
- --程鑫