文本分类收集的好用blog
文本分类的流程:
文本预处理项目:
1.https://www.cnblogs.com/jiangxinyang/p/10207482.html
利用深度学习进行文本分类的blog。我直接用的text CNN可以直接运行。
2.https://blog.csdn.net/u010297828/article/details/50465263
垃圾短信分类
3.http://xccds1977.blogspot.com/2015/05/word2vec.html
word2vec进行分类。这个求平均的,不是作为神经网络的输入。
4.https://zmister.com/archives/173.html
垃圾短信
垃圾CSDN,要会员了。
6.https://zhuanlan.zhihu.com/p/26729228
比较好玩的一篇实战
文本分类需要用到的一些基本概念:
1.https://www.cnblogs.com/wangbogong/p/3211833.html
文本表示-空间向量模型,词袋模型。是最基础的一种。
2.https://www.cnblogs.com/wangbogong/p/3251132.html
特征选择。对空间向量模型的一种优化。
3.https://www.jiqizhixin.com/articles/2018-07-25-5
中文NLP的一些概念性的介绍。需要详细了解下。
4.http://www.jeyzhang.com/text-classification-in-action.html
特征工程。多个特征提取没太懂。
5.
一、文本预处理
主要就是包含结巴分词。
爬虫模块:scrapy。
1.https://docs.scrapy.org/en/latest/topics/architecture.html#topics-architecture
这个是scrapy的整个流程图,有助于理解scrapy
2.https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#find
beautiful soup 解析
二、特征选择
1.http://sklearn.lzjqsdd.com/modules/feature_extraction.html
基于skleran中一些实现,利用空间向量模型,对文本进行转换。
2.https://zhuanlan.zhihu.com/p/33779124
也是基于sklearn的一些特征提取。几个函数的使用非常重要。
3.https://blog.csdn.net/tianbwin2995/article/details/51693396
还是基于sklearn实现词袋模型。
4.https://blog.csdn.net/u014595019/article/details/52433754
结合genssim和sklearn库进行特征提取。
5.
三、模型训练
四、深度学习
1.https://www.cnblogs.com/subconscious/p/5058741.html
神经网络入门
2.https://www.cnblogs.com/subconscious/p/4107357.html
继续入门
3.https://www.zhihu.com/question/22553761/answer/126474394
再来
4.https://www.sohu.com/a/235924191_633698
BP反向传播
5.https://blog.csdn.net/u014303046/article/details/78200010#351__296
继续BP
6.https://zhuanlan.zhihu.com/p/21930884
深入想了解神经网络
7.https://blog.csdn.net/weixin_42137700/article/details/84302045
一些基本概念
神经网络需要知道,什么是随机梯度下降,这些。。很基础的。
五、word2vec
1.https://xiaosheng.me/2017/06/05/article67/
统计语言模型,very important
2.https://blog.csdn.net/qq_39422642/article/details/78658309
词向量发展历程
3.https://blog.csdn.net/leadai/article/details/81369884
还是词向量发展
4.https://blog.csdn.net/a635661820/article/details/44130285
NNLM原理
5.https://www.cnblogs.com/ooon/p/5558119.html
NNLM和word2vec
6.https://spaces.ac.cn/archives/4299
word2vec原理 推荐
7.https://blog.csdn.net/itplus/article/details/37969817
word2vec 推荐,不过上面那个url有这个pdf下载。
8.https://blog.csdn.net/Z4a9Gx/article/details/80268126
word2vec原理
9.https://blog.csdn.net/shuihupo/article/details/85156544
训练word2vec
六、text CNN
原理介绍
2.http://www.52nlp.cn/tag/textcnn
text CNN
3.https://me.csdn.net/mytestmy
个人空间
忘了为什么保存了。
4.
七、一些算法介绍
1.https://www.cnblogs.com/zhoukui/p/8584085.html
包含了一些常见的机器算法实现,可以根据这个进行更改。k-近邻算法、朴素贝叶斯、逻辑回归、K-均值聚类其思想有及 python 代码实现。
2.https://github.com/csuldw/MachineLearning/tree/master/Kmeans
kmeans 算法代码实现。
3.
八、模型评估
https://blog.csdn.net/sinat_26917383/article/details/75199996