文本分类收集的好用blog

文本分类的流程:

文本预处理项目:

1.https://www.cnblogs.com/jiangxinyang/p/10207482.html

利用深度学习进行文本分类的blog。我直接用的text CNN可以直接运行。

2.https://blog.csdn.net/u010297828/article/details/50465263

垃圾短信分类

3.http://xccds1977.blogspot.com/2015/05/word2vec.html

word2vec进行分类。这个求平均的,不是作为神经网络的输入。

4.https://zmister.com/archives/173.html

垃圾短信

5.https://blog.csdn.net/qq_34695147/article/details/81006059#%E7%AC%AC%E4%BA%8C%E5%B1%8A%E6%90%9C%E7%8B%90%E5%86%85%E5%AE%B9%E8%AF%86%E5%88%AB%E5%A4%A7%E8%B5%9B%E5%86%A0%E5%86%9Bluckyrabbit%E5%9B%A2%E9%98%9F%E7%9A%84%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88

垃圾CSDN,要会员了。

6.https://zhuanlan.zhihu.com/p/26729228

比较好玩的一篇实战

 

文本分类需要用到的一些基本概念:

1.https://www.cnblogs.com/wangbogong/p/3211833.html

文本表示-空间向量模型,词袋模型。是最基础的一种。

2.https://www.cnblogs.com/wangbogong/p/3251132.html

特征选择。对空间向量模型的一种优化。

3.https://www.jiqizhixin.com/articles/2018-07-25-5

中文NLP的一些概念性的介绍。需要详细了解下。

4.http://www.jeyzhang.com/text-classification-in-action.html

特征工程。多个特征提取没太懂。

5.

一、文本预处理

主要就是包含结巴分词。

爬虫模块:scrapy。

1.https://docs.scrapy.org/en/latest/topics/architecture.html#topics-architecture

这个是scrapy的整个流程图,有助于理解scrapy

2.https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#find

beautiful soup 解析

 

二、特征选择

1.http://sklearn.lzjqsdd.com/modules/feature_extraction.html

基于skleran中一些实现,利用空间向量模型,对文本进行转换。

2.https://zhuanlan.zhihu.com/p/33779124

也是基于sklearn的一些特征提取。几个函数的使用非常重要。

3.https://blog.csdn.net/tianbwin2995/article/details/51693396

还是基于sklearn实现词袋模型。

4.https://blog.csdn.net/u014595019/article/details/52433754

结合genssim和sklearn库进行特征提取。

5.

 

三、模型训练

四、深度学习

1.https://www.cnblogs.com/subconscious/p/5058741.html

神经网络入门

2.https://www.cnblogs.com/subconscious/p/4107357.html

继续入门

3.https://www.zhihu.com/question/22553761/answer/126474394

再来

4.https://www.sohu.com/a/235924191_633698

BP反向传播

5.https://blog.csdn.net/u014303046/article/details/78200010#351__296

继续BP

6.https://zhuanlan.zhihu.com/p/21930884

深入想了解神经网络

7.https://blog.csdn.net/weixin_42137700/article/details/84302045

一些基本概念

神经网络需要知道,什么是随机梯度下降,这些。。很基础的。

 

五、word2vec

1.https://xiaosheng.me/2017/06/05/article67/

统计语言模型,very important

2.https://blog.csdn.net/qq_39422642/article/details/78658309

词向量发展历程

3.https://blog.csdn.net/leadai/article/details/81369884

还是词向量发展

4.https://blog.csdn.net/a635661820/article/details/44130285

NNLM原理

5.https://www.cnblogs.com/ooon/p/5558119.html

NNLM和word2vec

6.https://spaces.ac.cn/archives/4299

word2vec原理 推荐

7.https://blog.csdn.net/itplus/article/details/37969817

word2vec 推荐,不过上面那个url有这个pdf下载。

8.https://blog.csdn.net/Z4a9Gx/article/details/80268126

word2vec原理

9.https://blog.csdn.net/shuihupo/article/details/85156544

训练word2vec

六、text CNN

1.http://www.hackcv.com/index.php/archives/104/?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io

原理介绍

2.http://www.52nlp.cn/tag/textcnn

text CNN

3.https://me.csdn.net/mytestmy

个人空间

忘了为什么保存了。

4.

 

七、一些算法介绍

1.https://www.cnblogs.com/zhoukui/p/8584085.html

包含了一些常见的机器算法实现,可以根据这个进行更改。k-近邻算法、朴素贝叶斯、逻辑回归、K-均值聚类其思想有及 python 代码实现。

2.https://github.com/csuldw/MachineLearning/tree/master/Kmeans

kmeans 算法代码实现。

3.

八、模型评估

https://blog.csdn.net/sinat_26917383/article/details/75199996

 

posted @ 2019-09-08 20:03  昔时  阅读(230)  评论(0编辑  收藏  举报