随笔分类 -  机器学习

摘要:归一化和标准化是机器学习和深度学习中经常使用两种feature scaling的方式,这里主要讲述以下这两种feature scaling的方式如何计算,以及一般在什么情况下使用。 归一化的计算方式: 上述计算公式可以将特征的值规范在[0, 1]之间,使用归一化来进行feature scaling一 阅读全文
posted @ 2019-09-11 23:37 JieLongZ 阅读(3046) 评论(0) 推荐(0) 编辑
摘要:如何有效的将文本向量化是自然语言处理(Natural Language Processing: NLP)领域非常重要的一个研究方向。传统的文本向量化可以用独热编码(one-hot encoding)、词袋模型(bag-of-words)和TF-IDF等方式,但是以上得到的文本向量可能维度都很高,在一 阅读全文
posted @ 2019-02-21 17:00 JieLongZ 阅读(1055) 评论(0) 推荐(1) 编辑
摘要:分词(Tokenization) - NLP学习(1) N-grams模型、停顿词(stopwords)和标准化处理 - NLP学习(2) 文本向量化及词袋模型 - NLP学习(3-1) 在上一篇博文中,简单地阐述了如何将文本向量化及词袋模型的。文本向量化是为了将文本转换成机器学习算法可以直接处理的 阅读全文
posted @ 2019-02-14 16:48 JieLongZ 阅读(1445) 评论(0) 推荐(1) 编辑
摘要:之前在其他博客文章有提到如何对英文进行分词,也说后续会增加解释我们中文是如何分词的,我们都知道英文或者其他国家或者地区一些语言文字是词与词之间有空格(分隔符),这样子分词处理起来其实是要相对容易很多,但是像中文处理起来就没有那么容易,因为中文字与字之间,词与词之间都是紧密连接在一起的,所以第一件事需 阅读全文
posted @ 2019-02-12 23:39 JieLongZ 阅读(3143) 评论(0) 推荐(0) 编辑
摘要:分词(Tokenization) - NLP学习(1) N-grams模型、停顿词(stopwords)和标准化处理 - NLP学习(2) 之前我们都了解了如何对文本进行处理:(1)如用NLTK文本处理库将文本的句子成分分成了N-Gram模型,与此同时引入了正则表达式去除一些多余的句子成分;(2)将 阅读全文
posted @ 2019-02-11 15:57 JieLongZ 阅读(3058) 评论(1) 推荐(1) 编辑
摘要:在这篇博文中主要介绍下机器学习中的偏差和方差。在实际运用机器学习(或深度学习)模型的过程当中,总是会难免碰到一个问题,就是常说的偏差(Bias)与方差(Variance),及其之间的权衡(Bias-Variance Tradeoff),理解了机器学习中的方差和偏差有助于进一步理解机器学习算法的运作并 阅读全文
posted @ 2018-09-01 14:58 JieLongZ 阅读(1055) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示