随笔分类 - 机器学习
摘要:TF-IDF 计算公式(一个词的 tf-idf 值在不同文档,它的值也不同): 1、根据已有的原始数据,只展示了前5片文档,content是文档内容,s_words是通过jieba分词将文档划分成了若干个词: 2、统计整个语料库所有词的词频,只计算前5000个高频词的TF-IDF值(因为如果词表太大
阅读全文
摘要:当我们需要加载之前训练的checkpoint的时候,有时候会发现之前能训练的代码无法继续训练。 这时候很有可能加载优化器的步骤在加载模型前面,这样可能会导致优化器的参数仍然在CPU上,因此代码需要由原来改为: #将: optimizer, scheduler = self.get_optimizer
阅读全文
摘要:在跑模型的时候,使用adam,训练了几十个epoch都没有降loss,准确率也没有上升,在使用了不同的优化器比较,使用了不同的初始化参数的方法后,发现需要把adam的学习率降低。 当lr =0.1时,模型准确率5%,lr=0.01、1e-3、3e-4,模型的准确率为17%,然后就是一直没有提升,当我
阅读全文
摘要:Logistics Regression 我们知道线性回归模型可以处理回归问题,但是如何处理分类问题? 对于一个二分类问题,或许我们可以认为w*x+b > 0为正类,其他情况为负类。 那么模型不就变成了:y = f(z) ,z = w*x+b,即 y = f(w*x+b) z大于零就判为正例,小于零
阅读全文
摘要:什么是决策树? 决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。 其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。 使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支
阅读全文
摘要:朴素贝叶斯(Naive Bayes): 根据贝叶斯定理和朴素假设提出的朴素贝叶斯模型。 贝叶斯定理: 朴素假设(特征条件独立性假设): 代入可知朴素贝叶斯模型计算公式: 因为朴素贝叶斯是用来分类任务,因此: 化简可知: 朴素贝叶斯模型除了上式所描述的以外,有三种常用的模型: 1、高斯朴素贝叶斯 2、
阅读全文
摘要:本文通过海伦约会的例子来测试之前写的KDTree的效果,并且探讨了特征是否进行归一化对整个模型的表现的影响。最后发现在机器学习中,特征归一化确实对模型能提供非常大的帮助。 1 from KDTree import KDTree # 参考实现KDtree的随笔 2 from sklearn impor
阅读全文
摘要:KD树是一种分割k维数据空间的数据结构,主要应用于多维空间关键数据的搜索,如范围搜索和最近邻搜索。 KD树使用了分治的思想,对比二叉搜索树(BST),KD树解决的是多维空间内的最近点(K近点)问题。(思想与之前见过的最近点对问题很相似,将所有点分为两边,对于可能横跨划分线的点对再进一步讨论) KD树
阅读全文