摘要:
平时很多分类问题都会面对样本不均衡的问题,很多算法在这种情况下分类效果都不够理想。类不平衡(class-imbalance)是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有995个、负类样本仅5个 阅读全文
摘要:
当我们在终端或控制台工作时,可能不希望由于运行一个作业而占住了屏幕,因为可能还有更重要的事情要做,比如阅读电子邮件。对于密集访问磁盘的进程,我们更希望它能够在每天的非负荷高峰时间段运行(例如凌晨)。为了使这些进程能够在后台运行,也就是说不在终端屏幕上运行,有几种选择方法可供使用。 & 当在前台运行某 阅读全文
摘要:
总结自《机器学习》周志华 2.3 目录 最常用的是查准率P(precision),查全率R(recall),F1 一、对于二分类问题 二、对于多分类问题 1.macro 2.micro 最常用的是查准率P(precision),查全率R(recall),F1 一、对于二分类问题 混淆矩阵(confu 阅读全文
摘要:
cbow和skip-gram都是在word2vec中用于将文本进行向量表示的实现方法,具体的算法实现细节可以去看word2vec的原理介绍文章。我们这里大体讲下两者的区别,尤其注意在使用当中的不同特点。 在cbow方法中,是用周围词预测中心词,从而利用中心词的预测结果情况,使用GradientDes 阅读全文
摘要:
数据结构:链表、栈、队列:链表插入元素。Huffman树:树的构建。二叉树、平衡二叉树:树的遍历(前序中序后序),查找树中两个元素和为某个值的叶子节点。堆:大(小)顶堆构建,topN的数。排序:冒泡排序,插入排序。查找:二分查找,快速查找。高级数据结构:动态规划、分治算法机器学习: 监督学习算法: 阅读全文
摘要:
前几天在网上看到有人晒一道面试题,写一个函数求平方根,该函数带2个参数,第一个参数是目标数字,第二个参数是精度。即: double sqrt(double target, double g); double sqrt(double target, double g); a = sqrt(t, g); 阅读全文
摘要:
python语言中的列表排序方法有三个:reverse反转/倒序排序、sort正序排序、sorted可以获取排序后的列表。在更高级列表排序中,后两中方法还可以加入条件参数进行排序。 reverse()方法 将列表中元素反转排序,比如下面这样 1 2 3 4 >>> x = [1,5,2,3,4] > 阅读全文
摘要:
转载自:http://blog.csdn.net/wzgbm/article/details/54691615首先给一个简单的例子,测测list和dict查找的时间:import time query_lst = [-60000,-6000,-600,-60,-6,0,6,60,600,6000,6 阅读全文
摘要:
TF-IDF及其算法 概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次 阅读全文
摘要:
上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结: (一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这 阅读全文