摘要:
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼... 阅读全文
摘要:
首先将*.tar.gz解压具体方法为:tar -xzvf *.tar.gz假设得到的文件夹为java将其移动到/usr/中命令为:sudo mv java /usr/然后设置环境变量:sudo gedit /etc/profile打开文件在结尾处umask 022前,输入: export JAVA... 阅读全文
摘要:
1 def get_train_data(): 2 df = pd.read_csv('data/train.csv', encoding='utf_8') 3 4 # df1 = pd.read_csv('data/test.csv', encoding='utf_8') 5 #... 阅读全文
摘要:
统计方法pandas 对象有一些统计方法。它们大部分都属于约简和汇总统计,用于从 Series 中提取单个值,或从 DataFrame 的行或列中提取一个 Series。比如 DataFrame.mean(axis=0,skipna=True) 方法,当数据集中存在 NA 值时,这些值会被简单跳过,... 阅读全文
摘要:
python有几个内置的函数很有意 思:map/filter/reduce,都是对一个集合进行处理,filter很容易理解用于过滤,map用于映射,reduce用于归并. 是python列表方法的三架马车。filter() 函数:filter函数的功能相当于过滤器。调用一个布尔函数bool_func... 阅读全文
摘要:
在查询多个表时,我们经常会用“连接查询”。连接是关系数据库模型的主要特点,也是它区别于其它类型数据库管理系统的一个标志。什么是连接查询呢? 概念:根据两个表或多个表的列之间的关系,从这些表中查询数据。 目的:实现多个表查询操作。知道了连接查询的概念之后,什么时候用连接查询呢? 一般是用作关... 阅读全文
摘要:
SAD(Sum of Absolute Difference)=SAE(Sum of Absolute Error)即绝对误差和SATD(Sum of Absolute Transformed Difference)即hadamard变换后再绝对值求和SSD(Sum of Squared Diffe... 阅读全文
摘要:
kaggle上近一段时间数据挖掘竞赛的获奖队伍的源代码,对掌握相应的数据挖掘技术很有帮助。这些代码和技术都是经过竞赛实际检验的,比很多华而不实的学术论文要接地气得多。学习和实践起来也更方便Kaggle Competition Past Solutions2 Replies[edit: last up... 阅读全文
摘要:
linecache模块允许从任何文件里得到任何的行,并且使用缓存进行优化,常见的情况是从单个文件读取多行。linecache.getlines(filename)从名为filename的文件中得到全部内容,输出为列表格式,以文件每行为列表中的一个元素,并以linenum-1为元素在列表中的位置存储l... 阅读全文
摘要:
import linecachefile=open('3_2.txt','r')linecount=len(file.readlines())linecache.getline('3_2.txt',linecount)这样做的过程中发现一个问题,因为我的脚本是循环读取3_2.txt文件,当3_2.t... 阅读全文