yyxayz

2015年3月8日

摘要：在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录：1. 欧氏距离2. 曼... 阅读全文

posted @ 2015-03-08 11:27 yyxayz 阅读(279) 评论(0) 推荐(0) 编辑

2015年1月24日

ubuntu 安装JDK

摘要：首先将*.tar.gz解压具体方法为：tar -xzvf *.tar.gz假设得到的文件夹为java将其移动到/usr/中命令为：sudo mv java /usr/然后设置环境变量：sudo gedit /etc/profile打开文件在结尾处umask 022前，输入： export JAVA... 阅读全文

posted @ 2015-01-24 15:46 yyxayz 阅读(131) 评论(0) 推荐(0) 编辑

2015年1月12日

pandas 代码

摘要： 1 def get_train_data(): 2 df = pd.read_csv('data/train.csv', encoding='utf_8') 3 4 # df1 = pd.read_csv('data/test.csv', encoding='utf_8') 5 #... 阅读全文

posted @ 2015-01-12 14:53 yyxayz 阅读(343) 评论(0) 推荐(0) 编辑

2015年1月8日

pandas 常用统计方法

摘要：统计方法pandas 对象有一些统计方法。它们大部分都属于约简和汇总统计，用于从 Series 中提取单个值，或从 DataFrame 的行或列中提取一个 Series。比如 DataFrame.mean(axis=0,skipna=True) 方法，当数据集中存在 NA 值时，这些值会被简单跳过，... 阅读全文

posted @ 2015-01-08 19:43 yyxayz 阅读(7029) 评论(0) 推荐(0) 编辑

2015年1月6日

python内置函数map/reduce/filter

摘要： python有几个内置的函数很有意思：map/filter/reduce，都是对一个集合进行处理，filter很容易理解用于过滤，map用于映射，reduce用于归并. 是python列表方法的三架马车。filter() 函数:filter函数的功能相当于过滤器。调用一个布尔函数bool_func... 阅读全文

posted @ 2015-01-06 22:36 yyxayz 阅读(343) 评论(0) 推荐(0) 编辑

2014年12月20日

详解SQL Server连接（内连接、外连接、交叉连接）

摘要：在查询多个表时，我们经常会用“连接查询”。连接是关系数据库模型的主要特点，也是它区别于其它类型数据库管理系统的一个标志。什么是连接查询呢？概念：根据两个表或多个表的列之间的关系，从这些表中查询数据。目的：实现多个表查询操作。知道了连接查询的概念之后，什么时候用连接查询呢？一般是用作关... 阅读全文

posted @ 2014-12-20 23:04 yyxayz 阅读(429) 评论(0) 推荐(0) 编辑

2014年12月11日

什么是SAD，SAE，SATD，SSD，SSE，MAD，MAE，MSD，MSE？

摘要： SAD（Sum of Absolute Difference）=SAE（Sum of Absolute Error)即绝对误差和SATD（Sum of Absolute Transformed Difference）即hadamard变换后再绝对值求和SSD（Sum of Squared Diffe... 阅读全文

posted @ 2014-12-11 23:07 yyxayz 阅读(3436) 评论(0) 推荐(0) 编辑

数据挖掘算法源代码：很好的参考资料

摘要： kaggle上近一段时间数据挖掘竞赛的获奖队伍的源代码，对掌握相应的数据挖掘技术很有帮助。这些代码和技术都是经过竞赛实际检验的，比很多华而不实的学术论文要接地气得多。学习和实践起来也更方便Kaggle Competition Past Solutions2 Replies[edit: last up... 阅读全文

posted @ 2014-12-11 15:30 yyxayz 阅读(805) 评论(0) 推荐(0) 编辑

2014年12月10日

python linecache模块读取文件用法详解

摘要： linecache模块允许从任何文件里得到任何的行，并且使用缓存进行优化，常见的情况是从单个文件读取多行。linecache.getlines(filename)从名为filename的文件中得到全部内容，输出为列表格式，以文件每行为列表中的一个元素,并以linenum-1为元素在列表中的位置存储l... 阅读全文

posted @ 2014-12-10 21:22 yyxayz 阅读(709) 评论(0) 推荐(0) 编辑

python读取文件指定行

摘要： import linecachefile=open('3_2.txt','r')linecount=len(file.readlines())linecache.getline('3_2.txt',linecount)这样做的过程中发现一个问题，因为我的脚本是循环读取3_2.txt文件，当3_2.t... 阅读全文

posted @ 2014-12-10 20:47 yyxayz 阅读(3849) 评论(0) 推荐(0) 编辑

公告