Loull

美国队长

2014-04-08 19:29 by Loull, 413 阅读, 0 推荐, 收藏, 编辑

摘要：从美队1里的初长成到复联里的战术领导再到美队2里的核心领袖，史蒂夫罗杰斯将在未来是艰苦斗争中领导复仇者们共同对抗邪恶势力史蒂夫为什么能成为复仇者乃至整个美国的正义领袖，在电影复联里很过观众吐槽美国队长实力太弱，弱的可能抵不过钢铁侠的一拳被打飞！但是，美队2里我们一起见证了史蒂夫所蕴含的能量，一种能将人心凝聚到一起、一种能让身边的队友、兄弟、手下完全信任毫无顾忌的将命交给你的信任，最后大战前的演讲能将神盾局的成员凝聚到一起共同对抗九头蛇邪恶组织，可能会有人质疑，仅仅次演讲就能说服神盾局？也许很多人没发现，史蒂夫罗杰斯这个人物已经在电影中的每个美国人所熟知所崇拜所敬仰，我们在笑斯坦李的... 阅读全文

0 Comment

weka数据预处理

2014-04-03 23:09 by Loull, 11407 阅读, 0 推荐, 收藏, 编辑

摘要：Weka数据预处理(一)对于数据挖掘而言，我们往往仅关注实质性的挖掘算法，如分类、聚类、关联规则等，而忽视待挖掘数据的质量，但是高质量的数据才能产生高质量的挖掘结果，否则只有"Garbage in garbage out"了。保证待数据数据质量的重要一步就是数据预处理（Data Pre-Processing），在实际操作中，数据准备阶段往往能占用整个挖掘过程6~8成的时间。本文就weka工具中的数据预处理方法作一下介绍。Weka 主要支持一种ARFF格式的数据，含有很多数据过滤方法。关于ARFF格式文件，可以在此处了解详情。Weka的数据预处理又叫数据过滤，他们可以在wek 阅读全文

0 Comment

weka特征选择（IG、chi-square)

2014-04-03 23:01 by Loull, 3303 阅读, 0 推荐, 收藏, 编辑

摘要：一、说明 IG是information gain 的缩写，中文名称是信息增益，是选择特征的一个很有效的方法（特别是在使用svm分类时）。这里不做详细介绍，有兴趣的可以googling一下。 chi-square 是一个常用特征筛选方法，在种子词扩展那篇文章中，有详细说明，这里不再赘述。二、weka中的使用方法 1、特征筛选代码package com.lvxinjian.alg.models.feature;import java.nio.charset.Charset;import java.util.ArrayList;import weka.attributeSelection.AS... 阅读全文

0 Comment

生成arff文件，csv转为arff

2014-04-03 23:00 by Loull, 5696 阅读, 0 推荐, 收藏, 编辑

摘要：一、什么是arff格式文件 1、arff是Attribute-Relation File Format缩写，从英文字面也能大概看出什么意思。它是weka数据挖掘开源程序使用的一种文件模式。由于weka是个很出色的数据挖掘开源项目，所以使用的比较广，这也无形中推广了它的数据存储格式。 2、下面是weka自带的一个arff文件例子（weather.arff） 1 @relation weather 2 3 @attribute outlook {sunny, overcast, rainy} 4 @attribute temperature real 5 @attribute humidit... 阅读全文

0 Comment

logistic regression的一些问题，不平衡数据，时间序列，求解惑

2014-04-03 22:52 by Loull, 1958 阅读, 1 推荐, 收藏, 编辑

摘要：Logistic Regression1、在有时间序列的特征数据中，怎么运用LR？不光是LR，其他的模型也是。有很多基本的模型变形之后，变成带时序的模型。但，个人觉得，这类模型大多不靠谱。我觉得还是要从业务出发，同时探测分析数据，得出比较合理的假设，然后提取特征，这些特征可以含有时间信息，但不一定是时序的。比如，前N天其他特征的统计组合等。可以参考：Logistic regression for time seriesQ: I would like to use a binary logistic regression model in the context of streaming da. 阅读全文

0 Comment

Feature Scaling

2014-04-03 22:27 by Loull, 513 阅读, 0 推荐, 收藏, 编辑

摘要：定义：Feature scaling is a method used to standardize the range of independent variables or features of data. In data processing, it is also known as data normalization and is generally performed during the data preprocessing step.（来源于wikipedia）简单来说，它主要用来把所有特征值范围映射至同样的范围里面如（0,1）、（-1,1）、（-0.5,0.5）等。Feat 阅读全文

0 Comment

【转】机器学习问题方法总结

2014-03-27 16:16 by Loull, 525 阅读, 0 推荐, 收藏, 编辑

摘要：大类名称关键词有监督分类决策树信息增益分类回归树Gini指数，Χ2统计量，剪枝朴素贝叶斯非参数估计，贝叶斯估计线性判别分析Fishre判别，特征向量求解K最邻近相似度度量：欧氏距离、街区距离、编辑距离、向量夹角、Pearson相关系数逻辑斯谛回归（二值分类）参数估计（极大似然估计）、S型函数径向基函数网络非参数估计、正则化理论、S型函数对偶传播网络无导师的竞争学习、有导师的Widrow-Hoff学习学习向量量化网络一个输出层细胞跟几个竞争层细胞相连误差反向传播网络S型函数、梯度下降法支持向量机（二值分类）二次规化，Lagrange乘数法，对偶问题，最优化，序列最小优化，核技巧单层感知器只具有线阅读全文

0 Comment

Canopy算法聚类

2014-03-24 22:52 by Loull, 6648 阅读, 0 推荐, 收藏, 编辑

摘要：Canopy一般用在Kmeans之前的粗聚类。考虑到Kmeans在使用上必须要确定K的大小，而往往数据集预先不能确定K的值大小的，这样如果 K取的不合理会带来K均值的误差很大（也就是说K均值对噪声的抗干扰能力较差）。总之基于以下三种原因，选择利用Canopy聚类做为Kmeans的前奏比较科学、也是Canopy的优点。一、canopy算法的优缺点Canopy的优点：1、Kmeans对噪声抗干扰较弱，通过Canopy对比较小的NumPoint的Cluster直接去掉有利于抗干扰。2、Canopy选择出来的每个Canopy的centerPoint作为Kmeans比较科学。 3、只是针对每个C.. 阅读全文

0 Comment

ROC曲线及AUC评价指标

2014-03-24 20:51 by Loull, 1679 阅读, 0 推荐, 收藏, 编辑

摘要：很多时候，我们希望对一个二值分类器的性能进行评价，AUC正是这样一种用来度量分类模型好坏的一个标准。现实中样本在不同类别上的不均衡分布(class distribution imbalance problem)，使得accuracy这样的传统的度量标准不能恰当的反应分类器的性能。举个例子：测试样本中有A类样本90个，B 类样本10个。若某个分类器简单的将所有样本都划分成A类，那么在这个测试样本中，它的准确率仍为90%，这显示是不合理的。为了解决上述问题，人们从医疗分析领域引入了一种新的分类模型performance评判方法——ROC分析。在介绍ROC之前，首先讨论一下混淆矩阵（Confusio 阅读全文

0 Comment

评估指标：准确率(Precision)、召回率(Recall)以及F值(F-Measure)

2014-03-24 20:18 by Loull, 9354 阅读, 2 推荐, 收藏, 编辑

摘要：为了能够更好的评价IR系统的性能，IR有一套完整的评价体系，通过评价体系可以了解不同信息系统的优劣，不同检索模型的特点，不同因素对信息检索的影响，从而对信息检索进一步优化。由于IR的目标是在较短时间内返回较全面和准确的信息，所以信息检索的评价指标通常从三个方面考虑：效率、效果和其他如数据规模。下面简单介绍几种常用的信息检索评价指标：1、准确率与召回率（Precision & Recall）精度和召回率是广泛用于信息检索和统计学分类领域的两个度量值，用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率；召回率是指检索出的相关文档数和文档库中所阅读全文

0 Comment

Java堆

2014-03-17 14:09 by Loull, 304 阅读, 0 推荐, 收藏, 编辑

摘要：1. Java堆的内存是由操作系统分配给JVM的内存部分。2. Java的对象是在堆中创建3. Java堆空间为了垃圾回收分为三个区域或代，叫做新代，年老代和永久代。在Hotspot JVM中永久代在full gc时被垃圾回收。4. 您可以使用JVM命令行选项-XMS，-Xmx和-Xmn为增加或改变... 阅读全文

0 Comment

"淘宝推荐系统简介"分享总结

2014-03-12 18:26 by Loull, 1890 阅读, 0 推荐, 收藏, 编辑

摘要：概述：此分享是关于淘宝推荐系统简介1.推荐引擎就是：如何找到用户感兴趣的东西和以什么形式告诉用户；2.推荐引擎的作用：提高用户忠诚度，提高成交转化率和提高网站交叉销售能力；3.推荐系统核心：产品，系统和算法；4.推荐系统产品形式：邮件营销，群体信息披露，趋势引导，评论、资讯推荐和相关商品、店铺、达人推荐；5.推荐系统系统组成：数据，算法，消息系统，Search engine，NoSQL，分布式计算和效果评测；6.算法包括离线：用户类目偏好、用户购买力分析、关联性分析和在线：排序、过滤、增量计算7.分布式计算包括：大规模数据统计，运算和大数据集合的ETL；8.效果评测衡量指标：CTR GMV. 阅读全文

0 Comment

混合推荐技术总结

2014-03-12 17:09 by Loull, 2539 阅读, 0 推荐, 收藏, 编辑

摘要：完全转载自：阿俊的博客混合推荐系统是推荐系统的另一个研究热点，它是指将多种推荐技术进行混合相互弥补缺点，从而可以获得更好的推荐效果。最常见的是将协同过滤技术和其他技术相结合，克服cold start的问题。（1）加权型就是将多种推荐技术的计算结果加权混合产生推荐。最简单的方式是线性混合，首先将协同过滤的推荐结果和基于内容的推荐结果赋予相同的权重值，然后比较用户对项的评价与系统的预测是否相符，然后调整权重值。加权型混合方式的特点是整个系统性能都直接与推荐过程相关，这样一来就很容易在这之后斤西瓜信任分配和调整相应的混合模型，不过这种技术有一个假设的前提是对于整个空间中所有可能的项，使用不同技术的相阅读全文

0 Comment