摘要: 看了两篇关于社会化推荐的文章1:Factorization vs . Regularization: Fusing Heterogeneous Social Relationships in Top-N Recommendation. RecSys'112:Heterogeneous Data Fusion via Matrix Factorization for Augmenting Item, Group and Friend Recommendations. SAC'133:RecommendingInterestGroups toSocialMediaUsersby I 阅读全文
posted @ 2013-08-08 08:48 huangshanshan 阅读(444) 评论(1) 推荐(0) 编辑
摘要: 数据分析也好,统计分析也好,数据挖掘也好、商业 智能也好都需要在学习的时候掌握各种分析手段和技能,特别是要掌握分析软件工具!我曾经说过,沈老师的学习方法,一般是先学软件开始,再去应用,再学会理 论和原理,因为是老师,再去教给别人!没有软件的方法就不去学了,因为学了也不能做,除非你自己会编程序。那么在数据分析领域,都有哪些软件分析工具呢?如何选择呢?其实很多领域或者说分析方法都有相应的软件工具,只要你想找就应该能够找到!这里我把软件分成纵横四个层次的的象限图来表达!第一维度:数据存储层——>数据报表层——>数据分析层——>数据展现层第二维度:用户级——>部门级——> 阅读全文
posted @ 2013-08-07 09:04 huangshanshan 阅读(401) 评论(0) 推荐(0) 编辑
摘要: 推荐一本书《Cracking the code interview》Now in the 5th edition, Cracking the Coding Interview gives you the interview preparation you need to get the top software developer jobs. This is a deeply technical book and focuses on the software engineering skills to ace your interview. The book is over 500 page 阅读全文
posted @ 2013-07-05 08:29 huangshanshan 阅读(582) 评论(0) 推荐(0) 编辑
摘要: 最近看了一些结合社会关系的推荐系统,把论文罗列一下:(TidalTrust) Generating predictive movie recommendations from trust in social networks. Springer'06Trust-aware recommender systems. RecSys'07TrustWalker: a random walk model for combining trust-based and item-based recommendation.KDD'09(SocialMF) A Matrix Factor 阅读全文
posted @ 2013-07-04 10:29 huangshanshan 阅读(1446) 评论(1) 推荐(0) 编辑
摘要: 转自:http://www.cnblogs.com/wentingtu/archive/2011/12/22/2297426.html如果说K-means和GMM这些聚类的方法是古代流行的算法的话,那么这次要讲的 Spectral Clustering 就可以算是现代流行的算法了,中文通常称为“谱聚类”。由于使用的矩阵的细微差别,谱聚类实际上可以说是一“类”算法。Spectral Clustering 和传统的聚类方法(例如 K-means)比起来有不少优点:和K-medoids类似,Spectral Clustering 只需要数据之间的相似度矩阵就可以了,而不必像 K-means 那样要求 阅读全文
posted @ 2013-07-03 15:35 huangshanshan 阅读(857) 评论(0) 推荐(0) 编辑
摘要: 转自:http://www.cnblogs.com/wentingtu/archive/2012/05/28/2521166.html推荐中对graph model的研究主要有两个方面,一个是如何构图,另一个是如何在图上做ranking。关于构图问题,取决于数据,首先考虑如果我们只有user item的数据,那么最简单的方法就是构造二分图,两类节点,user节点和item节点,如果user喜欢item,就在他们中间连一条边。如果我们有了用户的profile信息,和item的content信息,这个时候又有了很多构图的方法。一种方法是用这些信息计算出user-user相似度和item-item相 阅读全文
posted @ 2013-07-03 15:33 huangshanshan 阅读(948) 评论(0) 推荐(0) 编辑
摘要: Andrew Ng的Machine Learning课程,在网易公开课上有中文版视频http://v.163.com/special/opencourse/machinelearning.html,六维上也有资源可以下载。引言machine learning 定义1:Field of study that gives computers the ability to learn without being explicitly programmed.machine learning 定义2:A computer program is said to learn from experience 阅读全文
posted @ 2013-07-03 11:18 huangshanshan 阅读(350) 评论(0) 推荐(0) 编辑
摘要: Sigmoid函数是一个S型函数. Sigmoid函数的数学公式为:它是常微分方程 的一个解。Sigmoid函数具有如下基本性质:定义域为值域为, 为有界函数函数在定义域内为连续和光滑函数函数的导数为不定积分为,为常数由于Sigmoid函数所具有的性质, 它常和单位阶跃函数用于构造人工神经网络; 另外心理学中的学习曲线的形状也和Sigmoid函数比较类似. 阅读全文
posted @ 2013-06-19 10:49 huangshanshan 阅读(9682) 评论(0) 推荐(1) 编辑
摘要: 1:高斯RBF核函数的定义k(x) = exp(-x^2/(2×sigma))在MATLAB中输入一下代码:ezsurf('exp(-x^2/(2*sigma^2))');在GOOGLE中输入“exp(-(x)^2/(2*y^2)), x is from -10 to 10, y is from -10 to 10”,可以得到三维动画绘图.2.绘制不同sigma下的SVM分离面load fisheriris; xdata = meas(51:end,1:2); group = species(51:end);sigma = 1;svmStruct = svmtrain 阅读全文
posted @ 2013-06-19 10:25 huangshanshan 阅读(11312) 评论(0) 推荐(1) 编辑
摘要: 转自:http://www.vanjor.org/blog/2010/10/cross-validation/交叉验证(Cross-Validation):有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证对于人工智能,机器学习,模式识别,分类器等研究都具有很强的指导与验证意义。基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set 阅读全文
posted @ 2013-06-18 09:48 huangshanshan 阅读(1215) 评论(0) 推荐(0) 编辑