摘要: 前面一篇随笔介绍了基于协同过滤的推荐系统的基本思想及其python实现,本文是上一篇的续集。本文先介绍评价推荐系统的离线指标,稍后主要讨论基于矩阵分解的LFM模型。 评价推荐系统的离线指标 1、F值得分 推荐系统的目的是为客户提供可能喜欢(购买)的产品,但从本质上来说是一个聚类的过程(对客户聚类或者 阅读全文
posted @ 2017-03-12 21:39 雁渡的寒潭 阅读(12093) 评论(1) 推荐(2) 编辑
摘要: 前言:由于近期项目上在开发一个销售管理系统,里面涉及到一个基于用户的产品给推荐算法,之前也对推荐系统有比较系统地了解,因此本文及接下来的几篇文章将详细推荐系统的思想及其多中实现方法,本篇将主要介绍基于系统过滤的推荐系统及其Python实现。 1、协同过滤思想 协同过滤(collabrotive fi 阅读全文
posted @ 2017-03-02 20:46 雁渡的寒潭 阅读(3223) 评论(0) 推荐(0) 编辑
摘要: 前段时间玩Python时无意看到了获取股票交易数据的tushare模块,由于自己对股票交易挺有兴趣,加上现在又在做数据挖掘工作,故想先将股票数据下载到数据库中,以便日后分析: python 获取数据库现有数据的时间日期 def get_old_date(): con = engine.connect 阅读全文
posted @ 2017-02-06 22:45 雁渡的寒潭 阅读(13668) 评论(0) 推荐(0) 编辑
摘要: 由于本科在校期间身边有许多朋友是金融专业的,他们时长在我耳边谈起股票情况,受他们影响,耳濡目染地对证券时长有了兴趣。毕业前几个月找实习单位时,又机缘巧合地在这方面工作了一段时间,学习了证券交易的各种理论(道氏理论、日本蜡烛图技术、波浪理论等),虽然后期转行做了本专业工作(数据挖掘),但对证券交易这块 阅读全文
posted @ 2017-02-06 22:18 雁渡的寒潭 阅读(11073) 评论(1) 推荐(0) 编辑
摘要: 上一篇文章讲了PCA的数据原理,明白了PCA主要的思想及使用PCA做数据降维的步骤,本文我们详细探讨下另一种数据降维技术—奇异值分解(SVD)。 在介绍奇异值分解前,先谈谈这个比较奇怪的名字:奇异值分解,英文全称为Singular Value Decomposition。首先我们要明白,SVD是众多 阅读全文
posted @ 2017-01-15 13:27 雁渡的寒潭 阅读(945) 评论(0) 推荐(0) 编辑
摘要: PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的 阅读全文
posted @ 2017-01-07 16:31 雁渡的寒潭 阅读(2875) 评论(0) 推荐(0) 编辑
摘要: 原文出处:http://tech.meituan.com/mt-mlinaction-how-to-ml.html 前言 随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于 阅读全文
posted @ 2017-01-02 12:53 雁渡的寒潭 阅读(1027) 评论(0) 推荐(0) 编辑
摘要: 写在前面 今天是2017年1月1日元旦节,作为新年第一天,往往想到的是对过去一年的总结及对新年的规划,回想这些年从学校出来工作生涯,以及自己在机器学习工作中的一些积累,觉得是时候将机器学习中的一些知识整理出来,一方面可以对自己的知识及技能作梳理,另一方面在此呈现可以为正在学习该方面知识的人的一些参考 阅读全文
posted @ 2017-01-02 10:42 雁渡的寒潭 阅读(376) 评论(0) 推荐(0) 编辑
摘要: 在机器学习问题中,我们根绝解决的问题将机器学习算法归纳为三类:回归(regression)问题、分类(classification)问题及聚类(clustering)问题。作为机器学习三大解决的三大问题之一的回归问题,前辈们做了很多深入的研究,尤其是回归问题的两类难点问题(多重共线性及特征选择),在 阅读全文
posted @ 2016-10-17 15:01 雁渡的寒潭 阅读(1322) 评论(0) 推荐(0) 编辑
摘要: 原文出处: daniel-D 的博客(@迅猛龙Daniel ) 在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不 阅读全文
posted @ 2016-10-17 10:11 雁渡的寒潭 阅读(426) 评论(0) 推荐(0) 编辑