飞鸟各投林

导航

2016年4月23日 #

21个必知数据科学面试题和答案

摘要: 干货!21个必知数据科学面试题和答案 2016-04-04数盟社区 大数据 大数据 转自:“数盟社区”,本文为数盟原创译文 作者 Gregory Piatetsky, KDnuggets. 原文链接:http://dataunion.org/22397.html 最近KDnuggets上发的“20个 阅读全文

posted @ 2016-04-23 22:51 飞鸟各投林 阅读(717) 评论(0) 推荐(0) 编辑

中国这100个地方,你去过几个?

摘要: 中国这100个地方,你去过几个? 2016-04-02 大数据深度分析 大数据深度分析 世界很大,美景太多 无奈时间太少,钱包太扁 可这100个地方一定要去看看 无关旅行,只是梦想 少去一个,皆是遗憾 1万里长城 2三亚 3三峡大坝 4布达拉宫 5丹霞山 6三清山 7上海外滩夜景 8云南罗平 9五大 阅读全文

posted @ 2016-04-23 22:45 飞鸟各投林 阅读(278) 评论(0) 推荐(0) 编辑

年薪百万的市场人都在读哪些书?

摘要: 经济学 1洞察经济学 1. 《经济学原理》————曼昆 2. 《经济学》————萨繆尔森 3. 《国富论》 ————亚当•斯密 4. 《牛奶可乐经济学》————罗伯特·弗兰克 5. 《经济解释》————张五常 6. 《生活中的经济学》————茅于轼 7. 《经济学通史》————薛兆丰 2经济史通读 阅读全文

posted @ 2016-04-23 22:36 飞鸟各投林 阅读(698) 评论(0) 推荐(0) 编辑

自学成才的数据科学家告诉你5个学习大数据的正确姿势!

摘要: 对于数据科学来说,现在是发展的黄金时期。这是个新领域,但增长迅速,同时数据科学家的缺口也很大,据说他们的平均年薪可以达到10万美元。哪里有高薪,哪里就吸引人们,但是数据科学技能的差距意味着许多人需要努力学习。 第一步当然是询问“我怎么学习数据科学”,这个问题的答案往往是一长串的课程和书籍阅读,从线性 阅读全文

posted @ 2016-04-23 22:26 飞鸟各投林 阅读(665) 评论(0) 推荐(1) 编辑

Deep learning与Neural Network

摘要: 深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习是无监督学习的一种。 深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类 阅读全文

posted @ 2016-04-23 22:20 飞鸟各投林 阅读(520) 评论(0) 推荐(0) 编辑

史上最有魄力公司!20亿主要用于团队建设,要在上海做出一家BAT之外的互联网公司

摘要: 在去年的创业大军里,有一家公司显得很特别——微鲸科技,背靠华人文化,联合阿里巴巴、腾讯和央广,天使轮就高达20亿,是被誉为互联网电视领域的豪华创业团队。 在上市不到半年的时间里,旗下发布的55吋和43吋两款爆款在天猫和京东上陆续跑出销售冠军,今年开春,又迅速连发两款电视产品。 微鲸科技的CEO李怀宇 阅读全文

posted @ 2016-04-23 22:08 飞鸟各投林 阅读(305) 评论(0) 推荐(0) 编辑

CCTV-2《遇见大咖》专访雷军----笔记记录

摘要: 与央视记者约好两点采访,但因为公司会议拖到了三点。雷军对此表示抱歉,解释了一天的行程,并说:“今天不算密的,密的平均一天应该有十一个会。然后我现在基本每天中午饭,大概就是三分钟的时间。” 因为要上镜,化妆的时候,雷军就在跟记者解释自己的匆忙:“我现在的时间表几乎安排不了任何采访,主要是我们还在创业阶 阅读全文

posted @ 2016-04-23 22:04 飞鸟各投林 阅读(4323) 评论(0) 推荐(0) 编辑

推荐系统第6周--- SVD和基于标签的推荐系统

摘要: “隐语义”的真正背景 LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(v 阅读全文

posted @ 2016-04-23 21:46 飞鸟各投林 阅读(353) 评论(0) 推荐(0) 编辑

推荐系统第5周--- 基于内容的推荐,隐语义模型LFM

摘要: 基于内容的推荐 制定分类/属性的困难使用专业人员(编辑)对商品进行整理分类,但这样会产生成本和效率瓶颈受限于编辑的专业水平,编辑的意见未必能代表用户的意见分类的粒度难于控制如果商品有多个分类,很难考虑周全多维度,多规角分类编辑很难决定商品在类别里的权重 隐语义模型 LFM的前丕今生 隐语义模型的适用 阅读全文

posted @ 2016-04-23 21:28 飞鸟各投林 阅读(334) 评论(0) 推荐(0) 编辑

推荐系统第4周--- 基于频繁模式的推荐系统和关联规则挖掘Apriori算法

摘要: 数据挖掘:关联规则挖掘 关联规则挖掘:Apriori算法 提高Apriori的效率 基于散列的算法基于FP tree的算法 阅读全文

posted @ 2016-04-23 21:12 飞鸟各投林 阅读(367) 评论(0) 推荐(0) 编辑

推荐系统第3周--- 大数据环境下的itemCF实现

摘要: 代码报错注意事项: 1:最后Ctrl+shift+O 导入包2:导入mahout包3:新建datafile文件包,在其下面新建csv文件 项目背景:图书推荐系统介绍需求分析:项目需求分析算法模型:基于Mahout推荐算法架构设计:职位推荐引擎架构系统环境:构建Mahout的开发环境程序开发:基于Ma 阅读全文

posted @ 2016-04-23 21:02 飞鸟各投林 阅读(630) 评论(0) 推荐(0) 编辑

机器学习第9周-炼数成金-聚类

摘要: 聚类和分类判别有什么区别? 聚类应用场景:寻找优质客户 二八定律无处丌在20%的用户提供了银行80%的利润来源20%的用户消费了运营商话费总额的80%公司中20%的员工完成了80%的工作社会中20%的人拥有80%的话语权 聚类应用场景:推荐系统 关键度量指标:距离 距离的定义常用距离(薛毅书P469 阅读全文

posted @ 2016-04-23 20:32 飞鸟各投林 阅读(431) 评论(0) 推荐(0) 编辑

机器学习第8周-炼数成金-神经网络

摘要: 参考书 深度学习 深度学习是机器学习研究中的一个新的领域,其动机在亍建立、模拟人脑迚行分析学习的神经网络,它模仿人脑的机制来解释数据, 例如图像,声音和文本。深度学习是无监督学习的一种。深度学习的概念源亍人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。 深度学习通过组合低层特征形成更加 阅读全文

posted @ 2016-04-23 20:20 飞鸟各投林 阅读(335) 评论(0) 推荐(0) 编辑

机器学习第7周-炼数成金-支持向量机SVM

摘要: 支持向量机SVM 原创性(非组合)的具有明显直观几何意义的分类算法,具有较高的准确率源于Vapnik和Chervonenkis关于统计学习的早期工作(1971年),第一篇有关论文由Boser、Guyon、Vapnik发表在1992年(参考文档见韩家炜书9.10节)思想直观,但细节异常复杂,内容涉及凸 阅读全文

posted @ 2016-04-23 19:42 飞鸟各投林 阅读(521) 评论(0) 推荐(0) 编辑

机器学习第5周--炼数成金-----决策树,组合提升算法,bagging和adaboost,随机森林。

摘要: 决策树decision tree 什么是决策树输入:学习集输出:分类觃则(决策树) 决策树算法概述 70年代后期至80年代初期,Quinlan开发了ID3算法(迭代的二分器)Quinlan改迚了ID3算法,称为C4.5算法1984年,多位统计学家在著名的《Classification and reg 阅读全文

posted @ 2016-04-23 19:03 飞鸟各投林 阅读(863) 评论(0) 推荐(0) 编辑

机器学习第5周--炼数成金-----线性分类器,Knn算法,朴素贝叶斯分类器,文本挖掘

摘要: 分类:分类的意义 传统意义下的分类:生物物种预测:天气预报决策:yes or no分类的传统模型分类(判别分析)与聚类有什么差别?有监督学习,无监督学习,半监督学习 常见分类模型与算法 线性判别法距离判别法贝叶斯分类器决策树支持向量机(SVM)神经网络 文本挖掘典型场景 网页自动分类垃圾邮件判断评论 阅读全文

posted @ 2016-04-23 17:07 飞鸟各投林 阅读(480) 评论(0) 推荐(0) 编辑

机器学习第4周---炼数成金-----降维技术

摘要: 主成分分析 Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析成分的保留:Kaiser主张(1960)将特征值小于1的成分放弃, 阅读全文

posted @ 2016-04-23 16:44 飞鸟各投林 阅读(326) 评论(0) 推荐(0) 编辑

机器学习第3周---炼数成金-----岭回归

摘要: 多元线性回归的最小二乘解(无偏估计) 岭回归(Ridge Regression,RR) 当自变量间存在复共线性时,|X′X|≈0,我们设想给X′X加上一个正常数矩阵kI,(k>0), 那么X′X+kI接近奇异癿程度就会比X′X接近奇异癿程度小得多。岭回归做为β癿估计应比最小二乘估计稳定,当k=0时癿 阅读全文

posted @ 2016-04-23 16:27 飞鸟各投林 阅读(309) 评论(0) 推荐(0) 编辑

机器学习第2周---炼数成金-----线性回归与Logistic

摘要: 重点归纳 回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)迚行预测用途:预测,判别合理性例子:利用身高预测体重;利用广告费用预测商品销售额;等等.线性回归分析:一元线性;多元线性;广义线性非线性回归分析困难:选定变量(多元),避免多重共线性,观察拟合方程,避免过度拟合,检验模型是否 阅读全文

posted @ 2016-04-23 16:16 飞鸟各投林 阅读(376) 评论(0) 推荐(0) 编辑

机器学习第1周--炼数成金-----机器学习概论

摘要: 什么是机器学习 机器学习是挃是一门多领域交叉学科。与门研究计算机或其它软硬件设备怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之丌断改善自身的性能。应用机器学习技术到产品中,给用户带来“机器具备人类般高智能”的震撼性体验。人力成本又越来越高,机器学习能降低企业成本,提高 阅读全文

posted @ 2016-04-23 15:30 飞鸟各投林 阅读(664) 评论(0) 推荐(0) 编辑