摘要: 笔者安装的python版本是2.7.6,最近在导入sklearn(版本:0.16.1)的模块时,经常出现DLL load failed的报错,具体截图如下: 解决办法与步骤如下:由于sklearn的包需要numpy-MKL(而不是numpy),首先需要卸载掉目前电脑上的numpy包卸载命... 阅读全文
posted @ 2015-10-09 17:00 BI咖啡馆 阅读(2128) 评论(0) 推荐(0) 编辑
摘要: 在大数据商品化之前, 利用大数据分析工具和技术来取得竞争优势已不再是秘密。2015年, 如果你还在职场上寻找大数据的相关工作, 那么, 这里介绍的9种技能,将帮助你得到一个工作机会。 1.Apache Hadoop Hadoop现在已经进入第二个10年发展期了, 但不可否认的是, Hadoop在2... 阅读全文
posted @ 2015-04-30 08:37 BI咖啡馆 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 在评估模型的预测能力上,提升图 (lift chart)和增益图(gain chart)是一种非常有用的图形表达方式。在SPSS中,一个典型的增益图如下所示:在今天这篇博文中,博主会和大家一起探讨制作增益图的逻辑以及如何解释增益图和提升图。以下博文中,我们会运用一个直邮公司的例子来为大家讲解。假设在... 阅读全文
posted @ 2015-04-03 17:20 BI咖啡馆 阅读(7878) 评论(0) 推荐(0) 编辑
摘要: 大家大概都对如下信息图并不陌生,该图用100%堆积面积图的方式来表现不同时期不同国家人数所占的比例。这是一种很有意思的表达方式,而面积图也是很常用的数据图表,现在让我们一起来看看如何在R里用ggplot2和plot.area来制作一个面积图。 在制作图表之前,首先我们先创建一些随机示例数据。... 阅读全文
posted @ 2015-03-11 19:48 BI咖啡馆 阅读(4239) 评论(0) 推荐(0) 编辑
摘要: 入门读物:深入浅出数据分析 (豆瓣) 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。啤酒与尿布 (豆瓣) 通过案例来说事情,而且是最经典的例子。难易程度:非常易。数据之美 (豆瓣) 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的... 阅读全文
posted @ 2015-01-20 09:10 BI咖啡馆 阅读(1852) 评论(1) 推荐(1) 编辑
摘要: 最近有一个培训机构找笔者来做一份Python的培训教材,顺带着研究了下python notebook,发现很好很强大,现把初步的安装步骤记录如下: 1.安装Python 这个是必须的,在http://www.python.org/download/下载最新的Python版本。按照自己的... 阅读全文
posted @ 2015-01-19 10:22 BI咖啡馆 阅读(5028) 评论(1) 推荐(0) 编辑
摘要: 1. 安装&启动官网:http://lucene.apache.org/solr/下载源代码,解压,进入根目录(我把solr放在/usr/local/solr下)在/usr/local/solr/example中,有一些例子启动例子bin/solr start –e cloud –noprompt-... 阅读全文
posted @ 2015-01-16 16:30 BI咖啡馆 阅读(4336) 评论(0) 推荐(1) 编辑
摘要: 数据分析,数据挖掘的资料太多了,慢慢总结下,还请大家多多提供 书籍推荐: Python的数据分析入门书籍,强烈推荐一下 《集体智慧编程》英文版:《Programming Collective Intelligence Building Smart Web 2.0 Applications》 相关学习网站: ... 阅读全文
posted @ 2015-01-15 11:27 BI咖啡馆 阅读(263) 评论(0) 推荐(0) 编辑
摘要: 最近有一个朋友问我:为什么我要用Python,这是一个好问题,今天有空,把这个问题简单整理了一下,回来朋友的问题。该整理主要来源于网络和其他资料,如果有侵权还请告知。 Python的好处主要有以下几种(来源自《集体智慧编程》英文版《Programming Collective Intelligence Building Smart Web 2.0 Applicatio... 阅读全文
posted @ 2015-01-15 11:26 BI咖啡馆 阅读(2767) 评论(0) 推荐(0) 编辑
摘要: 下面对距离、相似和相关做一个总结。目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦距离8. 海明距离9. Dice系数10. 杰卡德距离、SMC、Tanimoto系数与minhash11. Pearson相关系数12. 信息熵... 阅读全文
posted @ 2015-01-14 11:22 BI咖啡馆 阅读(1198) 评论(0) 推荐(0) 编辑