摘要: 我在刷Kaggle时发现一个问题。很多人在处理数据的时候,经常把连续性特征离散化。对此我感到很好奇,所以上网搜了一些总结,主要内容来自知乎 "连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?" 这个是 "严林的回答" 在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是 阅读全文
posted @ 2017-04-14 09:46 james+zhao 阅读(7768) 评论(0) 推荐(1) 编辑
摘要: 这是一篇翻译的博客,原文链接在 "这里" 。这是我看的为数不多的介绍scikit learn简介而全面的文章,特别适合入门。我这里把这篇文章翻译一下,英语好的同学可以直接看原文。 大部分喜欢用Python来学习数据科学的人,应该听过scikit learn,这个开源的Python库帮我们实现了一系列 阅读全文
posted @ 2017-04-06 12:00 james+zhao 阅读(1633) 评论(0) 推荐(0) 编辑
摘要: 本博客主要内容来自机器之心翻译的 "机器理解大数据的秘密:聚类算法深度详解" 。这篇文章是讲解聚类里难得一见的好文章,大家有兴趣可以阅读原文,我这里主要在原文的基础上写一些自己的总结,补充在原文后的括号里。 本文主要介绍了三种聚类方法:K 均值聚类,层次聚类,图团体检测 K均值聚类 何时使用? 当你 阅读全文
posted @ 2017-04-04 21:35 james+zhao 阅读(31878) 评论(1) 推荐(3) 编辑
摘要: 缘由 写这篇博客是因为看到一篇介绍聚类的博客,里面介绍到层次聚类时,提到了linkage criterion,博客把这翻译成了连接标准。之前很少用过层次聚类,所以对这个概念并不熟悉。于是搜索了一下,把一些知识点总结与此,大部分来源于维基百科和Quora以及scikit learn文档。 Linkag 阅读全文
posted @ 2017-04-04 21:23 james+zhao 阅读(3643) 评论(0) 推荐(0) 编辑
摘要: 这次的作业主要用PySpark来分析Web Server Log。主要分成4个部分。相关ipynb文件见我 "github" 。 Part 1 Apache Web Server Log file format 这部分主要是了解log file的格式,然后处理它。我们处理的日志格式符合Common 阅读全文
posted @ 2017-04-03 23:25 james+zhao 阅读(888) 评论(0) 推荐(0) 编辑
摘要: 这是CS100.1x第一个提交的有意义的作业,自己一遍做下来对PySpark的基本应用应该是可以掌握的。相关ipynb文件见我 "github" 。 这次作业的目的如题目一样——word count,作业分成4个部分,遇到不懂的地方,时刻记得查API。 Part 1 Creating a base 阅读全文
posted @ 2017-04-03 17:06 james+zhao 阅读(1108) 评论(1) 推荐(0) 编辑
摘要: 这是CS100.1x第一个提交的作业,是给我们测试用的。相关ipynb文件见我 "github" 。本来没什么好说的。我在这里简单讲一下,后面会更详细的讲解。主要分成5个部分。 Part 1: Test Spark functionality Parallelize, filter, and red 阅读全文
posted @ 2017-04-02 22:04 james+zhao 阅读(586) 评论(0) 推荐(0) 编辑
摘要: 起因 大数据时代 大数据最近太热了,其主要有数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity)4个特点,合起来被称为4V。 大数据中的数据量非常巨大,传统的关系型数据库已经无法满足对大数据的处理要求。此时,分布式计算应运而生 阅读全文
posted @ 2017-04-02 20:00 james+zhao 阅读(376) 评论(0) 推荐(0) 编辑
摘要: section1.2主要包括5道题和1个编程知识介绍。下面对这6部分内容进行学习。 Complete Search 这个翻译成枚举搜索或者穷举搜索。主要用于当写代码时间不够用而且不用考虑程序的效率问题的时候。 这个方法简单易行,一般是做题目的首选,如果满足时间和空间的要求,那就这么做,把时间多出来去 阅读全文
posted @ 2017-03-31 23:31 james+zhao 阅读(409) 评论(0) 推荐(0) 编辑
摘要: section1.1主要包括四道题和两个编程知识介绍。下面将对这6个部分内容进行学习。 Your Ride Is Here 这道题没什么难度,读懂题目意思就行:把两个字符串按照题目要求转换成数字,然后对47取模,比较是否相等。 代码如下 / LANG: JAVA TASK: ride / impor 阅读全文
posted @ 2017-03-30 11:24 james+zhao 阅读(352) 评论(0) 推荐(0) 编辑