摘要:
前两天看好多《芳华》的影评说:为什么好人没好报?于是感叹一堆世态炎凉,人性丑陋什么的。我觉得这问题是:为什么中央空调(对谁都温暖)往往不被看好。 先说说TF/IDF算法,这是一种信息... 阅读全文
摘要:
我女儿上二年级,最近教她一些简单的python编程。一直想聊聊这事儿:如果你想写程序,学习某样东西,或者转行。多大岁数,什么起点才行?这不光是知识问题,有时候也是心理问题。 最近常看到互联网把传统行业打得落花流水,有时候也为自己和孩子的将来捏把汗。... 阅读全文
摘要:
本篇是hadoop部分的最后一篇,主要介绍Hadoop家族的常用工具。以及解答学习过程中的一些疑问。 hadoop家族 Pig是上层封装了的数据流处理工具。 Mahout是基于集群的数据挖掘工具。 Zo... 阅读全文
摘要:
1. 说明 前篇介绍了安装和使用Hadoop,本篇将介绍Hadoop+Spark的安装配置及如何用Python调用Spark。 当数据以TB,PB计量时,用单机处理数据变得非常困难,于是使用Hadoop建立计算集群处理海量数据,Hadoop分为两部分... 阅读全文
摘要:
1. 说明 前两篇分别介绍了Hadoop的配置方法和基本原理,本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的,它不仅支持Java,还支持C++,Python等程序的分布计算。下面以Python为例介绍如何使... 阅读全文
摘要:
1. 说明 Hadoop是个分布式的架构,它将海量数据处理工作分配到集群中的多个机器上运行。前篇介绍了Hadoop的安装,在安装过程中会产生一些疑问,比如NameNode是什么东西?本篇就以问题&解答的方式介绍Had... 阅读全文
摘要:
1. 说明 数据处理时,可能会遇到数千万以及上亿条数据的情况。如果一次性处理所有数据,就会遇到内存不够,计算时间太长等问题。上篇《Python海量数据处理之_单机优化》讲述了单机的处理大数据的解决方案。下面将讲述如何利用服务器集群处理大数据,这里使用的... 阅读全文
摘要:
1. 说明 数据处理时,可能会遇到数千万以及上亿条数据的情况。一次处理所有数据,会遇到内存不够,计算时间太长等问题。一般的解法是:先拆分,再处理,最后将处理的结果合并(当然数据少的时候不需要这么麻烦)。本文将介绍在单机上,只使用Python如何处理大量... 阅读全文
摘要:
1. 说明 DataFrame是Pandas库中处理表的数据结构,可看作是python中的类似数据库的操作,是Python数据挖掘中最常用的工具。下面介绍DataFrame的一些常用方法。 2. 遍历 1) 代码 import pandas as... 阅读全文
摘要:
1. 说明 前两篇完成了特征工程的相关工作:加入用户的统计特征,分析文本信息内容,并作为新特征加入了数据集。 本篇我们来看看算法,实战微博互动预测(后简称本例)的评估算法如下: 公式中f代表转发,c代表评论,l代表赞,p代表预测,r代表真实值;de... 阅读全文