上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 39 下一页
  2017年12月30日
摘要: 前两天看好多《芳华》的影评说:为什么好人没好报?于是感叹一堆世态炎凉,人性丑陋什么的。我觉得这问题是:为什么中央空调(对谁都温暖)往往不被看好。 先说说TF/IDF算法,这是一种信息... 阅读全文
posted @ 2017-12-30 11:36 xieyan0811 阅读(15) 评论(0) 推荐(0) 编辑
  2017年12月28日
摘要: 我女儿上二年级,最近教她一些简单的python编程。一直想聊聊这事儿:如果你想写程序,学习某样东西,或者转行。多大岁数,什么起点才行?这不光是知识问题,有时候也是心理问题。 最近常看到互联网把传统行业打得落花流水,有时候也为自己和孩子的将来捏把汗。... 阅读全文
posted @ 2017-12-28 18:17 xieyan0811 阅读(28) 评论(0) 推荐(0) 编辑
  2017年12月27日
摘要: 本篇是hadoop部分的最后一篇,主要介绍Hadoop家族的常用工具。以及解答学习过程中的一些疑问。 hadoop家族 Pig是上层封装了的数据流处理工具。 Mahout是基于集群的数据挖掘工具。 Zo... 阅读全文
posted @ 2017-12-27 17:33 xieyan0811 阅读(19) 评论(0) 推荐(0) 编辑
  2017年12月26日
摘要: 1. 说明 前篇介绍了安装和使用Hadoop,本篇将介绍Hadoop+Spark的安装配置及如何用Python调用Spark。 当数据以TB,PB计量时,用单机处理数据变得非常困难,于是使用Hadoop建立计算集群处理海量数据,Hadoop分为两部分... 阅读全文
posted @ 2017-12-26 16:27 xieyan0811 阅读(43) 评论(0) 推荐(0) 编辑
  2017年12月25日
摘要: 1. 说明 前两篇分别介绍了Hadoop的配置方法和基本原理,本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的,它不仅支持Java,还支持C++,Python等程序的分布计算。下面以Python为例介绍如何使... 阅读全文
posted @ 2017-12-25 18:26 xieyan0811 阅读(54) 评论(0) 推荐(0) 编辑
  2017年12月22日
摘要: 1. 说明 Hadoop是个分布式的架构,它将海量数据处理工作分配到集群中的多个机器上运行。前篇介绍了Hadoop的安装,在安装过程中会产生一些疑问,比如NameNode是什么东西?本篇就以问题&解答的方式介绍Had... 阅读全文
posted @ 2017-12-22 11:34 xieyan0811 阅读(31) 评论(0) 推荐(0) 编辑
  2017年12月21日
摘要: 1. 说明 数据处理时,可能会遇到数千万以及上亿条数据的情况。如果一次性处理所有数据,就会遇到内存不够,计算时间太长等问题。上篇《Python海量数据处理之_单机优化》讲述了单机的处理大数据的解决方案。下面将讲述如何利用服务器集群处理大数据,这里使用的... 阅读全文
posted @ 2017-12-21 18:38 xieyan0811 阅读(58) 评论(0) 推荐(0) 编辑
  2017年12月20日
摘要: 1. 说明 数据处理时,可能会遇到数千万以及上亿条数据的情况。一次处理所有数据,会遇到内存不够,计算时间太长等问题。一般的解法是:先拆分,再处理,最后将处理的结果合并(当然数据少的时候不需要这么麻烦)。本文将介绍在单机上,只使用Python如何处理大量... 阅读全文
posted @ 2017-12-20 17:22 xieyan0811 阅读(50) 评论(0) 推荐(0) 编辑
  2017年12月18日
摘要: 1. 说明 DataFrame是Pandas库中处理表的数据结构,可看作是python中的类似数据库的操作,是Python数据挖掘中最常用的工具。下面介绍DataFrame的一些常用方法。 2. 遍历 1) 代码 import pandas as... 阅读全文
posted @ 2017-12-18 17:01 xieyan0811 阅读(110) 评论(0) 推荐(0) 编辑
  2017年12月15日
摘要: 1. 说明 前两篇完成了特征工程的相关工作:加入用户的统计特征,分析文本信息内容,并作为新特征加入了数据集。 本篇我们来看看算法,实战微博互动预测(后简称本例)的评估算法如下: 公式中f代表转发,c代表评论,l代表赞,p代表预测,r代表真实值;de... 阅读全文
posted @ 2017-12-15 17:37 xieyan0811 阅读(111) 评论(0) 推荐(0) 编辑
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 39 下一页