xieyan0811 - 博客园

2017年12月30日

摘要：前两天看好多《芳华》的影评说：为什么好人没好报？于是感叹一堆世态炎凉，人性丑陋什么的。我觉得这问题是：为什么中央空调（对谁都温暖）往往不被看好。先说说TF/IDF算法，这是一种信息... 阅读全文

posted @ 2017-12-30 11:36 xieyan0811 阅读(15) 评论(0) 推荐(0) 编辑

2017年12月28日

摘要：我女儿上二年级，最近教她一些简单的python编程。一直想聊聊这事儿：如果你想写程序，学习某样东西，或者转行。多大岁数，什么起点才行？这不光是知识问题，有时候也是心理问题。最近常看到互联网把传统行业打得落花流水，有时候也为自己和孩子的将来捏把汗。... 阅读全文

posted @ 2017-12-28 18:17 xieyan0811 阅读(28) 评论(0) 推荐(0) 编辑

2017年12月27日

摘要：本篇是hadoop部分的最后一篇，主要介绍Hadoop家族的常用工具。以及解答学习过程中的一些疑问。 hadoop家族 Pig是上层封装了的数据流处理工具。 Mahout是基于集群的数据挖掘工具。 Zo... 阅读全文

posted @ 2017-12-27 17:33 xieyan0811 阅读(19) 评论(0) 推荐(0) 编辑

2017年12月26日

摘要： 1. 说明前篇介绍了安装和使用Hadoop，本篇将介绍Hadoop+Spark的安装配置及如何用Python调用Spark。当数据以TB,PB计量时，用单机处理数据变得非常困难，于是使用Hadoop建立计算集群处理海量数据，Hadoop分为两部分... 阅读全文

posted @ 2017-12-26 16:27 xieyan0811 阅读(43) 评论(0) 推荐(0) 编辑

2017年12月25日

摘要： 1. 说明前两篇分别介绍了Hadoop的配置方法和基本原理，本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的，它不仅支持Java，还支持C++，Python等程序的分布计算。下面以Python为例介绍如何使... 阅读全文

posted @ 2017-12-25 18:26 xieyan0811 阅读(54) 评论(0) 推荐(0) 编辑

2017年12月22日

摘要： 1. 说明 Hadoop是个分布式的架构，它将海量数据处理工作分配到集群中的多个机器上运行。前篇介绍了Hadoop的安装，在安装过程中会产生一些疑问，比如NameNode是什么东西？本篇就以问题&解答的方式介绍Had... 阅读全文

posted @ 2017-12-22 11:34 xieyan0811 阅读(31) 评论(0) 推荐(0) 编辑

2017年12月21日

摘要： 1. 说明数据处理时，可能会遇到数千万以及上亿条数据的情况。如果一次性处理所有数据，就会遇到内存不够，计算时间太长等问题。上篇《Python海量数据处理之_单机优化》讲述了单机的处理大数据的解决方案。下面将讲述如何利用服务器集群处理大数据，这里使用的... 阅读全文

posted @ 2017-12-21 18:38 xieyan0811 阅读(58) 评论(0) 推荐(0) 编辑

2017年12月20日

摘要： 1. 说明数据处理时，可能会遇到数千万以及上亿条数据的情况。一次处理所有数据，会遇到内存不够，计算时间太长等问题。一般的解法是：先拆分，再处理，最后将处理的结果合并（当然数据少的时候不需要这么麻烦）。本文将介绍在单机上，只使用Python如何处理大量... 阅读全文

posted @ 2017-12-20 17:22 xieyan0811 阅读(50) 评论(0) 推荐(0) 编辑

2017年12月18日

摘要： 1. 说明 DataFrame是Pandas库中处理表的数据结构，可看作是python中的类似数据库的操作，是Python数据挖掘中最常用的工具。下面介绍DataFrame的一些常用方法。 2. 遍历 1) 代码 import pandas as... 阅读全文

posted @ 2017-12-18 17:01 xieyan0811 阅读(110) 评论(0) 推荐(0) 编辑

2017年12月15日

摘要： 1. 说明前两篇完成了特征工程的相关工作：加入用户的统计特征，分析文本信息内容，并作为新特征加入了数据集。本篇我们来看看算法，实战微博互动预测（后简称本例）的评估算法如下：公式中f代表转发，c代表评论，l代表赞，p代表预测，r代表真实值；de... 阅读全文

posted @ 2017-12-15 17:37 xieyan0811 阅读(111) 评论(0) 推荐(0) 编辑

公告