随笔 - 383
文章 - 0
评论 - 0
阅读 -
35125
12 2017 档案
随笔_一道二年级数学题引发的联想
摘要:最近教小孩一些简单的编程。有一次主题是:均值/方差/标准差,想先引入一下,就出了一道题:四个小朋友考试,分别得20分,60分,80分,100分,问平均多少分。她是这么算的: (((20+60)/2+80)/2+100)/2=80 谁都...
阅读全文
随笔_从《芳华》影评到TF/IDF算法
摘要:前两天看好多《芳华》的影评说:为什么好人没好报?于是感叹一堆世态炎凉,人性丑陋什么的。我觉得这问题是:为什么中央空调(对谁都温暖)往往不被看好。 先说说TF/IDF算法,这是一种信息...
阅读全文
随笔_写程序到底有多难
摘要:我女儿上二年级,最近教她一些简单的python编程。一直想聊聊这事儿:如果你想写程序,学习某样东西,或者转行。多大岁数,什么起点才行?这不光是知识问题,有时候也是心理问题。 最近常看到互联网把传统行业打得落花流水,有时候也为自己和孩子的将来捏把汗。...
阅读全文
Python海量数据处理之_Hadoop家族
摘要:本篇是hadoop部分的最后一篇,主要介绍Hadoop家族的常用工具。以及解答学习过程中的一些疑问。 hadoop家族 Pig是上层封装了的数据流处理工具。 Mahout是基于集群的数据挖掘工具。 Zo...
阅读全文
Python海量数据处理之_Hadoop&Spark
摘要:1. 说明 前篇介绍了安装和使用Hadoop,本篇将介绍Hadoop+Spark的安装配置及如何用Python调用Spark。 当数据以TB,PB计量时,用单机处理数据变得非常困难,于是使用Hadoop建立计算集群处理海量数据,Hadoop分为两部分...
阅读全文
Python海量数据处理之_Hadoop(三)程序调用
摘要:1. 说明 前两篇分别介绍了Hadoop的配置方法和基本原理,本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的,它不仅支持Java,还支持C++,Python等程序的分布计算。下面以Python为例介绍如何使...
阅读全文
Python海量数据处理之_Hadoop(二)概念和原理
摘要:1. 说明 Hadoop是个分布式的架构,它将海量数据处理工作分配到集群中的多个机器上运行。前篇介绍了Hadoop的安装,在安装过程中会产生一些疑问,比如NameNode是什么东西?本篇就以问题&解答的方式介绍Had...
阅读全文
Python海量数据处理之_Hadoop(一)集群搭建
摘要:1. 说明 数据处理时,可能会遇到数千万以及上亿条数据的情况。如果一次性处理所有数据,就会遇到内存不够,计算时间太长等问题。上篇《Python海量数据处理之_单机优化》讲述了单机的处理大数据的解决方案。下面将讲述如何利用服务器集群处理大数据,这里使用的...
阅读全文
Python海量数据处理之_单机优化
摘要:1. 说明 数据处理时,可能会遇到数千万以及上亿条数据的情况。一次处理所有数据,会遇到内存不够,计算时间太长等问题。一般的解法是:先拆分,再处理,最后将处理的结果合并(当然数据少的时候不需要这么麻烦)。本文将介绍在单机上,只使用Python如何处理大量...
阅读全文
Python之DataFrame数据处理
摘要:1. 说明 DataFrame是Pandas库中处理表的数据结构,可看作是python中的类似数据库的操作,是Python数据挖掘中最常用的工具。下面介绍DataFrame的一些常用方法。 2. 遍历 1) 代码 import pandas as...
阅读全文
实战微博互动预测之三_xgboost答疑解惑
摘要:1. 说明 前两篇完成了特征工程的相关工作:加入用户的统计特征,分析文本信息内容,并作为新特征加入了数据集。 本篇我们来看看算法,实战微博互动预测(后简称本例)的评估算法如下: 公式中f代表转发,c代表评论,l代表赞,p代表预测,r代表真实值;de...
阅读全文
实战微博互动预测之二_中文分析
摘要:1. 说明 前篇《实战微博互动预测之一_问题分析》中,已经对微博的整体反馈情况,以及单个用户的反馈做了初步的分析。本篇将从微博的信息内容中提取更多特征。 文本分析是数据分析中的常用技术,使用范围很广,比如:信息搜索,内容推荐,文章分类,内容提取等等。...
阅读全文
实战微博互动预测之一_问题分析
摘要:1. 天池竞赛平台 微博互动预测是一个天池平台的竞赛,和其它平台相比,天池的数据量更大,赛题更接近实际场景。微信互动比赛算是其中比较小的,训练数据也有300多M,上百万条记录(虽然数据较多,但也是普通开发机可以处理的量级)。数据内容也比较丰富,和提供匿...
阅读全文
实战人品预测之三_向高手学习
摘要:这是本系列“实战人品预测”的最后一篇:向高手学习。在之前的两篇:《实战人品预测之一国内大数据竞赛平台》和《实战人品预测之二热门模型xgboost》中我们尝试了DataCastle平台的“微额借款用户人品预测大赛”,对数据不做任何处理,仅用xgboost...
阅读全文
实战人品预测之二_热门模型xgboost
摘要:1. 介绍 有人戏称数据挖掘比赛为GBDT调参大赛,因为在很多比赛后期,大家都使用GBDT类的算法,特征类似,只有模型参数不同,模型集成方法不同,最终大家的成绩差别也很小。 上篇《实战人品预测之一_国内大数据竞赛平台》,介绍DataCastle平台的...
阅读全文
实战人品预测之一_国内大数据竞赛平台
摘要:1. 竞赛平台哪家强 Kaggle是一个很好的竞赛平台,上面大牛很多,代码分享和思路讲解也很棒,但是它的用户信息和数据全都存在google服务器上,虽然网页能看到,但上传下载数据需要连外网,从当前的网络情况看来,只能用VPN,用起来实在太麻烦了。 国...
阅读全文