随笔分类 -  大数据处理

Hadoop, MapReduce
摘要:introduction https://www.youtube.com/watch?v=fGG9dApIhDU glance of features shared nothing architecture column storage with vectorized query execution 阅读全文
posted @ 2021-05-05 17:14 elar 阅读(157) 评论(0) 推荐(0) 编辑
摘要:决策树 https://www.kaggle.com/dansbecker/your-first-machine-learning-model 1 import pandas as pd 2 melb_data_path = 'melb_data.csv' 3 data1 = pd.read_csv 阅读全文
posted @ 2020-10-11 00:28 elar 阅读(135) 评论(0) 推荐(0) 编辑
摘要:维基百科:混沌理论是一种兼具质性思考与量化分析的方法,用以探讨动态系统中无法用单一的数据关系,而必须用整体,连续的数据关系才能加以解释及预测之行为。“一切事物的原始状态,都是一堆看似毫不关联的碎片,但是这种混沌状态结束后,这些无机的碎片会有机地汇集成一个整体。”近半世纪以来,科学家发现许多自然现象即使可以化为单纯的数学公式,但是其行径却无法加以预测。如气象学家爱德华·诺顿·劳仑次(Edward Lorenz)发现简单的热对流现象居然能引起令人无法想象的气象变化,产生所谓的“蝴蝶效应”。60年代,美国数学家史蒂芬·斯梅尔(Stephen Smale)发现某些物体的行 阅读全文
posted @ 2014-01-12 18:30 elar 阅读(1796) 评论(0) 推荐(0) 编辑
摘要:2013百度校园招聘数据挖掘工程师一、简答题(30分)1、简述数据库操作的步骤(10分)步骤:建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命令、保存数据库命令、关闭数据库连接。经萍萍提醒,了解到应该把preparedStatement预处理也考虑在数据库的操作步骤中。此外,对实时性要求不强时,可以使用数据库缓存。2、TCP/IP的四层结构(10分)3、什么是MVC结构,简要介绍各层结构的作用(10分)Model、view、control。我之前有写过一篇《MVC层次的划分》二、算法与程序设计(45分)1、由a-z、0-9组成3位的字符密码,设计一个算法,列出并打印所有可能的密码组 阅读全文
posted @ 2013-09-17 12:55 elar 阅读(58899) 评论(11) 推荐(10) 编辑
摘要:一个暑假回来到了该找工作的紧张时期了。不过项目还是要继续做嘛,╮(╯_╰)╭,放假前用python爬到了一些网页,也尝试着分了词。现在进入文本挖掘阶段吧。R在数据挖掘和机器学习方面好似很方便,安了试试看。界面跟Matlab有几分相似呢……o(≧v≦)o~~-------2013.9.13----python分词、词频统计、寻找公共词--R还是有点偏向学术计算的语言了,最后还是换上半生不熟的python来做。之前爬到了网页数据(见上片文章【网络爬虫】最后8.3的记录),而且尝试了分词。现在完善了以下处理:1、对所有爬到是网页数据进行分词(没有设立自定义词典)如果设置自定义词典,那么分词效果会更好 阅读全文
posted @ 2013-09-04 21:04 elar 阅读(13512) 评论(0) 推荐(2) 编辑
摘要:这次去杭州参加阿里巴巴的离线大数据处理暑期课,得到一个思路。之前一直纠结于没有数据要怎么训练我的旅行个性化推荐。毕设木有头绪啊,做不粗来要人命呀!现在觉得可以在网上爬一些数据下来,看看能不能分析出各个景点之间的关系。现在 开贴记录自己的工作。2013.7.24使用urllib。(3.0以后urllib2就整合到urllib中了,见【这里】)import urllib.requestc = urllib.request.urlopen('http://www.baidu.com')contents = c.read()print(contents[0:50])代码参考自《集体智慧 阅读全文
posted @ 2013-07-24 22:40 elar 阅读(4184) 评论(1) 推荐(0) 编辑
摘要:1、聚类算法的目的是采集数据,然后从中找出不同的群组。2、Universal Feed Parser可以方便地解析RSS订阅源,即从RSS或Atom订阅源中得到标题、链接和文章的内容。3、皮尔逊相关度其实判断的是两组数据与某条直线的拟合程度,当两者完全匹配时,计算结果为1.0,当两者毫无关系时,计算结果为0.0.4、分级聚类分级聚类的结果会产生一棵树:分级聚类虽然会返回一棵形象直观的树,但这种方法有两个缺点。在没有额外指定的情况下,树形视图不会真正将数据拆分成不同的组,而且该算法的计算量惊人。因为我们必须计算每两个数据项之间的关系,并且在合并项之后这些关系还得再计算,所以在处理大规模的数据集时 阅读全文
posted @ 2013-04-23 19:11 elar 阅读(1069) 评论(0) 推荐(0) 编辑
摘要:预备软件:使用的是CentOS6.0、hadoop-1.0.4Jdk使用的是jdk-6u29-linux-i586-rpm.bin文档帮助:Hadoop-1.0.4文档http://hadoop.apache.org/docs/r1.0.4/单机安装指南http://hadoop.apache.org/docs/r1.0.4/single_node_setup.html集群安装指南http://hadoop.apache.org/docs/r1.0.4/cluster_setup.html摘要本文将介绍在CentOS中如何安装Hadoop,安装之前需要哪些预备环境。安装过程中需要配置哪些文件。 阅读全文
posted @ 2013-01-05 22:10 elar 阅读(7213) 评论(1) 推荐(2) 编辑
摘要:Mapreduce是一种模式。Hadoop是一种框架。Hadoop是一个实现了mapreduce模式的开源的分布式并行编程框架。从能提出这三个基础点上就知道这个作者值得看。地址是http://blog.csdn.net/v_july_v/article/details/6704077 阅读全文
posted @ 2012-12-26 15:49 elar 阅读(941) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示