大数据处理 - 随笔分类 - elar

clickhouse学习笔记

摘要：introduction https://www.youtube.com/watch?v=fGG9dApIhDU glance of features shared nothing architecture column storage with vectorized query execution 阅读全文

posted @ 2021-05-05 17:14 elar 阅读(171) 评论(0) 推荐(0)

Kaggle 学习之旅

摘要：决策树 https://www.kaggle.com/dansbecker/your-first-machine-learning-model 1 import pandas as pd 2 melb_data_path = 'melb_data.csv' 3 data1 = pd.read_csv 阅读全文

posted @ 2020-10-11 00:28 elar 阅读(150) 评论(0) 推荐(0)

混沌理论学习笔记

摘要：维基百科：混沌理论是一种兼具质性思考与量化分析的方法，用以探讨动态系统中无法用单一的数据关系，而必须用整体，连续的数据关系才能加以解释及预测之行为。“一切事物的原始状态，都是一堆看似毫不关联的碎片，但是这种混沌状态结束后，这些无机的碎片会有机地汇集成一个整体。”近半世纪以来，科学家发现许多自然现象即使可以化为单纯的数学公式，但是其行径却无法加以预测。如气象学家爱德华·诺顿·劳仑次（Edward Lorenz）发现简单的热对流现象居然能引起令人无法想象的气象变化，产生所谓的“蝴蝶效应”。60年代，美国数学家史蒂芬·斯梅尔（Stephen Smale）发现某些物体的行阅读全文

posted @ 2014-01-12 18:30 elar 阅读(1837) 评论(0) 推荐(0)

数据挖掘工程师笔试及答案整理

摘要：2013百度校园招聘数据挖掘工程师一、简答题（30分）1、简述数据库操作的步骤（10分）步骤：建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命令、保存数据库命令、关闭数据库连接。经萍萍提醒，了解到应该把preparedStatement预处理也考虑在数据库的操作步骤中。此外，对实时性要求不强时，可以使用数据库缓存。2、TCP/IP的四层结构（10分）3、什么是MVC结构，简要介绍各层结构的作用（10分）Model、view、control。我之前有写过一篇《MVC层次的划分》二、算法与程序设计（45分）1、由a-z、0-9组成3位的字符密码，设计一个算法，列出并打印所有可能的密码组阅读全文

posted @ 2013-09-17 12:55 elar 阅读(58951) 评论(11) 推荐(10)

文本挖掘

摘要：一个暑假回来到了该找工作的紧张时期了。不过项目还是要继续做嘛，╮(╯_╰)╭，放假前用python爬到了一些网页，也尝试着分了词。现在进入文本挖掘阶段吧。R在数据挖掘和机器学习方面好似很方便，安了试试看。界面跟Matlab有几分相似呢……o(≧v≦)o~~-------2013.9.13----python分词、词频统计、寻找公共词--R还是有点偏向学术计算的语言了，最后还是换上半生不熟的python来做。之前爬到了网页数据（见上片文章【网络爬虫】最后8.3的记录），而且尝试了分词。现在完善了以下处理：1、对所有爬到是网页数据进行分词（没有设立自定义词典）如果设置自定义词典，那么分词效果会更好阅读全文

posted @ 2013-09-04 21:04 elar 阅读(13567) 评论(0) 推荐(2)

网络爬虫

摘要：这次去杭州参加阿里巴巴的离线大数据处理暑期课，得到一个思路。之前一直纠结于没有数据要怎么训练我的旅行个性化推荐。毕设木有头绪啊，做不粗来要人命呀！现在觉得可以在网上爬一些数据下来，看看能不能分析出各个景点之间的关系。现在开贴记录自己的工作。2013.7.24使用urllib。（3.0以后urllib2就整合到urllib中了，见【这里】）import urllib.requestc = urllib.request.urlopen('http://www.baidu.com')contents = c.read()print(contents[0:50])代码参考自《集体智慧阅读全文

posted @ 2013-07-24 22:40 elar 阅读(4210) 评论(1) 推荐(0)

《集体智慧编程》读书笔记 1 聚类简介

摘要：1、聚类算法的目的是采集数据，然后从中找出不同的群组。2、Universal Feed Parser可以方便地解析RSS订阅源，即从RSS或Atom订阅源中得到标题、链接和文章的内容。3、皮尔逊相关度其实判断的是两组数据与某条直线的拟合程度，当两者完全匹配时，计算结果为1.0，当两者毫无关系时，计算结果为0.0.4、分级聚类分级聚类的结果会产生一棵树：分级聚类虽然会返回一棵形象直观的树，但这种方法有两个缺点。在没有额外指定的情况下，树形视图不会真正将数据拆分成不同的组，而且该算法的计算量惊人。因为我们必须计算每两个数据项之间的关系，并且在合并项之后这些关系还得再计算，所以在处理大规模的数据集时阅读全文

posted @ 2013-04-23 19:11 elar 阅读(1099) 评论(0) 推荐(0)

VMware中使用CentOS安装并测试Hadoop

摘要：预备软件：使用的是CentOS6.0、hadoop-1.0.4Jdk使用的是jdk-6u29-linux-i586-rpm.bin文档帮助：Hadoop-1.0.4文档http://hadoop.apache.org/docs/r1.0.4/单机安装指南http://hadoop.apache.org/docs/r1.0.4/single_node_setup.html集群安装指南http://hadoop.apache.org/docs/r1.0.4/cluster_setup.html摘要本文将介绍在CentOS中如何安装Hadoop，安装之前需要哪些预备环境。安装过程中需要配置哪些文件。阅读全文

posted @ 2013-01-05 22:10 elar 阅读(7237) 评论(1) 推荐(2)

一个不错的学习Hadoop和MapReduce的个人博客

摘要：Mapreduce是一种模式。Hadoop是一种框架。Hadoop是一个实现了mapreduce模式的开源的分布式并行编程框架。从能提出这三个基础点上就知道这个作者值得看。地址是http://blog.csdn.net/v_july_v/article/details/6704077 阅读全文

posted @ 2012-12-26 15:49 elar 阅读(949) 评论(0) 推荐(0)

随笔分类 - 大数据处理

公告