Hadoop - 随笔分类 - 夏至冬末

CentOS6.0/RedHat Server 6.4安装配置过程详细图解！

摘要：1、准备安装1.1 系统简介 CentOS 是什么？ CentOS是一个基于Red Hat企业级 Linux 提供的可自由使用的源代码企业级的 Linux 发行版本。每个版本的CentOS 都会获得七年的支持（通过安全更新方式）。新版本的CentOS 每两年发行一次，而每个版本的 CentOS ... 阅读全文

posted @ 2014-03-07 12:48 夏至冬末阅读(673) 评论(0) 推荐(0)

超越算法来看待个性化推荐

摘要：一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何数据挖掘应用一样，算法不是起决定作用的，背景... 阅读全文

posted @ 2013-08-27 13:15 夏至冬末阅读(225) 评论(0) 推荐(0)

实时个性化推荐系统简述

摘要：传统的个性化推荐系统，都是定期对数据进行分析，然后对模型进行更新，进而利用新的模型进行个性化推荐。由于是定期更新模型的，推荐模型无法保持实时性，推荐的结果可能不会非常精准。例如网易云音乐的用户，假如用户这会儿无意中听到了一种曲风，觉得这种曲风很好听，连续听了好几首这样子的歌曲。如果我们的推荐系统没有... 阅读全文

posted @ 2013-08-27 09:54 夏至冬末阅读(521) 评论(0) 推荐(0)

数据预处理

摘要：现实世界中数据大体上都是不完整，不一致的脏数据，无法直接进行数据挖掘，或挖掘结果差强人意。为了提前数据挖掘的质量产生了数据预处理技术。数据预处理有多种方法：数据清理，数据集成，数据变换，数据归约等。这些数据处理技术在数据挖掘之前使用，大大提高了数据挖掘模式的质量，降低实际挖掘所需要的时间。一... 阅读全文

posted @ 2013-08-16 15:11 夏至冬末阅读(209) 评论(0) 推荐(0)

HDFS命令行操作

摘要：启动后可通过命令行使用hadoop。(1)所有命令（先将$HADOOP_HOME/bin加入到.bashrc的$PATH变量中）[html]view plaincopy[hadoop@node14hadoop-0.21.0]$ll$HADOOP_HOME/bintotal88-rwxr-xr-x1... 阅读全文

posted @ 2013-08-15 15:04 夏至冬末阅读(244) 评论(0) 推荐(0)

Hive内表和外表的区别

摘要：本文以例子的形式介绍一下Hive内表和外表的区别。例子共有4个：不带分区的内表、带分区的内表、不带分区的外表、带分区的外表。1 不带分区的内表#创建表create table innerTable(id int,name string) row format delimited fields ter... 阅读全文

posted @ 2013-08-14 16:48 夏至冬末阅读(1830) 评论(0) 推荐(1)

hive中简单介绍分区表

摘要：所介绍内容基本上是翻译官方文档，比较肤浅，如有错误，请指正！hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段，而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表：... 阅读全文

posted @ 2013-08-14 16:43 夏至冬末阅读(268) 评论(0) 推荐(0)

对现有Hive的大表进行动态分区

摘要：分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围，从而提高速度。分区分为两种：静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时，是手动输入分区名称，还是通过数据来判断数据分区。对于大数据批量导入来说，显然采... 阅读全文

posted @ 2013-08-14 15:48 夏至冬末阅读(396) 评论(0) 推荐(0)

Hive表分区

摘要：必须在表定义时创建partitiona、单分区建表语句：create table day_table (id int, content string) partitioned by (dt string);单分区表，按天分区，在表结构中存在id，content，dt三列。以dt为文件夹区分b、双分... 阅读全文

posted @ 2013-08-14 15:34 夏至冬末阅读(230) 评论(0) 推荐(0)

Hive常用的SQL命令操作

摘要：创建表hive> CREATE TABLE pokes (foo INT, bar STRING);创建表并创建索引字段dshive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);显示所有表hive> S... 阅读全文

posted @ 2013-08-13 15:14 夏至冬末阅读(3410) 评论(0) 推荐(0)

Hadoop分布式安装

摘要：一、安装准备 1、下载hadoop，地址：http://hadoop.apache.org/,下载相应版本 2、下载JDK版本：Hadoop只支持1.6以上，地址：http://www.oracle.com/technetwork/java/javase/downloads/index.... 阅读全文

posted @ 2013-08-13 15:01 夏至冬末阅读(173) 评论(0) 推荐(0)

Hadoop命令摘录

摘要：一：文件操作1、建立目录[hadoop@hadoop1:hadoop]$bin/hadoop dfs -mkdir testdir在HDFS中建立一个名为testdir的目录2、上传文件到HDFS[hadoop@hadoop1:hadoop]$bin/hadoop dfs -put /home/ha... 阅读全文

posted @ 2013-08-13 14:39 夏至冬末阅读(148) 评论(0) 推荐(0)

HDFS基本知识整理

摘要：设计理念： 1、超大文件 2、流式数据访问 3、商用普通硬件不适合场景： 1、低时间延迟的数据访问 2、大量的小文件 3、多用户写入，任意修改文件一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的... 阅读全文

posted @ 2013-08-13 14:29 夏至冬末阅读(254) 评论(0) 推荐(0)

Hive基本命令整理

摘要：创建表：hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string创建... 阅读全文

posted @ 2013-08-13 14:10 夏至冬末阅读(269) 评论(0) 推荐(0)

Hadoop

摘要：最近想学习Hadoop，但苦于不知道怎么入门，有懂的，传授一下学习经验阅读全文

posted @ 2013-08-08 09:57 夏至冬末阅读(87) 评论(0) 推荐(0)

随笔分类 - Hadoop