简单，可复制

点点滴滴，尽在文中

:: :: :: :: :: ::

:: ::

431 随笔 :: 0 文章 :: 617 评论 :: 1546万阅读

公告

git入门学习网站kkgit

免费svn空间

昵称： ggjucheng
园龄： 13年2个月
粉丝： 2088
关注： 6

博客地图

友情链接

相当好用的免费svn空间

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:Linux free命令详解(转)
为什么在我电脑上是total=used+availible
--bookcat
2. Re:linux grep命令详解
很好，很实用
--香近凌晨
3. Re:Linux IO实时监控iostat命令详解
实例分析部分，ostat-->iostat，少了个i。
--同勉共进
4. Re:别被漫画骗了..棋魂真正的结局是....
这个结局真好啊
--源原原
5. Re:Linux netstat命令详解
@luoxianglee 阁下语言表达很到位...
--zzylekang

hadoop笔记本

海量数据

　　　　那些年Google公开的大数据领域论文

　　　　大数据量，海量数据处理方法总结

　　　　布隆过滤器应用

　　　　Google Dremel 原理 – 如何能3秒分析1PB

　　　 Google Spanner原理- 全球级的分布式数据库

　　　　悉数那些“巨型”数据仓库

　　　　Hadoop在业界的使用情况

　　　　淘宝Hadoop集群的概况

　　　　淘宝数据魔方技术架构解析

　　　　Facebook的实时Hadoop系统

　　　　Apache Hadoop Goes Realtime at Facebook(译)

数据统计

　　网站统计中的数据收集原理及实现

数据挖掘

　　一个电商数据分析师的经验总结

　　五个免费开源的数据挖掘软件

　　Google推出Prediction API

　　K Nearest Neighbor 算法(归类)

　　K-Means 算法(聚类)

　　kmeans算法java版本

　　

hadoop2

　　hadoop2升级的那点事情(详解)

hadoop

　　介绍

　　　　Hadoop分布式文件系统：架构和设计要点

　　　　mapreduce作业流程概论

　　　　Hadoop使用场景

　　管理

　　　　hadoop集群部署

　　　　hadoop部署注意项

　　　　hadoop配置文件说明

　　　　hadoop集群默认配置和常用配置

　　　 hadoop集群测量

　　　　Hadoop管理员的十个最佳实践

　　　　Hadoop 权限管理

　　　　Hadoop FS Shell

　　　　Hadoop Shell 讲解

　　　　hadoop fs -count的结果含义

　　　　Hadoop添加节点datanode

　　　　Hadoop删除节点

　　　　hadoop SecondaryNameNode和NameNode

　　　　hadoop 根据SecondaryNameNode恢复Namenode

　　　　hadoop机架感知

　　　　HDFS 安全模式

　　　　hadoop的dfs.replication

　　　　Hadoop回收站trash

　　　　hadoop升级

　　　　Hadoop计算能力调度器算法解析

　　　　Hadoop计算能力调度器应用和配置

　　　　hadoop mapred-queue-acls 配置

　　　　hadoop和kerberos的整合总结

　　　　hadoop的dfs.umask

　　　　NFS服务对Hadoop（hdfs）集群影响测试

　　　　Facebook团队关于Hadoop/HBase在SSD上的实验和讨论

　　　　HADOOP动态加载配置

　　　　基于计算机资源分析hadoop的默认counter

　　调优

　　　　hadoop作业调优参数整理及原理

　　原理实现

　　　　序

　　　　HDFS的基本概念

　　　　HDFS 读写流程

　　　　HDFS namenode源码分析

　　　　HDFS datanode源码分析

　　　 HDFS dfsclient读文件过程源码分析

　　　 HDFS dfsclient写文件过程源码分析

　　　　How MapReduce Works

　　　　MapReduce源码分析总结

　　　 eclipse下编译hadoop源代码

　　　　基于hadoop的crc校验谈hadoop的离线设计思想

　　　　Hadoop在MapReduce中使用压缩详解

　　　　HDFS数据的Checksum

　　　　Hadoop开发常用的InputFormat和OutputFormat

　　　　Hadoop之failed task和killed task

　　　　Hadoop的调度器总结

hive

　　Hive体系架构

　　应用

　　　　Hadoop和Hive的数据处理流程

　　管理

　　　　hive部署手册

　　　　hive元数据中utf8的修改

　　　 hive并发调用的运行方式-个人经验篇

　　　　

　　　　hive Cli常用操作(翻译自Hive wiki)

　　　　hive数据类型(翻译自Hive Wiki)

　　　　hive 创建/删除/截断表(翻译自Hive wiki)

　　　　hive数据操作(翻译自Hive wiki+实例讲解)

　　　　hive原生和复合类型的数据加载和使用

　　　 hive修改表/分区语句

　　　　hive select操作(翻译自Hive wiki)

　　　　hive GroupBy操作(翻译自Hive wiki)

　　　 hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

　　　　Hive Join(翻译自Hive wiki)

　　　　 hive lateral view语句(翻译自Hive wiki)

　　　　Hive Union(翻译自Hive wiki)

　　　　Hive子查询(翻译自Hive wiki)

　　　　 hive实例讲解实现in和not in子句

　　　　Hive Explain(翻译自Hive wiki)

　　　　Hive虚拟列(翻译自Hive wiki)

　　　　hive 锁定(翻译自Hive wiki)

　　　 hive函数(Hive wiki)

　　　　hive udf开发流程(Hive wiki)

　　　　hive udaf开发入门和运行过程详解

　　　　hive中UDTF编写和使用

　　　　hive属性(Hive wiki)

　　　　hive中分组取前N个值的实现

　　　　hive sql遇到的问题

　　优化

　　　　hive大数据倾斜总结

　　　　hive join详解

　　　　

　　　　hive文件存储格式

　　　　hive怎样决定reducer个数

　　　　hive的hive.exec.parallel参数说明

　　　　hive local hadoop特性　　　　

pig

　　介绍入门

　　　　Apache Pig入门 –介绍/基本架构/与Hive对比

　　管理

　　　　pig部署手册

　　教程

　　　　Apache Pig中文教程集合

zookeeper

　　ZooKeeper概述

　　部署与管理ZooKeeper

　　ZooKeeper典型应用场景

　　ZooKeeper程序员指南

　　Zookeeper Api(java)入门与应用

　　zookeeper java例子(官网)

　　zookeeper 生产者与消费者(官网)

　　zookeeper 应用场景与方案(官网)

　　ZooKeeper 会话超时

　　Watcher使用的注意事项

　　zookeeper 权限控制

　　Paxos在大型系统中常见的应用场景

　　Zookeeper全解析——Paxos作为灵魂

　　Zookeeper全解析——Client端

　　zookeeper系列之通信模型

hbase

　　HBase体系结构

　　hbase数据模型

　 HBase使用场景和成功案例

　　Hbase配置手册

　　hbase shell(官方)

　　hbase shell基础和常用命令详解

　　Hive HBase集成(官网)

　　HBase Java API类介绍

　　通过Java Api与HBase交互

　　HBase二级索引与Join

　　HBase配置性能调优

　　HBase设计与开发性能优化

　　

　　HBase 在淘宝的应用和优化

　　(H2与HBase)面向行or面向列的存储模型

　　HBase查询一条数据的过程

posted on 2012-04-22 22:52 ggjucheng 阅读(40594) 评论(11) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· SQL Server 2025 AI相关能力初探
· Linux系列：如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· AI编程工具终极对决：字节Trae VS Cursor，谁才是开发者新宠？
· 开源Multi-agent AI智能体框架aevatar.ai，欢迎大家贡献代码
· Manus重磅发布：全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后，我竟然真的恢复了删除的微信聊天记录！