2014 年 4月随笔档案 - 李克华

MongoDB数据文件内部结构

摘要：有人在Quora上提问：MongoDB数据文件内部的组织结构是什么样的。随后10gen的工程师Jared Rosoff出来做了简短的回答。每一个数据库都有自己独立的文件。如果你开启了directoryperdb选项，那你每个库的文件会单独放在一个文件夹里。数据库文件在内部会被切分成单个的块，每个块只... 阅读全文

posted @ 2014-04-30 09:57 李克华阅读(759) 评论(0) 推荐(0) 编辑

压缩 MongoDB 的数据文件

摘要：MongoDB采用了磁盘空间预分配的机制，为了避免磁盘碎片以及使用mmap后造成的近一步的内存碎片，但是随着数据的增删除改操作，数据文件不可避免的会产生空洞，造成磁盘空间和内存的浪费。本文说的是这方面的压缩，数据使用某些压缩算法进行压缩的讨论不在此范围。在MongoDB 中，大概有两种方法可以解决这... 阅读全文

posted @ 2014-04-30 09:55 李克华阅读(1972) 评论(0) 推荐(0) 编辑

服务器如何选择网络带宽(转)

摘要：带宽是决定主机访问速度的重要因素之一，尤其是对于访问量大的网站，网络带宽的大小显得尤为重要。而流量其实就是带宽在时间上的累积，用数学上的话说就是带宽对时间的积分。做个通俗的比喻，拿自来水来说，带宽其实就是水管的流速，而流量就是流出的水的总量。因为网络带宽和流量对于虚拟主机来说至关重要，所以在选购虚拟... 阅读全文

posted @ 2014-04-23 14:00 李克华阅读(3896) 评论(0) 推荐(1) 编辑

刀片服务器和磁盘阵列卡（RAID）技术---永和维护（转）

摘要：近期客户需要更换服务器，客户把买好的服务器送来了，原本感觉很小的一个服务器，可当我看到的时候是一个大个的又长又宽，类似机房服务器的那种，后来米老师给大致讲解一番：这个是刀片服务器。刀片服务器是指在标准高度的机架式机箱内可插装多个卡式的服务器单元，是一种实现HAHD(High Availabilit... 阅读全文

posted @ 2014-04-23 09:16 李克华阅读(2165) 评论(0) 推荐(0) 编辑

Solr打分出错

摘要：solr支持给某Field打分，在验证的过程的过程中出现错误：ERROR: [doc=likehua] cannot set an index-time boost, unindexed or norms are omitted for field id: likehua。而我的操作是给id打分，去... 阅读全文

posted @ 2014-04-14 10:15 李克华阅读(435) 评论(0) 推荐(0) 编辑

Solr添加SolrDocument报错

摘要：今天写了一个solr入库接口，使用了SolrServer.addBean接口，结果报错：Caused by: org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException: Document is missing manda... 阅读全文

posted @ 2014-04-14 10:00 李克华阅读(1535) 评论(0) 推荐(0) 编辑

解决Windows Git Bash中文乱码问题

摘要：在git 安装目录 etc 下面添加以下配置信息 1,/etc/gitconfig： [gui] encoding = utf-8 #代码库统一用urf-8,在git gui中可以正常显示中文 [i18n] commitencoding = GB2312 #log编码，window下默认gb2312,声明后发到服务器才不会乱码 [svn] pathnameencoding = GB2312 #支持中文路径 2,/etc/git-completion.bash: alias ls='ls --show-control-chars --color=auto' #ls能够正常显示. 阅读全文

posted @ 2014-04-04 16:50 李克华阅读(5503) 评论(0) 推荐(0) 编辑

HAProxy的独门武器：ebtree

摘要：1.HAProxy和ebtree简介HAProxy是法国人Willy Tarreau个人开发的一个开源软件，目标是应对客户端10000以上的同时连接，为后端应用服务器、数据库服务器提供高性能的负载均衡服务。在底层数据结构方面，旧版本HAProxy曾经使用过红黑树，用于任务调度、负载均衡等方面。但是Willy Tarreau认为，在事件响应非常频繁的情况下，任务插入、删除的频率非常高，这时候使用红黑树存在性能瓶颈，尤其不能接受红黑树删除节点的时间复杂度为O(log n)。因此，他发明了一种新的数据结构，叫做弹性二叉树（elastic binary tree），简称ebtree。目前新版本的HAP 阅读全文

posted @ 2014-04-03 13:44 李克华阅读(722) 评论(0) 推荐(0) 编辑

Impala与Hive的比较

摘要：1. Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。其架构如图 1所示，Impala主要由Impalad， State Store和CLI组成。图 1 Impalad: 与DataNode运行在阅读全文

posted @ 2014-04-03 13:38 李克华阅读(10727) 评论(0) 推荐(0) 编辑

李克华

云计算高级群: 292870151 195907286 交流：Hadoop、NoSQL、分布式、lucene、solr、nutch

04 2014 档案

公告

搜索

我的标签

随笔档案

阅读排行榜

推荐排行榜

最新评论