摘要: 打扰大家了,我在京东大数据平台工作。团队招人,不知道放到这里是否合适。下面的简介你可以不看,只要你在大数据这个行业,富有激情,对技术有狂热的追求,请联系我。我的微信itjob123,咱可以详聊。你也可以在后面留言,我将详细解答。我不是HR,纯码农。岗位职责:1. 海量商业/基础数据的分析/处理,包括... 阅读全文
posted @ 2014-06-21 14:46 QG.xiaoguang 阅读(221) 评论(0) 推荐(0) 编辑
摘要: Ctrl+L 选择整行(按住-继续选择下行)Ctrl+KK 从光标处删除至行尾Ctrl+Shift+K 删除整行Ctrl+Shift+D 克隆光标所在整行,或克隆当前选择Ctrl+J 合并行(已选择需要合并的多行时)Ctrl+KU 改为大写Ctrl+KL 改为小写Ctrl+D 选词 (按住-继续选择下个相同的字符串)Ctrl+M 光标移动至括号内开始或结束的位置Ctrl+Shift+M 选择括号内的内容(按住-继续选择父括号)Ctrl+/ 注释整行(如已选择内容,同“Ctrl+Shift+/”效果)Ctrl+Shift+/ 注释已选择内容Ctrl+Shift+A 选择光标位置父标签对儿Ctrl 阅读全文
posted @ 2014-02-10 21:20 QG.xiaoguang 阅读(382) 评论(0) 推荐(0) 编辑
摘要: 自然语言分析 分词算法 阅读全文
posted @ 2013-08-05 20:45 QG.xiaoguang 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 要实现如下需求:批量给hive的表加分区,分区都是这样的格式 dt=“2012-07-01”加分区的语句如下:use test;ALTER TABLE another_sku_uv ADD IF NOT EXISTS PARTITION (dt='2012-07-12') LOCATION '/user/test/warehouse/mid.db/sku_uv/dt=2012-07-12';现在在/user/test/warehouse/mid.db/sku_uv/ 下面有从2012-07-01 -- 2012-12-31 的分区数据.如何批量添加分区呢?我想到 阅读全文
posted @ 2013-03-13 12:18 QG.xiaoguang 阅读(1239) 评论(0) 推荐(0) 编辑
摘要: 这两天在读淘宝开源出来的DataX,想模仿它写一个离线数据交换组件。读了它读写Hbase的插件的源代码,觉得写得确实比我之前写得好。整理出来,放在这里,向优秀代码学习。关键的地方时它在处理异常的时候考虑的比我周全很多。先是写Hbase的代码:/** * (C) 2010-2011 Alibaba Group Holding Limited. * * This program is free software; you can redistribute it and/or * modify it under the terms of the GNU General Public License 阅读全文
posted @ 2013-02-21 17:52 QG.xiaoguang 阅读(534) 评论(1) 推荐(0) 编辑
摘要: 今天是2月19日,农历正月初十。算算从去年2月6号来公司实习,到后来正式入职,到现在已经两年出头了。去年这一年,回想起来似乎并无可以骄傲的事情。只是从原来的移动开发领域跳进了大数据领域。从去年七月份到现在,其实一直是在熟悉大数据这个领域。从Hadoop到storm,从flume 到 hbase 。。。。其实更多的是熟悉这些工具的使用,真正自己写的代码真是少之又少。做的更多的貌似也是类似于运维的工作。搭建环境,测试,编写demo等等。好听点叫开创公司的先河。。。。。写写今年的小计划吧。今年所在小组会搭建公司底层的实时计算框架,为公司以后的实时计算业务夯实基础。我呢,要坚持做下面这些。1.学习Cl 阅读全文
posted @ 2013-02-19 15:37 QG.xiaoguang 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 这份PPT是之前跟QG的小朋友们做的分享,里面不知道寄托了我多少的希望。你们珍重啊:”毕业季.ppt”http://vdisk.weibo.com/s/7akAK 阅读全文
posted @ 2013-02-17 16:18 QG.xiaoguang 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 1.Python“Django1.0以上版本的教材-DjangoBook2.0中文版.pdf” http://vdisk.weibo.com/s/1ySXT2.设计模式“大话设计模式(带目录完整版).pdf”http://vdisk.weibo.com/s/4s61 阅读全文
posted @ 2013-02-17 16:16 QG.xiaoguang 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 疑难解答:这个页面列出了一些人们在使用storm时遇到的问题和他们的解决方案。worker 进程 启动时没有堆栈信息。可能的情形:Topology 只在一台机器的不同worker中运行,但是在多节点上运行会遇到问题或崩溃。解决方法:你可能配置错了子网,在其中节点不能通过hostname(机器名)定位其他的节点。ZeroMQ 有时不能解析主机的时候不能处理数据。有两种解决办法。1.在/etc/hosts 中做hostname 和 ip 的映射2.假设内部DNS服务器,这样节点都能通过hostname定位其他节点。节点之间不能够通信可能的现象:每一个spout tuple 都失败进程不工作解决方法 阅读全文
posted @ 2013-02-17 16:15 QG.xiaoguang 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 环境:ubuntu 11.10说明:ubuntu 11.10 中 自带 python2.7 python3.2是后来自己安装上去的:sudo apt-get install python31.需要安装python3 版本的setuptools .旧版的setuptools已经不能用于Python3上了,国外有大神fork出了另一分支distribute,它可以支持Python3wget http://pypi.python.org/packages/source/d/distribute/distribute-0.6.28.tar.gz#解压缩 && 安装tar -xzvf . 阅读全文
posted @ 2013-02-17 16:14 QG.xiaoguang 阅读(553) 评论(0) 推荐(0) 编辑