大数据从业者FelixZh

2015年11月24日

摘要： Docker启动时，会在宿主主机上创建一个名为docker0的虚拟网络接口，默认选择172.17.0.1/16，一个16位的子网掩码给容器提供了 65534个IP地址。docker0只是一个在绑定到这上面的其他网卡间自动转发数据包的虚拟以太网桥，它可以使容器和主机相互通信，容器与容器间通信。Doc... 阅读全文

posted @ 2015-11-24 18:35 大数据从业者FelixZh 阅读(2033) 评论(0) 推荐(0) 编辑

Understanding Docker

摘要： What is Docker? Docker 是一个开源的平台，设计目标是可以方便开发，方便部署和方便执行应用。使用docker可以快速分发开发好的应用。借助于Docker，你可以将开发平台和应用分离开，并且像管理应用一样管理开发平台。Docker可以帮助你快速开发应用，快速测试应用，快速部署应... 阅读全文

posted @ 2015-11-24 17:57 大数据从业者FelixZh 阅读(334) 评论(0) 推荐(0) 编辑

Docker入门

摘要： Docker简介一种虚拟容器技术。一种虚拟化分方案；操作系统级别的虚拟化；只能运行相同或相似内核的操作系统；依赖与linux内核特性：Namespace和Cgroups（Control Group）虚拟机技术和容器技术最大的区别就是对资源的占用。Docker目标提供简单轻量的建模方式职责的逻辑分离快... 阅读全文

posted @ 2015-11-24 17:30 大数据从业者FelixZh 阅读(608) 评论(0) 推荐(0) 编辑

使用Docker在本地搭建Hadoop分布式集群

摘要：学习Hadoop集群环境搭建是Hadoop入门必经之路。搭建分布式集群通常有两个办法：要么找多台机器来部署（常常找不到机器）或者在本地开多个虚拟机（开销很大，对宿主机器性能要求高，光是安装多个虚拟机系统就得搞半天……）。那么，问题来了！有没有更有可行性的办法？提到虚拟化，Docker最近很是火热！不... 阅读全文

posted @ 2015-11-24 17:08 大数据从业者FelixZh 阅读(2924) 评论(0) 推荐(1) 编辑

2015年11月20日

Cassandra联手Spark 大数据分析将迎来哪些改变？

摘要： 2014Spark峰会在美国旧金山举行，与会数据库平台供应商DataStax宣布，与Spark供应商Databricks合作，在它的旗舰产品 DataStax Enterprise 4.5 (DSE)中，将Cassandra NoSQL数据库与Apache Spark开源引擎相结合，为用户提供基于... 阅读全文

posted @ 2015-11-20 11:36 大数据从业者FelixZh 阅读(1296) 评论(0) 推荐(0) 编辑

Apache Spark技术实战之6 --Standalone部署模式下的临时文件清理

摘要：问题导读1.在Standalone部署模式下，Spark运行过程中会创建哪些临时性目录及文件?2.在Standalone部署模式下分为几种模式？3.在client模式和cluster模式下有什么不同？概要在Standalone部署模式下，Spark运行过程中会创建哪些临时性目录及文件，这些临时目录和... 阅读全文

posted @ 2015-11-20 11:18 大数据从业者FelixZh 阅读(364) 评论(0) 推荐(0) 编辑

2015年11月18日

大数据计算平台Spark内核全面解读

摘要： 1、Spark介绍Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台，在2010年开源，目前是Apache软件基金会的顶级项目。随着Spark在大数据计算领域的暂露头角，越来越多的企业开始关注和使用。2014年11月，Spark在Daytona Gray Sort 100TB Be... 阅读全文

posted @ 2015-11-18 18:23 大数据从业者FelixZh 阅读(1575) 评论(0) 推荐(0) 编辑

Ubuntu下导入PySpark到Shell和Pycharm中（未整理）

摘要：实习后面需要用到spark，虽然之前跟了edX的spark的课程以及用spark进行machine learning，但那个环境是官方已经搭建好的，但要在自己的系统里将PySpark导入shell（或在Python里可以import pyspark）还是需要做一些操作的。（下图，忘了先define一... 阅读全文

posted @ 2015-11-18 11:27 大数据从业者FelixZh 阅读(5475) 评论(0) 推荐(0) 编辑

2015年11月13日

别老扯什么hadoop，你的数据根本不够大

摘要：本文原名“Don't use Hadoop when your data isn't that big ”，出自有着多年从业经验的数据科学家Chris Stucchio，纽约大学柯朗研究所博士后，搞过高频交易平台，当过创业公司的CTO，更习惯称自己为统计学者。对了，他现在自己创业，提供数据分析、推荐... 阅读全文

posted @ 2015-11-13 11:26 大数据从业者FelixZh 阅读(2381) 评论(0) 推荐(0) 编辑

2015年11月11日

spark on yarn 集群部署

摘要：概述hadoop2.7.1 spark 1.5.1192.168.31.62 resourcemanager, namenode, master192.168.31.63 nodemanager, datanode, worker192.168.31.64 nodemanager, datan... 阅读全文

posted @ 2015-11-11 17:12 大数据从业者FelixZh 阅读(612) 评论(0) 推荐(0) 编辑

spark on yarn模式：yarn命令杀除当前的application

摘要：在hadoop/bin目录下有yarn命令yarn application -kill 阅读全文

posted @ 2015-11-11 16:44 大数据从业者FelixZh 阅读(654) 评论(0) 推荐(0) 编辑

2015年11月9日

ubuntu下定时任务的执行

摘要：概述linux系统由cron(crond)这个系统服务来控制例行性计划任务。Linux系统上面原本就有非常多的计划性工作，因此这个系统服务是默认启动的。另外,由于使用者自己也可以设置计划任务，所以，Linux系统也提供了使用者控制计划任务的命令:crontab命令。Linux下的任务调度分为两类，系... 阅读全文

posted @ 2015-11-09 16:54 大数据从业者FelixZh 阅读(658) 评论(0) 推荐(0) 编辑

ubuntu下配置rsync，实现远程备份

摘要： rysnc(remote synchronize)在CentOS系统默认安装在/usr/bin，此外rysnc在windows平台下也有相应版本。主页地址为：http://rsync.samba.org/概述Rsync（remote synchronize）远程同步工具，基于SSH同步本地和远程主... 阅读全文

posted @ 2015-11-09 15:25 大数据从业者FelixZh 阅读(6225) 评论(0) 推荐(0) 编辑

ubuntu使用遇到的问题

摘要：１．不适当操作，改了sudoers的权限scdev@scdev1005:~$ sudo vim /etc/profilesudo: /etc/sudoers is owned by uid 1000, should be 0sudo: no valid sudoers sources found, ... 阅读全文

posted @ 2015-11-09 11:32 大数据从业者FelixZh 阅读(1350) 评论(0) 推荐(0) 编辑

2015年11月6日

高可用,完全分布式Hadoop集群HDFS和MapReduce安装配置指南

摘要：原文：http://my.oschina.net/wstone/blog/365010#OSC_h3_13(WJW)高可用,完全分布式Hadoop集群HDFS和MapReduce安装配置指南[X] 安装环境:[X] 编译hadoop[1] 拷贝hadoop-2.2.0-src.tar.gz到hado... 阅读全文

posted @ 2015-11-06 11:20 大数据从业者FelixZh 阅读(591) 评论(0) 推荐(0) 编辑

2015年11月5日

spark program guide

摘要：概述Spark 应用由driver program 组成，driver program运行用户的主函数，在集群内并行执行各种操作主要抽象RDD： spark提供RDD，是贯穿整个集群中所有节点的分区元素的集合，能够被并行操作。RDDS来源：１．Hadoop文件系统或支持Hadoop的文件系统... 阅读全文

posted @ 2015-11-05 13:43 大数据从业者FelixZh 阅读(326) 评论(0) 推荐(0) 编辑

ubuntu集群下ssh配置总结

摘要：最重要的前提就是：集群中的所有机器的用户名和用户组必须一样一般做法都是在每台机器上新建用户组和用户名。比如：sudo addgroup sparks 新建用户组sparks； sudo adduser spark sparks　在新建用户组sparks中添加用户spark sudo addu... 阅读全文

posted @ 2015-11-05 11:24 大数据从业者FelixZh 阅读(329) 评论(0) 推荐(0) 编辑

2015年10月26日

从此使用linux系统，但是QQ是必不可少的！！该篇文章方法成功！！！已验证！！！！！

摘要：一开始，我在Ubuntu14.04下安装的QQ版本是WineQQ2013SP6-20140102-Longene,但后来发现这个版本QQ在linux下问题很多，比如不能用键盘输入密码，QQ表情使用失灵，有些不兼容等，最重要的是我发现它及其的占用CPU，令我很不爽（有图为证）：于是我便用sudo dp... 阅读全文

posted @ 2015-10-26 18:25 大数据从业者FelixZh 阅读(327) 评论(0) 推荐(0) 编辑

mongodb初级

摘要：上班第一天，先玩玩mongdb！1：下载安装就不说了2：启动服务 mongod 通常会报错：原因：mongodb会使用默认的数据库存储路径是data/db，刚安装好的mongodb是不存在该路径的可通过指定路径启动服务 mongod --dbpath 你指定的路径。启动成功！2：通过she... 阅读全文

posted @ 2015-10-26 17:55 大数据从业者FelixZh 阅读(586) 评论(0) 推荐(0) 编辑

2015年9月24日

约瑟夫环

摘要： package 约瑟夫环;import java.util.ArrayList;import java.util.List;public class 约瑟夫环 { public static void main(String[] args) { List list = n... 阅读全文

posted @ 2015-09-24 21:49 大数据从业者FelixZh 阅读(266) 评论(0) 推荐(0) 编辑

括号匹配

摘要： package 括号匹配;import java.util.Stack;public class 括号匹配 { public static void main(String[] args) { Stack stack = new Stack(); c... 阅读全文

posted @ 2015-09-24 21:47 大数据从业者FelixZh 阅读(239) 评论(0) 推荐(0) 编辑

2015年9月14日

采用线性探测方法解决冲突

摘要：已知一个线性表（38，25，74，63，52，48），假定采用散列函数h(key)=key%7计算散列地址，并散列存储在散列表A[0..6]中，若采用线性探测方法解决冲突，则在该散列表上进行等概率成功查找的平均查找长度为___分析：利用该散列函数散列存储结果为68|48 | |38|25|74|52... 阅读全文

posted @ 2015-09-14 15:47 大数据从业者FelixZh 阅读(3934) 评论(0) 推荐(0) 编辑

2015年8月25日

C#字节数组与字符串转换

摘要： using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;using System.Drawing;using System.Linq;using System.Text;u... 阅读全文

posted @ 2015-08-25 17:27 大数据从业者FelixZh 阅读(825) 评论(0) 推荐(0) 编辑

2015年8月22日

在一个字符串中找出以同样的顺序连续出现在另一个字符串中的最长连续字符串的长度

摘要： package InterviewTitle;import java.util.ArrayList;public class 搜索最长字符串 { public static void main(String[] args) { String query = "acbac"; ... 阅读全文

posted @ 2015-08-22 17:27 大数据从业者FelixZh 阅读(359) 评论(0) 推荐(0) 编辑

2015年8月19日

二分查找（递归和非递归实现）

摘要：当然前提是：有序数列，这里以升序为例！public class binarySearch { public static void main(String[] args) { int arr[]={1,2,3,4,5,6,7,8,9}; int key=9;... 阅读全文

posted @ 2015-08-19 16:01 大数据从业者FelixZh 阅读(484) 评论(0) 推荐(0) 编辑

螺旋形打印矩阵

摘要： package 矩阵1;public class JuZheng { public static void main(String args[]) { int n = 5; int m = 0; int k = 0; int[][] a ... 阅读全文

posted @ 2015-08-19 15:39 大数据从业者FelixZh 阅读(270) 评论(0) 推荐(0) 编辑

n阶方阵的最值问题和对角线的和问题

摘要：如题！package 矩阵2;public class JuZheng { public static void main(String args[]) { int array[][] = { { 1, 2, 3 }, { 4, 5, 6 }, { 7, 8, 9 } }; ... 阅读全文

posted @ 2015-08-19 14:57 大数据从业者FelixZh 阅读(320) 评论(0) 推荐(0) 编辑

求矩阵每行的最大值

摘要：要求：给出一个举证，求出矩阵每行中的最大值！非方阵一样的！public class JuZheng { public static void main(String args[]) { int a[][] = { { 1, 2, 3 }, { 4, 5, 6 },{7,8,9}}... 阅读全文

posted @ 2015-08-19 14:40 大数据从业者FelixZh 阅读(893) 评论(0) 推荐(0) 编辑

2015年8月18日

完美集群监控组合ganglia和nagios

摘要： Ganglia是伯克利开发的一个集群监控软件。可以监视和显示集群中的节点的各种状态信息，比如如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等，同时可以将历史数据以曲线方式通过php页面呈现。而ganglia又依赖于一个web服务器用来显示集群状态，用rrdtool来存储数据和生成曲线图... 阅读全文

posted @ 2015-08-18 17:31 大数据从业者FelixZh 阅读(560) 评论(0) 推荐(0) 编辑

数据库设计三大范式

摘要： http://www.cnblogs.com/linjiqin/archive/2012/04/01/2428695.html为了建立冗余较小、结构合理的数据库，设计数据库时必须遵循一定的规则。在关系型数据库中这种规则就称为范式。范式是符合某一种设计要求的总结。要想设计一个结构合理的关系型数据库，必... 阅读全文

posted @ 2015-08-18 14:59 大数据从业者FelixZh 阅读(346) 评论(0) 推荐(0) 编辑

大数据从业者

最新文章，见微信公众号：大数据从业者

公告