06 2017 档案
摘要:PUT是幂等方法,而POST并不是。 PUT用于更新操作,POST用于新增操作比较合适。 PUT,DELETE操作是幂等的,所谓幂等就是指不管进行多少次操作,结果都一样。 比如,我用PUT修改一篇文章,然后在做同样的操作,每次操作后的结果并没有不同,DELETE也是一样。 POST操作不是幂等,比如
阅读全文
摘要:前提博客是 Elasticsearch之sense插件的安装(图文详解) 立马,可以看到 以后更新
阅读全文
摘要:sense插件可以方便的执行rest请求,但是中文输入的体验不是很好。 安装sense只需要在Kibana端安装插件即可,插件会自动安装到kibana的应用菜单中。 立马,可以看到
阅读全文
摘要:问题详情 排查问题 解决办法 1、 2、 3、新建索引库和索引,进入,去测试有没有数据。 4、再把时间,调大点 原因定位于,是在 license过期了 、 点击,进入Get Basic,去完成注册的工作。 这里,大家自行去注册吧!我不贴图。注册好之后,然后大家去自己的邮箱点击生效即可。 注意: Re
阅读全文
摘要:一.下载安装 下载地址:http://www.squirrelsql.org/下载所需版本 或者 从网址http://www.squirrelsql.org/下载相应版本的squirrel的安装jar包,比如下载squirrel-sql-3.7-standard.jar; Window下安装: CM
阅读全文
摘要:不多说,直接上干货! 写在前面的话 我这里,四个节点的bigdata集群。分别为cmbigdata1、cmbigdata2、cmbigdata3和cmbigdata4。 https://i.cnblogs.com/posts?categoryid=916378 CentOS6.5下Cloudera安
阅读全文
摘要:不多说,直接上干货! 写在前面的话 我这里,三个节点的bigdata集群。分别为master、slave1和slave2。 1、Phoenix的下载 我的HBase版本是hbase-0.98.19。 下载地址: http://mirror.bit.edu.cn/apache/phoenix/ 或者
阅读全文
摘要:不多说,直接上干货! 前言 Phoenix是HBase的开源SQL引擎。 squirrel是windows上Phoneix可视化工具。 Phoenix的官网 Phoenix是什么? Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表,插
阅读全文
摘要:这里,需要Linux系统开了root用户,我这给root用户密码为root。 同时,在mysql -uroot -proot执行进去之后 update user setHost='%' where Host='localhost'; 登录之后执行一下 flush privileges; 欢迎大家,加
阅读全文
摘要:不多说,直接上干货! 命令行下具体用法如下: mysqldump -u用户名 -p密码 -d 数据库名 表名 > 脚本名; 比如,我这里的mysql,现有 导出mysql下的整个数据库结构和以及里面的数据 参考 http://blog.csdn.net/switzerland/article/det
阅读全文
摘要:写在前面的话 (1) 最近一段时间,因担任我团队实验室的大数据环境集群真实物理机器工作,至此,本人秉持负责、认真和细心的态度,先分别在虚拟机上模拟搭建ambari(基于CentOS6.5版本)和cloudermanager(基于CentOS6.5或Ubuntu14.04版本)。 (2) 大数据集群范
阅读全文
摘要:问题详情 相关问题的场景,是在我下面的这篇博客里 Cloudera Manager安装之利用parcels方式(在线或离线)安装3或4节点集群(包含最新稳定版本或指定版本的安装)(添加服务)(Ubuntu14.04)(五) 解决办法 若是centos系统,则是可以直接 就好了。 但是,在ubuntu
阅读全文
摘要:问题来源 因为,我在安装clouder manager5.X的时候,默认是需要oracle-j2sdk1.7。 它4.X时,才是1.6的。 若你还是在用clouder manager4.X版本的话,需要用到oracle-j2sdk1.6 则,见 http://download.csdn.net/do
阅读全文
摘要:问题详情 解决办法 欢迎大家,加入我的微信公众号:大数据躺过的坑 免费给分享 同时,大家可以关注我的个人博客: http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/ 人生苦短,我愿分享。本公众号将秉持活到老学到老学习无休止的交
阅读全文
摘要:前期博客 Cloudera Manager安装之Cloudera Manager 5.6.X安装(tar方式、rpm方式和yum方式) (Ubuntu14.04) (三) 如果大家,在启动的时候,比如遇到如下问题,则 明明已经授权了啊,怎么被拒绝,纳尼??? 解决办法 然后,再来这样,就可以了。 注
阅读全文
摘要:.. 欢迎大家,加入我的微信公众号:大数据躺过的坑 免费给分享 同时,大家可以关注我的个人博客: http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/ 人生苦短,我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神
阅读全文
摘要:见 Ubuntu14.04下完美安装cloudermanage多种方式(图文详解)(博主推荐) 欢迎大家,加入我的微信公众号:大数据躺过的坑 免费给分享 同时,大家可以关注我的个人博客: http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/
阅读全文
摘要:第二步: Cloudera Manager安装之时间服务器和时间客户端(二) 找一台机器作为时间服务器 我这里,放到ubuntucmbigdata1这台机器! 注意,之前是已经做了集群时间同步了。 在ubuntu系统里,跟centos系统有点出入。 需要安装 然后,再来配置,就不为空了。 默认是如下
阅读全文
摘要:其实,基本思路跟如下差不多,我就不多详细说了,贴出主要图。 博主,我是直接借鉴下面这位博主,来进行安装的!(灰常感谢他们!) 在线和离线安装Cloudera CDH 5.6.0 Cloudera Manager 5和CDH5离线安装 Ubuntu14.04用apt在线/离线安装CDH5.1.2[Ap
阅读全文
摘要:说在前面的话 我的机器是总共4台,分别为ubuntucmbigdata1、ubuntucmbigdata2、ubuntucmbigdata3和ubuntucmbigdata4。 ClouderaManager官网 在ubuntucmbigdata1上执行了 即,ubuntucmbigdata1是既做
阅读全文
摘要:说在前面的话 我的机器是总共4台,分别为ubuntucmbigdata1、ubuntucmbigdata2、ubuntucmbigdata3和ubuntucmbigdata4。(注意啦,以下是针对Ubuntu系统的) 在ubuntucmbigdata1上执行了 即,ubuntucmbigdata1是
阅读全文
摘要:解决办法 一个是OS的环境变量,一个是脚本运行时候的设置 bigdata@ubuntucmbigdata1:/opt/cm-5.6.0/etc/init.d$ sudo vim cloudera-scm-server export JAVA_HOME=/usr/java/jdk.1.7.0_80 它
阅读全文
摘要:第一步: Cloudera Manager安装之Cloudera Manager安装前准备(Ubuntu14.04)(一) 第二步: Cloudera Manager安装之时间服务器和时间客户端(Ubuntu14.04)(二) 第三步: Cloudera Manager安装之Cloudera Man
阅读全文
摘要:参考博客 http://www.cnblogs.com/lchzls/p/6711375.html java中String、StringBuffer、StringBuilder是Java编程中经常使用的字符串类,他们之间的区别也是经常在面试中会问到的问题。现在总结一下,看看他们的不同与相同。 1.
阅读全文
摘要:不多说,直接上干货! Windows下的Python 3.6.1的下载与安装(适合32bits和64bits)(图文详解) Windows下的Jupyter Notebook 安装与自定义启动(图文详解) 更多,待续 欢迎大家,加入我的微信公众号:大数据躺过的坑 人工智能躺过的坑 同时,大家可以关注
阅读全文
摘要:不多说,直接上干货! 前期博客 Windows下的Python 3.6.1的下载与安装(适合32bits和64bits)(图文详解) 这是我自定义的Python 的安装目录 (D:\SoftWare\Python\Python36\Scripts) 1、Jupyter Notebook 和 pip
阅读全文
摘要:不多说,直接上干货! 为什么,这么简单的一个python,我还要特意来写一篇博客呢? 是因为留念下,在使用了Anaconda2和Anaconda3的基础上,现在需安装python3.6.0来做数据分析。 关于数据分析工程师的,相关博客,我会陆续更新发布。 Python 3.6.1的下载 点击down
阅读全文
摘要:不多说,直接上干货! MySQL的内连接
阅读全文
摘要:http://www.runoob.com/mysql/mysql-regexp.html https://deerchao.net/tutorials/regex/regex.htm
阅读全文
摘要:http://www.cnblogs.com/lyhabc/category/573945.html
阅读全文
摘要:实验 我使用的代码是Python版本的Faster Rcnn,官方也有Matlab版本的,链接如下: py-faster-rcnn(python) faster-rcnn(matlab) 环境配置 按照官方的README进行配置就好,不过在这之前大家还是看下硬件要求吧 For training sm
阅读全文
摘要:不多说,直接上干货! Object Detection发展介绍 Faster rcnn是用来解决计算机视觉(CV)领域中Object Detection的问题的。经典的解决方案是使用: SS(selective search)产生proposal,之后使用像SVM之类的classifier进行分类,
阅读全文
摘要:不多说,直接上干货! 基于R-CNN的物体检测 原文地址:http://blog.csdn.net/hjimce/article/details/50187029 作者:hjimce 一、相关理论 本篇博文主要讲解2014年CVPR上的经典paper:《Rich feature hierarchie
阅读全文
摘要:不多说,直接上干货! 本文一系列目标检测算法:RCNN, Fast RCNN, Faster RCNN代表当下目标检测的前沿水平,在github都给出了基于Caffe的源码。 • RCNN RCNN(Regions with CNN features)是将CNN方法应用到目标检测问题上的一个里程碑,
阅读全文
摘要:不多说,直接上干货! AI技术研究的兴起,伴随着两种最直观的思维技巧,即遗传算法与神经网络,这是对生物学研究最直观的技术抽象。深度学习的前身就是神经网络,这个80年代灵光乍现的技术,在那一波人工智能的大潮驱使下,带着人们对于未来AI时代的憧憬,迅速蔓延,一时风头无两,和今天深度学习的火热几乎如出一辙
阅读全文
摘要:不多说,直接上干货! 卷积神经网络(ConvolutionalNeural Networks,简称CNN)提出于20世纪60年代,由Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现。 CNN是目前深度学习最大的一个流派,其应用优点在于避免了对图像的复杂前期预处理,可以直接
阅读全文
摘要:不多说,直接上干货! 笔者花了很长时间才装完,主要是cuda安装和opencv安装比较费劲,cuda找不到32位的安装包只好重装64位的ubuntu系统,opencv 也是尝试了很久才解决,这里建议用2.4.9版本。其实如果没用GPU的话不需要安装cuda,不过为了后续兼容性的考虑,系统强烈建议64
阅读全文
摘要:不多说,直接上干货! 深度学习主机环境配置: Ubuntu16.04+GeForce GTX 1080+TensorFlow
阅读全文
摘要:不多说,直接上干货! 深度学习主机环境配置: Ubuntu16.04+Nvidia GTX 1080+CUDA8.0
阅读全文
摘要:不多说,直接上干货! PCA-SIFT算法在描述子构建上作了创新,主要是 将统计学中的主成分分析(PCA)应用于对描述子向量的降维,以提高匹配效率 。 PCA 的原理是:一般有效信号的方差大,噪声的方差小;通过PCA可以降维滤除噪声,保留信号。 1、算法分析 PCA-SIFT与标准SIFT有相同的亚
阅读全文
摘要:1、通俗解释版 这个问题可以回答得很简单:是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。 首先看什么是学习(learning)?一个成语就可概括:举一反三。此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年
阅读全文
摘要:不多说,直接上干货! 这里,对于想用matlab语言来做的朋友,强烈推荐 http://www.cnblogs.com/tornadomeet/
阅读全文
摘要:不多说,直接上干货! 前言: 最近打算稍微系统的学习下deep learing的一些理论知识,打算采用Andrew Ng的网页教程UFLDL Tutorial,据说这个教程写得浅显易懂,也不太长。不过在这这之前还是复习下machine learning的基础知识,见网页:http://opencla
阅读全文
摘要:不多说,直接上干货! 复杂降维技术有spare-PCA和sparse coding。 最近在科研需要,感谢下面的博主。 Sparse PCA 稀疏主成分分析
阅读全文
摘要:不多说,直接上干货! 问题详情 问题分析 今天一打开Ubuntu系统,竟然不支持中文显示了。开始时以为是搜狗拼音的问题,然后重装了一遍fcitx,然后用重装了一遍搜狗输入法。可是重装后问题根本没有解决,在language suport下“汉语(中国)”还是用框框表示,系统的中文也都是一律用框框,头大
阅读全文
摘要:不多说,直接上干货! 本博文,转载于,为了方便自己查阅和大家一起进步。特此感谢! 大数据竞赛平台——Kaggle 入门
阅读全文
摘要:不多说,直接上干货! 本篇博客的目地,是对工作学习过程中所遇所见的一些有关深度学习、机器学习的优质资源,作分类汇总,方便自己查阅,也方便他人学习借用。 主要会涉及一些优质的理论书籍和论文、一些实惠好用的工具库和开源库、一些供入门该理论入门所用的demo等等。 由于本博客将不定期更新,尽量将较为前沿的
阅读全文
摘要:不多说,直接上干货! 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文总结一下常见的机器学习算法,以供参考。机器学习的算法很多,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。 这里从两个方面进行总结,第一个方面是学习的方式,第二个方面
阅读全文
摘要:不多说,直接上干货! 周志华:是南京大学的杰青,机器学习和数据挖掘方面国内的领军人物,其好几个研究生都进入了美国一流高校如uiuc,cmu等学习和深造。周教授在半监督学习,multi-label学习和集成学习方面在国际上有一定的影响力。另外,他也是ACML的创始人。 Rachel-Zhang:htt
阅读全文
摘要:不多说,直接上干货! 最近,在看论文,提及到这个修正线性单元(Rectified linear unit,ReLU)。 Deep Sparse Rectifier Neural Networks ReLu(Rectified Linear Units) 修正线性单元(Rectified linear
阅读全文
摘要:不多说,直接上干货! 十、总结与展望 1)Deep learning总结 深度学习是关于自动学习要建模的数据的潜在(隐含)分布的多层(复杂)表达的算法。换句话来说,深度学习算法自动的提取分类需要的低层次或者高层次特征。高层次特征,一是指该特征可以分级(层次)地依赖其他特征,例如:对于机器视觉,深度学
阅读全文
摘要:不多说,直接上干货! 九、Deep Learning的常用模型或者方法 9.1、AutoEncoder自动编码器 Deep Learning最简单的一种方法是利用人工神经网络的特点,人工神经网络(ANN)本身就是具有层次结构的系统,如果给定一个神经网络,我们假设其输出与输入是相同的,然后训练调整其参
阅读全文
摘要:不多说,直接上干货! 五、Deep Learning的基本思想 假设我们有一个系统S,它有n层(S1,…Sn),它的输入是I,输出是O,形象地表示为: I =>S1=>S2=>…..=>Sn => O,如果输出O等于输入I,即输入I经过这个系统变化之后没有任何的信息损失(呵呵,大牛说,这是不可能的。
阅读全文
摘要:不多说,直接上干货! 前期博客 深度学习笔记之概述、背景和人脑视觉机理(一) 四、关于特征 特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。如果数据被很好的表达成了特征,通常线性模型就能达到满意的精度。那对于特征,我们需要考虑什么呢? 4.1、特征表示的粒度 学习算法在一个什么粒度上的特征
阅读全文
摘要:不多说,直接上干货! 一、概述 Artificial Intelligence,也就是人工智能,就像长生不老和星际漫游一样,是人类最美好的梦想之一。虽然计算机技术已经取得了长足的进步,但是到目前为止,还没有一台电脑能产生“自我”的意识。是的,在人类和大量现成数据的帮助下,电脑可以表现的十分强大,但是
阅读全文
摘要:不多说,直接上干货! Deep Learning是机器学习中一个非常接近AI的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,最近研究了机器学习中一些深度学习的相关知识,本文给出一些很有用的资料和心得。 Key Words:有监督学习与无监督学习,分类、回归,密度估计、聚类,深度学习,Spar
阅读全文
摘要:不多说,直接上干货! 机器学习十大算法之一:EM算法(即期望最大化算法)。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世
阅读全文
摘要:不多说,直接上干货! 推荐 全网最详细的基于Ubuntu14.04/16.04 + Anaconda2 / Anaconda3 + Python2.7/3.4/3.5/3.6安装Tensorflow详细步骤(图文)(博主推荐) 欢迎大家,加入我的微信公众号:大数据躺过的坑 人工智能躺过的坑 同时,大
阅读全文
摘要:不多说,直接上干货! 推荐 全网最详细的基于Ubuntu14.04/16.04 + Anaconda2 / Anaconda3 + Python2.7/3.4/3.5/3.6安装Tensorflow详细步骤(图文)(博主推荐) 其实啊,不难。对于Ubuntu而言,大家都知道,系统自带就已经有了pyt
阅读全文
摘要:不多说,直接上干货! 面试很容易被问的:K-Means算法的收敛性。 在网上查阅了很多资料,并没有看到很清晰的解释,所以希望可以从K-Means与EM算法的关系,以及EM算法本身的收敛性证明中找到蛛丝马迹,下次不要再掉坑啊。 EM算法的收敛性 1.通过极大似然估计建立目标函数: 通过EM算法来找到似
阅读全文
摘要:不多说,直接上干货! 为了使用SparkR,决定要在Spark所在的Linux上装上R,结果血泪篇了。主要原因是公司内部的虚机,无法连外网,所以网上很多的直接rpm或者yum的方法都没用,需要自己编译R的源码,中间因为Redhat Enterprise没有给装好gcc,又为了装gcc折腾了半天,终于
阅读全文
摘要:不多说,直接上干货! 再写博文,回顾在Windows7上安装TensorFlow-GPU的一路坑 Windows7上安装TensorFlow的GPU版本后记 欢迎大家,加入我的微信公众号:大数据躺过的坑 免费给分享 同时,大家可以关注我的个人博客: http://www.cnblogs.com/zl
阅读全文
摘要:不多说,直接上干货! Installing TensorFlow on Windows的官网 首先,要说明的是,在tensorflow 0.12.0开始支持Windows下安装了。tensorflow 0.12.0之前是只支持Mac和Linux系统。 安装环境要求: Windows 64位 pyth
阅读全文
摘要:不多说,直接上干货! Installing TensorFlow on Windows的官网 首先,要说明的是,在tensorflow 0.12.0开始支持Windows下安装了。tensorflow 0.12.0之前是只支持Mac和Linux系统。 我的电脑配置: 安装环境要求: Windows
阅读全文
摘要:不多说,直接上干货! You must choose one of the following types of TensorFlow to install: TensorFlow with CPU support only. If your system does not have a NVIDI
阅读全文
摘要:不多说,直接上干货! TensorFlow 是一个开源软件库,用于使用数据流图进行数值计算。换句话说,即是构建深度学习模型的最佳方式。 Tensorflow的官网 TensorFlow™ is an open source software library for numerical computa
阅读全文
摘要:不多说,直接上干货! 大家,都知道,在2016年,Google DeepMind的AlphaGo打败了韩国的围棋大师李世乭九段。在媒体描述DeepMind胜利的时候,将人工智能(AI)、机器学习(machine learning)和深度学习(deep learning)都用上了。这三者在AlphaG
阅读全文
摘要:不多说,直接上干货! 直接来个现实的例子。某公司招聘.... 2017年注定是深度学习火热之年,同时,博主我也正值研二学年,广深阅读文献搞科研,致力于大数据和机器学习深度学习领域。同时,分享后续这方面的干货知识,大家一起成长和学习! 深度学习的概念源于人工神经网络的研究,含多隐层的多层感知器就是一种
阅读全文
摘要:不多说,直接上干货! 说在前面的话 我为什么已经尝试和使用过同类型产品的很多MySQL版本,还要书写这篇博客呢?基于mysql-installer-web-community-5.7.18.1.msi 是因为,最近在做数据分析相关的研究工作。 首先,跟大家解释下mysql-installer-web
阅读全文
摘要:不多说,直接上干货! 1、gzip 模块需要 zlib 库 ( 下载: http://www.zlib.NET/ )2、rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ )3、ssl 功能需要 openssl 库 ( 下载: http://www.open
阅读全文
摘要:不多说,直接上干货! 前期博客 hadoop-2.6.0.tar.gz + spark-1.6.1-bin-hadoop2.6.tgz + zeppelin-0.5.6-incubating-bin-all.tgz(master、slave1和slave2)(博主推荐)(图文详解) hadoop-2
阅读全文
摘要:不多说,直接上干货! 问题详情 问题排查 解决办法 成功!
阅读全文
摘要:不多说,直接上干货! 问题详情 ubuntu系统里vi编辑器时,按方向箭头输入是乱码的ABCD字母? 解决办法 是由于预装的vim软件没更新,运行 sudo apt-get install vim 安装最新的即可解决! 欢迎大家,加入我的微信公众号:大数据躺过的坑 人工智能躺过的坑 同时,大家可以关
阅读全文
摘要:不多说,直接上干货! 找到 复制到
阅读全文
摘要:不多说,直接上干货! 我这里,采取的是ubuntu 16.04系统,当然大家也可以在CentOS6.5里,这些都是小事 CentOS 6.5的安装详解 hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz的集群搭建(单节点)(Ubuntu系统) 大数
阅读全文
摘要:不多说,直接上干货! 我这里,采取的是CentOS6.5,当然大家也可以在ubuntu 16.04系统里,这些都是小事 CentOS 6.5的安装详解 hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz的集群搭建(单节点)(Ubuntu系统) 大数
阅读全文
摘要:不多说,直接上干货! Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括spark, hive, tajo等,原生支持scala, java, shell, markdown等。它的整体展现和使用形式和Da
阅读全文
摘要:简介 TopN算法是一个经典的算法,由于每个map都只是实现了本地的TopN算法,而假设map有M个,在归约的阶段只有M x N个,这个结果是可以接受的并不会造成性能瓶颈。 这个TopN算法在map阶段将使用TreeMap来实现排序,以到达可伸缩的目的。 当然算法有两种,一种是唯一键,就是说key的
阅读全文
摘要:不多说,直接上干货! 这篇博客里的算法部分的内容来自《数据算法:Hadoop/Spark大数据处理技巧》一书,不过书中的代码虽然思路正确,但是代码不完整,并且只有java部分的编程,我在它的基础上又加入scala部分,当然是在使用Spark的时候写的scala。 一、输入、期望输出、思路。 输入为S
阅读全文
摘要:三种方式完成HelloWorld程序 分别采用在REPL,命令行(scala脚本)和Eclipse下运行hello world。 一、Scala REPL。 windows下安装好scala后,直接Ctrl+R,然后在运行命令窗里输入scala,或者输入cmd后,进入命令行在输入scala。 然后我
阅读全文
摘要:SparkStreaming性能调优 合理的并行度 减少批处理所消耗时间的常见方式还有提高并行度。有以下三种方式可以提高并行度: 1.增加接收器数目 有时如果记录太多导致单台机器来不及读入并分发的话,接收器会成为系统瓶颈。这时你就需要通过创建多个输入DStream(这样会创建多个接收器)来增加接收器
阅读全文
摘要:Spark Streaming容错 检查点机制-checkpoint 什么是检查点机制? Spark Streaming 周期性地把应用数据存储到诸如HDFS 或Amazon S3 这样的可靠存储系统中以供恢复时使用的机制叫做检查点机制 检查点机制的作用 控制发生失败时需要重算的状态数 Spark
阅读全文
摘要:不多说,直接上干货! SparkStreaming的高层抽象DStream 为了便于理解,Spark Streaming提出了DStream抽象,代表连续不断的数据流。 DStream 是一个持续的RDD 序列。 可以从外部输入源创建DStream,也可以对其他DStream 应用进行转化操作得到新
阅读全文
摘要:SparkStreaming运行原理 Spark Streaming不断的从数据源获取数据(连续的数据流),并将这些数据按照周期划分为batch。 Spark Streaming将每个batch的数据交给Spark Engine来处理(每个batch的处理实际上还是批处理,只不过批量很小,计算速度很
阅读全文
摘要:不多说,直接上干货! Spark Streaming的竞争对手 Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个
阅读全文
摘要:不多说,直接上干货! 性能调优 Caching Data In Memory Spark SQL可以通过调用sqlContext.cacheTable("tableName") 或者dataFrame.cache(),将表用一种柱状格式( an inmemory columnar format)缓
阅读全文
摘要:不多说,直接上干货! 用户自定义函数 注册udf 我们可以使用Spark 支持的编程语言编写好函数,然后通过Spark SQL 内建的方法传递进来,非常便捷地注册我们自己的UDF 在Scala 和Python 中,可以利用语言原生的函数和lambda 语法的支持,而在Java 中,则需要扩展对应的U
阅读全文
摘要:不多说,直接上干货! parkSQL作为分布式查询引擎:两种方式 除了在Spark程序里使用Spark SQL,我们也可以把Spark SQL当作一个分布式查询引擎来使用,有以下两种使用方式: 1.Thrift JDBC/ODBC服务 2.CLI SparkSQL作为分布式查询引擎:Thrift J
阅读全文
摘要:不多说,直接上干货! SparkSQL数据源:从各种数据源创建DataFrame 因为 spark sql,dataframe,datasets 都是共用 spark sql 这个库的,三者共享同样的代码优化,生成以及执行流程,所以 sql,dataframe,datasets 的入口都是 sqlC
阅读全文
摘要:不多说,直接上干货! Spark SQL支持的API SQL DataFrame(推荐方式,也能执行SQL) Dataset(还在发展) SQL SQL 支持basic SQL syntax/HiveQL 程序中使用SQL会返回DataFrame command-line和JDBC/ODBC中均可以
阅读全文
摘要:不多说,直接上干货! Spark程序中使用SparkSQL 轻松读取数据并使用SQL 查询,同时还能把这一过程和普通的Python/Java/Scala 程序代码结合在一起。 CLI Spark SQL shell JDBC/ODBC 各种支持jdbc的软件、商业智能(BI)工具、平台
阅读全文
摘要:不多说,直接上干货! SparkSQL的入口:SQLContext SQLContext是SparkSQL的入口 val sc: SparkContext val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlConte
阅读全文
摘要:不多说,直接上干货! 不带Hive支持 带Hive支持(推荐使用) 至于,为什么,请移步 Spark SQL 编程API入门系列之SparkSQL的入口
阅读全文
摘要:不多说,直接上干货! 其实啊,很简单 分三步走 1、添加fcitx的键盘输入法系统,因为sogou是基于fcitx的,而系统默认的是iBus; 2、安装sogou输入法; 3、设置系统参数及一些注意点。 zhouls@zhouls-virtual-machine:~$ sudo -s [sudo]
阅读全文
摘要:不多说,直接上干货! SparkSQL 与 Spark Core的关系 Spark SQL构建在Spark Core之上,专门用来处理结构化数据(不仅仅是SQL)。 Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进, 简单来讲: Spark SQL 支持很多种结构
阅读全文
摘要:不多说,直接上干货! 请移步 Spark on YARN简介与运行wordcount(master、slave1和slave2)(博主推荐) Spark on YARN模式的安装(spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz)(master、
阅读全文
摘要:不多说,直接上干货! 请移步 Spark standalone简介与运行wordcount(master、slave1和slave2) Spark standalone模式的安装(spark-1.6.1-bin-hadoop2.6.tgz)(master、slave1和slave2)
阅读全文
摘要:不多说,直接上干货! Spark任务调度 DAGScheduler 构建Stage—碰到shuffle就split 记录哪个RDD 或者Stage 输出被物化 重新提交shuffle 输出丢失的stage 将Taskset 传给底层调度器 本地性策略 preferredLocations(p) Ta
阅读全文
摘要:不多说,直接上干货! Spark基本运行流程 Application program的组成 Job : 包含多个Task 组成的并行计算,跟Spark action对应。 Stage : Job 的调度单位,对应于TaskSet 。 TaskSet :一组关联的、相互之间没有shuffle 依赖关系
阅读全文
摘要:不多说,直接上干货! RDD的五大特征 分区 partitions 依赖 dependencies() 计算函数 computer(p,context) 分区策略(Pair RDD)-- partitioner() 本地性策略 preferredLocations(p)
阅读全文
摘要:不多说,直接上干货! Spark编程模型几大要素 Driver Program 输入-Transformation-Action 缓存 共享变量
阅读全文
摘要:不多说,直接上干货! Pair RDD的分区控制 Pair RDD的分区控制 (1) Spark 中所有的键值对RDD 都可以进行分区控制 自定义分区 (2)自定义分区的好处: 1) 避免数据倾斜 2) 控制task并行度 自定义分区方式
阅读全文
摘要:不多说,直接上干货! Pair RDD的action操作 所有基础RDD 支持的行动操作也都在pair RDD 上可用
阅读全文
摘要:不多说,直接上干货! Pair RDD的transformation操作 Pair RDD转换操作1 Pair RDD 可以使用所有标准RDD 上转化操作,还提供了特有的转换操作。 Pair RDD转换操作2
阅读全文
摘要:不多说,直接上干货! 创建Pair RDD scala语言 Java语言
阅读全文
摘要:不多说,直接上干货! 什么是Pair RDD (1)包含键值对类型的RDD被称作Pair RDD。 (2)Pair RDD通常用来进行聚合计算。 (3)Pair RDD通常由普通RDD做ETL转换而来。 关于ETL的知识,请移步 http://www.cnblogs.com/zlslch/categ
阅读全文
摘要:不多说,直接上干货! action操作
阅读全文
摘要:不多说,直接上干货! transformation操作 惰性求值 (1)RDD 的转化操作都是惰性求值的。这意味着在被调用行动操作之前Spark不会开始计算。 (2)读取数据到RDD的操作也是惰性的。 (3)惰性求值的好处: a. Spark 使用惰性求值可以把一些操作合并到一起来减少计算数据的步骤
阅读全文
摘要:不多说,直接上干货! 创建RDD 方式一:从集合创建RDD (1)makeRDD (2)Parallelize 注意:makeRDD可以指定每个分区perferredLocations参数,而parallelize则没有。 方式二:读取外部存储创建RDD Spark与Hadoop完全兼容,所以对Ha
阅读全文
摘要:不多说,直接上干货!
阅读全文
摘要:不多说,直接上干货!
阅读全文
摘要:不多说,直接上干货!
阅读全文
摘要:不多说,直接上干货!
阅读全文
摘要:不多说,直接上干货! 能够看我这篇博客的博友们,想必是已经具备一定基础了。 扩展博客 kettle的下载、安装和初步使用(windows平台下)(图文详解) kettle的下载 Kettle可以在http://kettle.pentaho.org/网站下载 http://sourceforge.n
阅读全文
摘要:不多说,直接上干货! 问题现象 问题分析 (1)配置文件里的关于shell的配置打开了吗 (2)为了更好的远程访问 解决办法一 必须启动neo4j,其实是可以不需执行bin/neo4j start的。 解决办法二(推荐) 成功! 退出,是如下的操作
阅读全文
摘要:不多说,直接上干货! 参考博客 http://blog.csdn.net/u012318074/article/details/72793914 (表示感谢) 前期博客 Neo4j沙盒实验申请过程步骤(图文详解) Ubuntu14.04下Neo4j图数据库官网安装部署步骤(图文详解)(博主推荐) 首
阅读全文
摘要:不多说,直接上干货! 参考博客 http://blog.csdn.net/u012318074/article/details/72793914 (表示感谢) 前期博客 Neo4j沙盒实验申请过程步骤(图文详解) Ubuntu16.04下Neo4j图数据库官网安装部署步骤(图文详解)(博主推荐) 首
阅读全文
摘要:不多说,直接上干货! 参考博客 http://blog.csdn.net/u012318074/article/details/72793632 (对此表示感谢) 前期博客 我暂时是将Neo4j图数据库安装在Ubuntu14.04下和Ubuntu16.04下。 Ubuntu16.04下Neo4j图数
阅读全文
摘要:不多说,直接上干货! 前期博客 Ubuntu14.04下Mongodb(离线安装方式|非apt-get)安装部署步骤(图文详解)(博主推荐) Ubuntu14.04下Mongodb官网安装部署步骤(图文详解)(博主推荐) 为什么要写这篇博客? 在学习的过程中,考虑到将数据存储到数据库会更加方便查看和
阅读全文
摘要:不多说,直接上干货! 编辑文件:/etc/mongodb.conf 这是mongodb.conf配置文件的中文
阅读全文
摘要:不多说,直接上干货! 若大家,不会安装的话,则请移步,随便挑选一种。 Ubuntu14.04下Mongodb(在线安装方式|apt-get)安装部署步骤(图文详解)(博主推荐) Ubuntu14.04下Mongodb(离线安装方式|非apt-get)安装部署步骤(图文详解)(博主推荐) Ubuntu
阅读全文
摘要:不多说,直接上干货! Ubuntu14.04下Mongodb(在线安装方式|apt-get)安装部署步骤(图文详解)(博主推荐) shell命令模式 输入mongo进入shell命令模式,默认连接的数据库是test数据库,在此之前一定要确保你已经启动了MongoDB,否则会出现错误,启动之后运行成功
阅读全文
摘要:不多说,直接上干货! 本教程详细指导大家如何开启并设置用户权限。MongoDB默认是没有开启用户权限的,如果直接在公网服务器上如此搭建MongoDB,那么所有人都可以直接访问并修改数据库数据了。 其实MongoDB本身有非常详细的安全配置准则,显然开发者也是想到了,然而他是将安全的任务推给用户去解决
阅读全文
摘要:不多说,直接上干货! 本博文介绍了MongoDB,并详细指引读者在Ubuntu下MongoDB的安装和使用。本教程在Ubuntu14.04下测试通过。 一、MongoDB介绍 MongoDB 是一个是一个基于分布式文件存储的数据库,介于关系数据库和非关系数据库之间,是非关系数据库当中功能最丰富,最像
阅读全文
摘要:不多说,直接上干货! 前期博客 Ubuntu16.04下Neo4j图数据库官网安装部署步骤(图文详解)(博主推荐) Ubuntu14.04下Neo4j图数据库官网安装部署步骤(图文详解)(博主推荐) neo4j的配置文件(默认的) 一、 由 变成 二、 由 改成
阅读全文
摘要:不多说,直接上干货! 说在前面的话 首先,查看下你的操作系统的版本。 Neo4j 是一个NoSQL的图形数据库(Graph Database)。Neo4j使用图(graph)相关的概念来描述数据模型,把数据保存为图中的节点以及节点之间的关系。很多应用中数据之间的关系,可以很直接地使用图中节点和关系的
阅读全文
摘要:不多说,直接上干货! 说在前面的话 首先,查看下你的操作系统的版本。 Neo4j 是一个NoSQL的图形数据库(Graph Database)。Neo4j使用图(graph)相关的概念来描述数据模型,把数据保存为图中的节点以及节点之间的关系。很多应用中数据之间的关系,可以很直接地使用图中节点和关系的
阅读全文
摘要:不多说,直接上干货! 前期博客 Ubuntu14.04下Mongodb官网安装部署步骤(图文详解)(博主推荐) 官方正确卸载 MongoDB 如果要在你的系统中完全卸载MongoDB,你必须卸载MongoDB的程序文件,配置文件,和所有的包含数据和日志的文件和文件夹。下面我将演示如何完全卸载Mong
阅读全文
摘要:不多说,直接上干货! 前期博客 Ubuntu16.04下Mongodb官网安装部署步骤(图文详解)(博主推荐) 官方正确卸载 MongoDB 如果要在你的系统中完全卸载MongoDB,你必须卸载MongoDB的程序文件,配置文件,和所有的包含数据和日志的文件和文件夹。下面我将演示如何完全卸载Mong
阅读全文
摘要:不多说,直接上干货! 在这篇博客里,我采用了非官网的安装步骤,来进行安装。走了弯路,同时,也是不建议。因为在大数据领域和实际生产里,还是要走正规的为好。 Ubuntu14.04下Mongodb(离线安装方式|非apt-get)安装部署步骤(图文详解)(博主推荐) 官方文档 这里是一个总述,不多说。
阅读全文
摘要:不多说,直接上干货! 在这篇博客里,我采用了非官网的安装步骤,来进行安装。走了弯路,同时,也是不建议。因为在大数据领域和实际生产里,还是要走正规的为好。 Ubuntu16.04下Mongodb(离线安装方式|非apt-get)安装部署步骤(图文详解)(博主推荐) 官方文档 这里是一个总述,不多说。
阅读全文
摘要:不多说,直接上干货! 前期博客 Ubuntu14.04下Mongodb安装部署步骤(图文详解) Ubuntu16.04下Mongodb安装部署步骤(图文详解) 失败的原因 是因为通过service MongoDB restart时启动失败,或者如果是直接kill 掉来关闭都会出现这种情况 是因为没有
阅读全文
摘要:不多说,直接上干货! 总的来说,根据分为三个步骤。 步骤一: 点击 :虚拟机—–>安装VM tools 然后发现桌面会跳出如下问题: 客户机操作系统已将 CD-ROM 门锁定,并且可能正在使用 CD-ROM,这可能会导致客户机无法识别介质的更改。如果可能,请在断开连接之前从客户机内部弹出 CD-RO
阅读全文
摘要:不多说,直接上干货! 总的来说,根据分为三个步骤。 步骤一: 点击 :虚拟机—–>安装VM tools 然后发现桌面会跳出如下问题: 客户机操作系统已将 CD-ROM 门锁定,并且可能正在使用 CD-ROM,这可能会导致客户机无法识别介质的更改。如果可能,请在断开连接之前从客户机内部弹出 CD-RO
阅读全文
摘要:不多说,直接上干货! 说在前面的话 首先,查看下你的操作系统的版本。 我的是Ubuntu 16.04.4 我的环境在Ubuntu16.04下搭建,注意:不同版本之间可能存在兼容性(其他的如14.04,我也暂时测试过) Ubuntu14.04下Mongodb安装部署步骤(图文详解) 这里,建议大家不要
阅读全文
摘要:不多说,直接上干货! 说在前面的话 首先,查看下你的操作系统的版本。 我的是Ubuntu 14.04.4 我的环境在Ubuntu14.04下搭建,注意:不同版本之间可能存在兼容性(其他的如16.04,我也暂时测试过) Ubuntu16.04下Mongodb安装部署步骤(图文详解) 这里,建议大家不要
阅读全文