随笔分类 -  大数据

Linux 的安装
摘要:1. 6.5和6.8的安装 Ubuntu 16.04安装 https://www.jb51.net/article/163921.htm 安装教程 https://blog.csdn.net/qq_36711453/article/details/83745409 配置端口 阅读全文

posted @ 2018-05-07 10:45 biyangqiang 阅读(103) 评论(0) 推荐(0) 编辑

书籍-大数据技术入门笔记
摘要:0.前沿 1.大数据时代 2.大数据软件架构 MapReduce进程示例 PS:jobTracker:是主节点,只有一个,管理所有的作业。老板 tasktracker:负责maptask、reducetask、shuffle等操作。 包工头、包身工 sort会对键值进行排序,shuffle会把键值相 阅读全文

posted @ 2018-03-29 10:04 biyangqiang 阅读(2049) 评论(0) 推荐(1) 编辑

day28Spark
摘要:PS:因为Spark是用内存运行 的,非常快 PS: 1.下面就是将conf的spark-env.template改变成spark-env.sh,并添加红色部分 2.修改slaves文件添加从设备 启动程序 PS:ui 端口是8080 1. 执行Spark程序 1.1. 执行第一个spark程序 / 阅读全文

posted @ 2018-03-28 16:05 biyangqiang 阅读(189) 评论(0) 推荐(0) 编辑

day29akka
摘要:实现项目 1.创建Maven项目 PS:通常编译好的话,使用插件的package命令导包,放大linux执行。 PS : Master PS:Worker 下午没学 阅读全文

posted @ 2018-03-27 16:16 biyangqiang 阅读(107) 评论(0) 推荐(0) 编辑

day25scala
摘要:Scala的安装配置 PS:首先必须要有java环境 1.安装scala的2.10.5 PS:编写scala不能用这么笨的方法,需要专业的工具,安装插件如下图 https://blog.csdn.net/iamlihongwei/article/details/72783459?locationNu 阅读全文

posted @ 2018-03-22 20:31 biyangqiang 阅读(141) 评论(0) 推荐(0) 编辑

day21-22Redis Mahout
摘要:day22 阅读全文

posted @ 2018-03-21 21:44 biyangqiang 阅读(135) 评论(0) 推荐(0) 编辑

day39KNN算法和其他的算法
摘要:PS: 1.现在明白为什么其他的同学一直都在做数字图像处理,matlab这种东西了,因为机器学习,其他底层主要是做预先处理,然后调用某一个算法 2.感觉knn算法就是根据先验数据计算下一个跟自己一样不一样 1. kNN分类算法原理 1.1 概述 K最近邻(k-Nearest Neighbor,KNN 阅读全文

posted @ 2018-03-20 17:28 biyangqiang 阅读(209) 评论(0) 推荐(0) 编辑

day39机器学习
摘要:2 Numpy快速上手 2.1. 什么是Numpy Numpy是Python的一个科学计算的库 主要提供矩阵运算的功能,而矩阵运算在机器学习领域应用非常广泛 Numpy一般与Scipy、matplotlib一起使用。 虽然python中的list已经提供了类似于矩阵的表示形式,不过numpy为我们提 阅读全文

posted @ 2018-03-20 13:52 biyangqiang 阅读(171) 评论(0) 推荐(0) 编辑

day18-19 Storm
摘要:课程介绍 课程名称:Storm是什么 课程目标: 通过该课程的学习能够了解离线计算与流式计算的区别、掌握Storm框架的基础知识、了解流式计算的一般架构图。 课程大纲: 1、 离线计算是什么? 2、 流式计算是什么? 3、 流式计算与离线计算的区别? 4、 Storm是什么? 5、 Storm与Ha 阅读全文

posted @ 2018-03-17 17:33 biyangqiang 阅读(169) 评论(0) 推荐(0) 编辑

day16 Hbase day17
摘要:1. hbase简介(是基于HDFS.相当于是一个缓存层) 1.1. 什么是hbase(列式的分布式数据库) HBASE是一个高可靠性、高性能、面向列(以前学习的Mysql都是面向行的)、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的 阅读全文

posted @ 2018-03-15 21:05 biyangqiang 阅读(130) 评论(0) 推荐(0) 编辑

day39Python
摘要:1.Python简介 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。 l Python是一种解释型语言: 这意味着开发过程中没有了编译这个 阅读全文

posted @ 2018-03-14 15:09 biyangqiang 阅读(102) 评论(0) 推荐(0) 编辑

day12Flume、azkaban、sqoop
摘要:1.PS:Hive中好少有update这个方法,因为他主要是用来批量数据的处理分析。 2.PS:软连接和硬连接的区别 软连接就是我们普通和Windows系统一样的快捷方式,她也是一个文件 硬连接就是他是一个inode,对文件会有引用,删除这个快捷方式不会删除文件。 3.pig其实和hive一样,只不 阅读全文

posted @ 2018-03-08 20:40 biyangqiang 阅读(188) 评论(0) 推荐(0) 编辑

day11hadoop高可用和Hive
摘要:PS:视频一直就是在演示 高可用(比较偏运维一点) PS:namenode的安全模式 PS:Ferdaration是就是由多个HDFS构成。一般用的比较少 Hive 1.1.1 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询 阅读全文

posted @ 2018-02-26 12:01 biyangqiang 阅读(200) 评论(0) 推荐(0) 编辑

day09 MapReduce
摘要:, MapReduce和yarn的工作机制 3.3. MapReduce与YARN 3.3.1 YARN概述 本身也是集群 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序 3.3.2 Y 阅读全文

posted @ 2017-12-28 17:52 biyangqiang 阅读(241) 评论(0) 推荐(0) 编辑

书籍笔记---大数据阅读基础
摘要:第一章 大数据概述 第二章 大数据技术与挑战 第三章 MapReduce 阅读全文

posted @ 2017-11-29 23:42 biyangqiang 阅读(114) 评论(0) 推荐(0) 编辑

day08 MapReduce
摘要:PS: HDFS对于MapReduce来说,HDFS就是一个就是一个客户端。 PS: 离线就是 写sql,sparkh还是写sql 1. MAPREDUCE原理篇(1) Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心 阅读全文

posted @ 2017-11-28 10:08 biyangqiang 阅读(182) 评论(0) 推荐(0) 编辑

day07 hadoop里面的RPC框架使用
摘要:1.服务端 发布服务 2.客户端 查找服务 阅读全文

posted @ 2017-11-22 14:41 biyangqiang 阅读(165) 评论(0) 推荐(0) 编辑

day07 eclipse使用本地 库文件 访问HDFS
摘要:常用命令 1. hdfs dfsadmin -report 查看系统的各台机器状态 1. 把haddop文件放在某I个位置用来引用 2. 3. 4.进行jar包的添加 其中把所有的common lib添加,然后添加 接着把hdfs的所有lib添加 和 添加 在Windows系统端配置HDFS环境 * 阅读全文

posted @ 2017-11-20 15:09 biyangqiang 阅读(299) 评论(0) 推荐(0) 编辑

!!!!---linux常见问题和解决方案--我的
摘要:磁盘 1.mini系统没有ssh命令 阅读全文

posted @ 2017-11-19 15:13 biyangqiang 阅读(191) 评论(0) 推荐(0) 编辑

day 06云计算的三种服务模式:IaaS,PaaS和SaaS
摘要:云计算的三种服务模式:IaaS,PaaS和SaaS ”云服务”现在已经快成了一个家喻户晓的词了。如果你不知道PaaS, IaaS 和SaaS的区别,那么也没啥,因为很多人确实不知道。 “云”其实是互联网的一个隐喻,“云计算”其实就是使用互联网来接入存储或者运行在远程服务器端的应用,数据,或者服务。 阅读全文

posted @ 2017-11-19 11:41 biyangqiang 阅读(197) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示