了解大数据
了解大数据
一.大数据
1.大数据的定义
麦肯锡全球研究所:一种规模大到在获取,存储,管理,分析方面大大超出了传统数据库软件工具能力范围的数据集合。
2.大数据的特点
大量,高速,多样,价值
3.数据的结构
结构化的数据:
简单来说就是数据库,是由二维表结构来逻辑表达和实现的数据
非结构化的数据:
数据结构不规则或不完整,没有预定义的数据模型
4.我们身边有哪些是大数据
电信数据:通话数据,短信数据,手机浏览数据;银行数据;微信聊天数据......
5.大数据带来了什么
数据挖掘:
用户画像;知识图谱
人工智能:
Google的 ‘ 阿尔法狗 ’;阿里巴巴的”ET“,百度的”无人驾驶汽车“
区块链:
数字货币,物联网
总结:
大数据就是互联网发展到现今阶段的一种表象或特征
二.人工智能
1.人工智能是什么
人工智能:英文缩写为AI。它是研究,开发用于模拟,延伸和扩展的智能的理论,方法,技术及应用系统的一门新的技术科学
总结:大数据+深度学习=人工智能
2.人工智能三大发展要素
*计算机硬件
*算法
*数据
三.机器学习和深度学习
1.机器学习的定义
专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能
2.机器学习基本过程
机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿出这个模型来测试其他的数据,最终获得满意的经验来处理其他的数据。
总结:数据导入—>数据清洗—>特征工程—>训练模型—>评估模型—>预测新数据
3.机器学习的分类
监督学习,无监督学习,半监督学习,强化学习。
4.算法的分类
回归算法(监督学习),聚类算法,分类算法,神经网络,将维算法,SVM支持向量机,推荐算法(t特殊),其他算法
5.深度学习
深度学习是机器学习中一种基于数据进行表征学习的方法—含有多隐层的神经网络
6.机器学习和深度学习的应用
广泛用于数据挖掘,计算机视觉,自然语言处理,生物特征识别机器人领域等。
四.数据挖掘
1.什么是数据挖掘
- 从大量的数据中挖掘出隐含的,未知的,用户可能感兴趣的和对决策有潜在价值的知识和规则
- 简单的说,数据挖掘就是从大量的数据中发现有用信息的过程
2.数据挖掘怎么挖数据
通过大数据(数据,分布式技术)和挖掘算法(机器学习算法)
3.挖掘能做什么
用户可能感兴趣的和对决策有潜在价值的知识和规则
五.大数据技术体系
1.大数据体系
- 开发语言:Java ,Python,Scala;
- 分布式存储:Hdfs,Hbase,Redis,Mongedb;
- 分布式计算:Mapreducer,Sark Core,Storm;
- 数据仓库技术:Hive ,Sqoop,Flume,Spark SQL
- 机器学习:Mahout,Scikit—lean,MLlib
2.分布式计算
分布式计算将该应用分解为许多小的部分,分配给多台计算机进行处理。
六.学习大数据之前的准备
1.掌握一门大数据开发语言
-Java
- 必须掌握J2SE,jdbc,JS,sql语句,sevlet,jsp,spring框架等。
- 见百战程序员Java1000集视频
-Python
- 必须掌握Python语法,Python面向对象,Python数据库等
- 见百战程序员1000集视频
-熟悉linux
-数列linux常用命令
七.大数据职位介绍
按需求排序:数据挖掘工程师;
Spark开发工程师,数据仓库工程师,Hadoop开发工程师
工资
(大数据开发工程师)
(数据仓库)
(数据仓库)
(大数据开发工程师)
总结:数据挖掘,机器学习,算法工程师工资几乎都超过两万
八.大数据简历怎么写
- 个人资料
- 工资经历
- 职业技能
- 期望薪资 填写面议
- 项目经验
- 自我评价
九.大数据的学习方法
·多写代码 (大数据偏向实战)
—纸上得来终觉浅,绝知此事要躬行
—看再多的书,也比不上设计调试一个简单的程序
—写代码和其它事情比例 7:3
·看优秀的书和视频
—《程序员的数学》《大数据之美》等
—连续看视频的时间不能超过30分钟
·设计规划
—多画图,数据流程图
—多画步骤图。完成一个需求往往需要多个jop依次执行,每个jop做什么事情,每个jop的每个任务做什么事情
·多思考,归纳总结
—每个案例学完之后,每段代码敲完之后,都要进行总结
—大数据编程比较灵活,一个需求往往有多种解决办法
·多交流
—学习的时候为自己找一个“伴”
—不耻下问
·多看日志学会独立解决问题
—解决问题只能靠日志信息
—先看日志,看不懂再问老师及其他人
·一份付出,一份回报
大数据重点课程介绍
- Linux基础
- 高并发集群(前两个为后面3个做准备)
- Hadoop离线计算体系
— HDFS
— Mapreduce
— Hive
— Hbase
— Sqoop,Flume,zookeeper,CDH,impala,oozie等
- Sprak内存计算体系
—Spark core,Spark Sql,sprak streaming,Scala语言
- 机器学习
—R语言,Python机器学习,Spark MLlib