摘要: http://hive.apache.org/ The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed st 阅读全文
posted @ 2022-05-31 17:53 匠人先生 阅读(223) 评论(0) 推荐(0) 编辑
摘要: SQL-Structured Query Language 语言简洁,易学易用 DDL:Create、Drop、Alter DML:ISUD(Insert、Select、Update、Delete) 权限 Grant、Revoke 场景 olap(Analysis) oltp(Transaction 阅读全文
posted @ 2022-05-31 17:22 匠人先生 阅读(123) 评论(0) 推荐(0) 编辑
摘要: https://hadoop.apache.org A framework for job scheduling and cluster resource management. 一 部署 角色 ResourceManager、NodeManager 客户端 Job、AppMaster、Contai 阅读全文
posted @ 2022-05-31 16:17 匠人先生 阅读(248) 评论(0) 推荐(0) 编辑
摘要: https://hadoop.apache.org A distributed file system that provides high-throughput access to application data. 特点: 大文件、一次写入多次读取,修改只支持Append 多副本 流式、非低延时 阅读全文
posted @ 2022-05-31 16:05 匠人先生 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 机器学习算法 Classification 分类:性别分类、年龄分类 Clustering 聚类:常用地址聚类 Regression 回归:销量预测,续航里程预测 Collaborative Filtering 协同过滤(User-based, Item-based):个性化推荐 流程 pipeli 阅读全文
posted @ 2022-05-31 12:39 匠人先生 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 一 50年科技发展史 方向 公司组织 年代 代表 大型机 IBM 70年代 System z、AIX 小型机 DEC、SUN 80年代 SPARC、Solaris 廉价PC+光纤 Google 90年代 Intel、Seagate 大数据 Google 2003-2004 GFS、MapReduce 阅读全文
posted @ 2022-05-31 12:10 匠人先生 阅读(130) 评论(0) 推荐(0) 编辑