摘要:
最近,我读了架构漫谈的九篇博文,让我深有所感。深刻的理解了什么是架构,以及架构在我们的日常生活以及程序员的编程过程中所发挥的重要作用,同时也深刻的深刻的认识到一名合格的软件架构师在面对具体项目时所发挥的巨大的不可替代的作用。下面就让我们来谈一谈什么是架构。 架构漫谈的第一章,为我们从生活到编程全面的 阅读全文
摘要:
ECharts简介 ECharts,纯Javascript图表库,基于Canvas,底层依赖ZRender,商业产品常用图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。可以流畅的运行在 阅读全文
摘要:
Sqoop概述 Sqoop是一款开源的工具,主要用于在Hadoop生态系统(Hadoop、Hive等)与传统的数据库(MySQL、Oracle等)间进行数据的传递,可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。 Sqoop导入原理: 在导入 阅读全文
摘要:
基础概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十 阅读全文
摘要:
数据清洗概述 数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合 阅读全文
摘要:
一、 采集北京市政百姓信件内容 什么是爬虫 网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。 爬 阅读全文
摘要:
一、实验目的 (1)通过实验掌握基本的 MLLib 编程方法; (2)掌握用 MLLib 解决一些常见的数据分析问题,包括数据导入、成分分析和分类和 预测等。 二、实验平台 操作系统:Ubuntu16.04 JDK 版本:1.7 或以上版本 Spark 版本:2.1.0 数据集:下载 Adult 数 阅读全文
摘要:
一、实验目的 (1)通过实验学习日志采集工具 Flume 的安装和使用方法; (2)掌握采用 Flume 作为 Spark Streaming 数据源的编程方法。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 Flume 版本:1.7.0 三、实验内容和要求 1.安 阅读全文
摘要:
一、实验目的 (1)通过实验掌握 Spark SQL 的基本编程方法; (2)熟悉 RDD 到 DataFrame 的转化方法; (3)熟悉利用 Spark SQL 管理来自不同数据源的数据。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 数据库:MySQL 三、实 阅读全文
摘要:
今天本来想要进行Spark基础实验五。但是通过观看实验要求,我发现里面涉及到编程实现将 RDD 转换为 DataFrame这一过程,对于DataFrame我并不了解,于是通过查找网络资料。找到了以下相关内容。 参考博客:https://www.cnblogs.com/flw0322/p/122847 阅读全文