上上大数据课件 - 随笔分类 - 十一vs十一

爬虫综合案例

摘要：爬虫综合案例(jd爬虫) 学习了HttpClient和Jsoup，就掌握了如何抓取数据和如何解析数据，接下来，我们完成我们的项目案例，把京东的手机数据抓取下来一、需求分析需求说明: 本次爬取jd商城中所有手机商品数据:主要包含商品的名称商品价格商品的id 商品图片商品的详情的地址通过点阅读全文

posted @ 2020-11-13 15:47 十一vs十一阅读(186) 评论(0) 推荐(0) 编辑

大数据之flink教程

摘要：第一章 Flink简介 1.1 初识Flink Flink起源于Stratosphere项目，Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目，2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会，参加这个孵化阅读全文

posted @ 2020-11-12 16:58 十一vs十一阅读(632) 评论(0) 推荐(0) 编辑

大数据项目实战之在线教育（04实时实现）

摘要：第1章项目需求及架构设计1.1 项目需求分析一、数据采集平台搭建二、Kafka、Zookeeper中间件准备三、下游Spark Streaming对接Kafka接收数据，实现vip个数统计、栏目打标签功能、做题正确率与掌握度的实时计算功能。 1.2 项目框架1.2.1 技术选型一、数据存储阅读全文

posted @ 2020-11-12 15:59 十一vs十一阅读(584) 评论(0) 推荐(0) 编辑

大数据项目实战之在线教育（03实时需求）

摘要：第1章Spark Streaming概念 Spark Streaming 是核心Spark API的扩展，可实现实时数据的可扩展，高吞吐量，容错处理。数据可以从许多来源（如Kafka,Flume,Kinesis,或TCP套接字）中获取，并可以使用高级函数进行处理，处理完后的数据可以推送到文件系统，数阅读全文

posted @ 2020-11-12 15:36 十一vs十一阅读(310) 评论(0) 推荐(0) 编辑

大数据项目实战之在线教育（01数仓需求）

摘要：第1章数据仓库概念数据仓库是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。数据仓库是出于分析报告和决策支持目的而创建的，为需要业务智能的企业，提供指导业务流程改进、监控时间、成本、质量以及控制。第2章项目需求及架构设计 2.1 项目需求分析一、数据采集平台搭建二、实现数阅读全文

posted @ 2020-11-12 15:32 十一vs十一阅读(1129) 评论(0) 推荐(0) 编辑

大数据项目实战之在线教育（02数仓实现）

摘要：第1章数仓分层概念 1.1 为什么要分层 1.2 数仓命名规范 ODS层命名为ods DWD层命名为dwd DWS层命名为dws ADS层命名为ads 临时表数据库命名为xxx_tmp 备份数据数据库命名为xxx_bak 详见：尚硅谷大数据技术之Hive 2.1 Hive&MySQL安装 2.1. 阅读全文

posted @ 2020-11-12 12:01 十一vs十一阅读(883) 评论(0) 推荐(0) 编辑

大数据之flink教程-TableAPI和SQL

摘要：Table API 和 Flink SQL 第一章整体介绍 1.1 什么是 Table API 和 Flink SQL Flink本身是批流统一的处理框架，所以Table API和SQL，就是批流统一的上层处理API。目前功能尚未完善，处于活跃的开发阶段。 Table API是一套内嵌在Java 阅读全文

posted @ 2020-11-12 09:48 十一vs十一阅读(3220) 评论(0) 推荐(0) 编辑

尚硅谷大数据技术之电商用户行为数据分析

摘要：尚硅谷大数据技术之电商用户行为分析第1章项目整体介绍 1.1 电商的用户行为电商平台中的用户行为频繁且较复杂，系统上线运行一段时间后，可以收集到大量的用户行为数据，进而利用大数据技术进行深入挖掘和分析，得到感兴趣的商业指标并增强对风险的控制。电商用户行为数据多样，整体可以分为用户行为习惯数据阅读全文

posted @ 2020-11-12 09:26 十一vs十一阅读(1605) 评论(0) 推荐(0) 编辑

大数据实时项目(采集部分)

摘要：第一章实时需求概览 1 实时需求与离线需求的比较离线需求，一般是根据前一日的数据生成报表，虽然统计指标、报表繁多，但是对时效性不敏感。实时需求，主要侧重于对当日数据的实时监控，通常业务逻辑相对离线需求简单一下，统计指标也少一些，但是更注重数据的时效性，以及用户的交互性。 2 需求明细 2.1当阅读全文

posted @ 2020-11-12 09:18 十一vs十一阅读(484) 评论(0) 推荐(0) 编辑

大数据实时项目(交易额)

摘要：第一章 ·采集数据 1 框架流程 2 canal 入门 2.1 什么是 canal 阿里巴巴B2B公司，因为业务的特性，卖家主要集中在国内，买家主要集中在国外，所以衍生出了杭州和美国异地机房的需求，从2010年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量阅读全文

posted @ 2020-11-09 16:39 十一vs十一阅读(492) 评论(0) 推荐(0) 编辑

ElasticSearch课件1.22

摘要：ElasticSearch 版本：V 1.2.2 一 elasticsearch简介 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的阅读全文

posted @ 2020-11-09 16:38 十一vs十一阅读(304) 评论(0) 推荐(0) 编辑

clickhouse1.0.5

摘要：Clickhouse 版本：V 1.0.5 第一章 Clickhouse简介 ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库（DBMS），使用C++语言编写，主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。第二章 Clickhouse的特阅读全文

posted @ 2020-11-09 16:31 十一vs十一阅读(219) 评论(0) 推荐(0) 编辑

大数据实时项目(ads层)

摘要：第一章 ADS 聚合层 ads层，主要是根据各种报表及可视化来生成统计数据。通常这些报表及可视化都是基于某些维度的汇总统计。 1 需求热门商品统计（作业）热门品类统计（作业）热门品牌统计交易用户性别对比（作业）交易用户年龄段对比（作业）交易额省市分布（作业） 2 分析以热门商品统计为例阅读全文

posted @ 2020-11-09 16:23 十一vs十一阅读(3176) 评论(0) 推荐(0) 编辑

大数据实时项目(dws层)1.2

摘要：第一章双流合并除了事实表与维表进行合并形成宽表，还需要事实表与事实表进行合并形成更大的宽表。 1 双流合并的问题由于两个流的数据是独立保存，独立消费，很有可能同一业务的数据，分布在不同的批次。因为join算子只join同一批次的数据。如果只用简单的join流方式，会丢失掉不同批次的数据。 2 阅读全文

posted @ 2020-11-09 16:18 十一vs十一阅读(401) 评论(0) 推荐(0) 编辑

大数据实时项目(日活）1.6.1

摘要：第一章实时处理模块 1 模块搭建添加scala框架 2 代码思路 l 消费kafka中的数据。 l 利用redis过滤当日已经计入的日活设备。 l 把每批次新增的当日日活信息保存到ES中。 l 从ES中查询出数据，发布成数据接口，通可视化化工程调用。 3 代码开发之消费Kafka 3.1 配置阅读全文

posted @ 2020-11-09 16:13 十一vs十一阅读(244) 评论(0) 推荐(0) 编辑

01_大数据技术之Spark入门（2.1）

摘要：第1章 Spark概述1.1 什么是SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Spark历史 1.3 Spark内置模块 Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了阅读全文

posted @ 2020-11-09 09:37 十一vs十一阅读(323) 评论(0) 推荐(0) 编辑

03_大数据技术之SparkSql（2.0）

摘要：第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。与基本的Spark RDD API不同，Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。阅读全文

posted @ 2020-11-07 15:56 十一vs十一阅读(317) 评论(0) 推荐(0) 编辑

04_大数据技术之SparkStreaming（2.0)

摘要：第1章 Spark Streaming概述 1.1 离线和实时概念数据处理的延迟离线计算就是在计算开始前已知所有输入数据，输入数据不会产生变化，一般计算量级较大，计算时间也较长。例如今天早上一点，把昨天累积的日志，计算出所需结果。最经典的就是Hadoop的MapReduce方式；实时计算输阅读全文

posted @ 2020-11-07 15:49 十一vs十一阅读(392) 评论(0) 推荐(0) 编辑

05_大数据技术之Spark内核解析（1.1）

摘要：1. Spark 内核概述 Spark内核泛指Spark的核心运行机制，包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等，熟练掌握Spark内核原理，能够帮助我们更好地完成Spark代码设计，并能够帮助我们准确锁定项目运行过程中出现的问阅读全文

posted @ 2020-11-07 14:37 十一vs十一阅读(189) 评论(0) 推荐(1) 编辑

06_大数据技术之Spark性能调优与故障处理（1.1）

摘要：第一章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一：最优资源配置 Spark性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spa 阅读全文

posted @ 2020-11-07 11:35 十一vs十一阅读(325) 评论(0) 推荐(0) 编辑

随笔分类 - 上上大数据课件

公告