摘要:
1.MapReduce 工作原理:https://blog.csdn.net/m0_37558366/article/details/89500539 2.MapReduce、Hive、Spark中数据倾斜:https://blog.csdn.net/lzw2016/article/details/ 阅读全文
摘要:
衡量离散程度的指标 极差:一组数据中,最大值与最小值的差 方差:一组数据中,每一个元素与均值偏里的大小 标准差:方差的开方 阅读全文
摘要:
第一章 机器学习概览 1 什么是机器学习 机器学习是一门能够让编程计算机从数据中学习的计算机科学(和艺术)。 略微笼统定义: 机器学习研究如何让计算机不需要明确的程序也能具备学习能力。 —— Arthur Samuel,1959 偏工程化定义: 一个计算机程序在完成任务T之后,获得经验E,其表现效果 阅读全文
摘要:
机器学习项目清单,主要有8步(可根据需求调整): 1.架构问题,关注蓝图。 2.获取数据。 3.研究数据以获得灵感。 4.准备数据以更好的将低层模型暴露给机器学习算法。 5.研究各种不同的模型,并列出最好的模型。 6.微调模型,并将其组合为更好的解决方案。 7.提出解决方案。 8.启动、监视、维护系 阅读全文
摘要:
Schema定义 ODS层 ods_业务系统名_业务系统里的schema名(如ods_lps_kkb_cloud_passport) DM层 应用层 DWD层 数据清洗层,去重,标准化,数据补齐。 可以基于ER建模和维度建模。 DWS层 数据汇总与过程表维度表 TEMP层 临时表 DIM表 公共维度 阅读全文
摘要:
用户会话技术产生的原因 我们都知道浏览器是没有状态的(HTTP 协议无状态),非持久连接。也就是说,你第二次通过某个浏览器访问WEB应用,他其实不知道你已经来过一次了。此时用户会话技术就油然而生。 用户会话技术之cookie篇 工作原理 浏览器端第一次发送请求到服务器端,服务器端创建Cookie,该 阅读全文
摘要:
”python爬虫系列“目录: Python爬虫(一)-必备基础 Python爬虫(二)- Requests爬虫包及解析工具 xpath Python爬虫(三)- Scrapy爬虫框架系列 scrapy (1)- 基础用法 scrapy (2)- get请求 scrapy (3)- post请求 s 阅读全文
摘要:
”python爬虫系列“目录: Python爬虫(一)-必备基础 Python爬虫(二)- Requests爬虫包及解析工具 xpath Python爬虫(三)- Scrapy爬虫框架系列 scrapy (1)- 基础用法 scrapy (2)- get请求 scrapy (3)- post请求 s 阅读全文
摘要:
大数据技术栈全貌 下面自底向上介绍各个层的主要项目。 1 采集层和传输层 Sqoop 在hadoop和关系型数据库之间转换数据。 Flume Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据,如web服务器产生的日志,通过Flume将日志写入到Hadoop的HD 阅读全文
摘要:
概述: vim是一种久远而强大的编辑器,分为三种模式:命令行模式、输入模式、底线命令行模式。 命令行模式: 在通过vim test.txt命令创建或打开(如果文件存在就直接打开,如果不存在则先创建再打开)一个txt文件时,就进入了命令行模式,该模式的特点是不可对文件进行编辑,此时敲击键盘则被vim识 阅读全文