peng_li - 博客园

2021年6月18日

摘要： 1.MapReduce 工作原理：https://blog.csdn.net/m0_37558366/article/details/89500539 2.MapReduce、Hive、Spark中数据倾斜：https://blog.csdn.net/lzw2016/article/details/ 阅读全文

posted @ 2021-06-18 09:12 peng_li 阅读(528) 评论(0) 推荐(0)

2021年5月26日

数据分析中常用的数学指标

摘要：衡量离散程度的指标极差：一组数据中，最大值与最小值的差方差：一组数据中，每一个元素与均值偏里的大小标准差：方差的开方阅读全文

posted @ 2021-05-26 18:10 peng_li 阅读(358) 评论(0) 推荐(0)

机器学习概览

摘要：第一章机器学习概览 1 什么是机器学习机器学习是一门能够让编程计算机从数据中学习的计算机科学（和艺术）。略微笼统定义：机器学习研究如何让计算机不需要明确的程序也能具备学习能力。 —— Arthur Samuel，1959 偏工程化定义：一个计算机程序在完成任务T之后，获得经验E，其表现效果阅读全文

posted @ 2021-05-26 18:05 peng_li 阅读(185) 评论(0) 推荐(0)

机器学习项目清单

摘要：机器学习项目清单，主要有8步（可根据需求调整）： 1.架构问题，关注蓝图。 2.获取数据。 3.研究数据以获得灵感。 4.准备数据以更好的将低层模型暴露给机器学习算法。 5.研究各种不同的模型，并列出最好的模型。 6.微调模型，并将其组合为更好的解决方案。 7.提出解决方案。 8.启动、监视、维护系阅读全文

posted @ 2021-05-26 18:03 peng_li 阅读(219) 评论(0) 推荐(0)

2021年1月8日

数据仓库开发规范

摘要： Schema定义 ODS层 ods_业务系统名_业务系统里的schema名（如ods_lps_kkb_cloud_passport） DM层应用层 DWD层数据清洗层，去重，标准化，数据补齐。可以基于ER建模和维度建模。 DWS层数据汇总与过程表维度表 TEMP层临时表 DIM表公共维度阅读全文

posted @ 2021-01-08 14:57 peng_li 阅读(776) 评论(0) 推荐(0)

详解会话技术cookie、session和token

摘要：用户会话技术产生的原因我们都知道浏览器是没有状态的(HTTP 协议无状态)，非持久连接。也就是说，你第二次通过某个浏览器访问WEB应用，他其实不知道你已经来过一次了。此时用户会话技术就油然而生。用户会话技术之cookie篇工作原理浏览器端第一次发送请求到服务器端，服务器端创建Cookie，该阅读全文

posted @ 2021-01-08 14:08 peng_li 阅读(239) 评论(0) 推荐(0)

2021年1月5日

Requests爬虫包及解析工具 xpath、正则、Beautiful Soup

摘要： ”python爬虫系列“目录： Python爬虫（一）-必备基础 Python爬虫（二）- Requests爬虫包及解析工具 xpath Python爬虫（三）- Scrapy爬虫框架系列 scrapy (1)- 基础用法 scrapy (2)- get请求 scrapy (3)- post请求 s 阅读全文

posted @ 2021-01-05 17:41 peng_li 阅读(884) 评论(0) 推荐(0)

Python爬虫（一）-必备基础

摘要： ”python爬虫系列“目录： Python爬虫（一）-必备基础 Python爬虫（二）- Requests爬虫包及解析工具 xpath Python爬虫（三）- Scrapy爬虫框架系列 scrapy (1)- 基础用法 scrapy (2)- get请求 scrapy (3)- post请求 s 阅读全文

posted @ 2021-01-05 17:33 peng_li 阅读(352) 评论(0) 推荐(0)

2020年12月30日

大数据技术栈—如何成为一个优秀的大数据开发者

摘要：大数据技术栈全貌下面自底向上介绍各个层的主要项目。 1 采集层和传输层 Sqoop 在hadoop和关系型数据库之间转换数据。 Flume Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据，如web服务器产生的日志，通过Flume将日志写入到Hadoop的HD 阅读全文

posted @ 2020-12-30 12:18 peng_li 阅读(629) 评论(0) 推荐(1)

2020年12月28日

vim编辑器常用方法总结（mac环境下）

摘要：概述： vim是一种久远而强大的编辑器，分为三种模式：命令行模式、输入模式、底线命令行模式。命令行模式：在通过vim test.txt命令创建或打开（如果文件存在就直接打开，如果不存在则先创建再打开）一个txt文件时，就进入了命令行模式，该模式的特点是不可对文件进行编辑，此时敲击键盘则被vim识阅读全文

posted @ 2020-12-28 16:59 peng_li 阅读(718) 评论(0) 推荐(0)

PengLi

一个学生物的程序猿

公告