10 2021 档案
摘要:linux总结 电脑的种类 服务器的种类 服务器内部组成 虚拟化 磁盘分区 直接操作虚拟机的缺陷 linux基本操作命令 快捷命令方式 目录结构相关命令 文件相关命令 文件编辑命令 vi编辑命令 异常情况 文件目录结构说明 重要目录数据信息说明 usr目录下重要的数据文件 var目录下重要的数据文件
阅读全文
摘要:Hadpoo基本配置,公钥与密钥 HDFS概念 Hadoop实操演练 Paramiko模块 公钥私钥 JDK环境准备 Hadoop环境准备 Hadoop目录结构 官方案例 伪分布式模式 配置日志采集 完全分布式(开发重点) 集群群起 单点启动(了解) 集群时间同步(了解) HDFS概念 ⼀个⽂件系统
阅读全文
摘要:linux重要目录与大数据 异常情况 文件目录 文件目录结构说明 重要目录数据信息说明 网络不通排查流程 etc目录下重要的数据文件 usr目录下重要的数据文件 var目录下重要的数据文件 proc目录重要的数据文件 系统优化 环境变量补充 大数据概念 异常情况 编辑过程中链接出现中断,再次编辑文件
阅读全文
摘要:linux系统安装,磁盘分区,远程连结工具和Linux基本操作命令 linux操作系统的安装(重要) 网络链接模式 安装过程说明 系统磁盘分区 直接操作虚拟机的缺陷 远程链接工具XShell 网络相关名词 linux基本操作命令 快捷命令方式 目录结构相关命令 文件相关命令 文件编辑命令 linux
阅读全文
摘要:Linux基础 电脑的种类 服务器种类 服务器的品牌 服务器内部组成 虚拟化 电脑的种类 台式机 笔记本 服务器 作用: 1.可以尽量避免数据不会丢失 2.可以24小时不间断提供服务 3.可以提升用户体验ps:运维人员的工作,本质上就是为了上述三点的实现 操作系统 操作系统的诞生 由于管理、协调、控
阅读全文
摘要:贝叶斯模型、SVM模型、K均值聚类、DBSCAN聚类和GDBT模型 贝叶斯模型 SVM模型 K均值(Kmeans)聚类 DBSCAN聚类 GDBT模型 贝叶斯模型 概念 通过已知类别的训练数据集,计算样本的先验概率,然后利⽤⻉叶斯概率公式测算未知类别样本属于某个类别的后验概率最终以最⼤后验概率所对应
阅读全文
摘要:数据模型第二次总结 pandas其他补充操作 透视表 分组与聚合 数据的合并纵向和横向 可视化模块matplotlib模块 饼图绘制 条形图绘制 水平条形图 交叉条形图 直方图 箱线图 折线图 散点图和气泡图 热力图 组合图绘制 可视化相关模块 数据清洗 实战案例 新增列 重要名词解释 判断线性关系
阅读全文
摘要:模型假设检测、岭回归、Lasso回归、Lodistic回归模型、决策树与随机森林、K近邻模型 模型假设检验(F与T) 岭回归模型、Lasso回归模型和交叉模型 Logistic回归模型 决策树和决策森林 K近邻模型 模型假设检验(F与T) F检验概念 提出问题的原假设和备择假设,在原假设的条件下,构
阅读全文
摘要:表格自带正则方法和线性回归模型 作业改进 重要名词解释 判断线性关系 一元线性回归模型 作业改进 需求: 新增几个列,分别是酒店类型、酒店评分、游玩时间 列表自带正则方法 语法: 变量[列表名].str.extract(正则) 酒店类型 # 正则获取数据 data['酒店类型']=data['酒店'
阅读全文
摘要:数据清洗概念 数据清洗 实战案例 新增列 数据清洗 数据分析流程 需求分析——获取数据——数据清洗——探索数据——建模分析——撰写分析报告+数据可视化 什么是数据清洗 从记录表、表格、数据库中检测、纠正或删除损坏或不准确记录的过程 专业名词 脏数据:没有经过处含有一定问题的数据,如:缺失、异常、重复
阅读全文
摘要:图形模块使用 水平条形图 交叉条形图 直方图 箱线图 折线图 散点图和气泡图 热力图 组合图绘制 可视化相关模块 水平条形图 概念 擅长对比差异不大或水平值过多的离散型变量 对于条形图而言,对比的是柱形的高低,柱体越高,代表的数值越大,反之亦然 语法: bar(x, height, width=0.
阅读全文
摘要:DataFrame数据操作补充,透视表分组与聚合 和可视化模块matplotlib pandas其他补充操作 透视表 分组与聚合 数据的合并纵向和横向 可视化模块matplotlib模块 饼图绘制 条形图绘制 pandas其他补充操作 缺失值的识别与处理 1. df.isnull # 判断是否为空
阅读全文
摘要:MongoDB数据库和数据分析模块总结 scrapy的基础知识和MongoDB的简介 非关系型数据库之MongoDB MongoDB用户权限 爬取王者荣耀皮肤思路 pomongo模块 ipython模块 jupyter模块 Anaconda软件 数据分析numpy科学计算模块 索引切片 pandas
阅读全文
摘要:pandas模块补充和DataFrame的知识学习 Series数据操作 基本算术方法 DataFrame 如何读取外部数据 数据概览 行列操作 数据筛选 Series数据操作 数据准备 res=pd.Series([11,22,33,44]) 增加数据 res['a']=88res 查数据 res
阅读全文
摘要:pandas模块 小练习 pandas模块简介 数据类型Series 缺失数据概念 聚合函数 小练习 1.计算数组每一行的平均值和每一列的最小数(不能使用axis参数) # 调用模块 import numpy as np # 构造数组 a=np.array([[ 80.5, 60., 40.1, 2
阅读全文
摘要:数据分析numpy科学计算模块 科普 nump前戏 多维数组 数据类型 常用属性 运算符 函数、均值计算、总和与聚合函数 随机数 reshape() 科普 ''' 很多编程语言对数字精确度不是很敏感 python亦是如此 ''' eg: a=524552524.532523 b=str(a) pri
阅读全文
摘要:在python中操作mongodb,数据分析概念、模块和Anaconda软件 pymongo模块 数据分析概念 数据分析的工作流程 ipython模块 jupyter模块 Anaconda软件 pomongo模块 pymongo模块可以实现python和mongoDB实时交互 pomongo下载 p
阅读全文
摘要:爬取王者荣耀皮肤 思路 1.进入官网查看每个详细页面的网址 2.循环获取每个详细页面的网址,向详细网址发送请求 3.进入详细页面,查看图片加载方式 4.切换小图标时,背景图会变化,背景图为所要的数据 5.打开网络源码,发现背景图所在位置,但只有一个地址,所以推测为js加载方式 6.通过切换小图标,u
阅读全文
摘要:MongoDB的补充操作,用户权限管理,查询操作 文档操作补充 用户权限管理 数据查询方法 文档操作补充 删除 '''涉及到数据的嵌套查找 支持直接点键或者索引''' eg: db.db1.find({'ddd.fg':123}) db.db1.find({'fgh.0':'iii'}) 用户权限管
阅读全文
摘要:scrapy的基础知识和MongoDB的简介 爬虫框架Scrapy scrapy基本使用和文件介绍 非关系型数据库之MongoDB MongoDB简介 MongoDB下载与安装 启动步骤 MongoDB基本操作 爬虫框架Scrapy scrapy的简介 功能最为强大,使用频率高的一款异步爬虫框架 '
阅读全文
摘要:爬虫案例汇总 爬取天气数据 百度翻译 爬取药品许可证 华华手机网 菜场价格爬取 正则获取红牛数据 获取糗事百科图片 爬取优美图库图片 爬梨视频 爬取链家二手房数据 豆瓣数据改进爬取 实战猪八戒网 爬取城市名 爬取贴吧图片 小案例 seleuinm模块cookie登录案例 图片验证码思路 B战视频案例
阅读全文
摘要:自动百度登录、延时获取数据、京东数据和知乎案例思路 自动百度登录 延时获取数据 京东数据获取 知乎案例思路 自动百度登录 思路 1.获取登录链接,向链接输入指令 2.获取用户和密码输入框的位置,输入信息 3.输入登录信息后,获取登陆键位置,点击登录键,完成登录 ''' 注意: 完成动作后需要有缓冲时
阅读全文