10 2021 档案
摘要:Hadoop实操演练 什么是快照 给虚拟机保存当下的状态 之后可以回退到保存的状态 什么时候用快照 在对虚拟机执行一些比较危险的操作之前可以先使用快照之后还可以返回 如何快速生成多台虚拟机 先将需要克隆的机器关机 链接克隆与完整克隆 链接克隆的速度很快但是需要保证原机器运行正常(不能坏) 完整克隆速
阅读全文
摘要:大数据的概念 1.什么样的数据才可以称之为是“大数据” 1.海量:数据量一定要大 2.高增长率:一定的时间内数据快速增长 3.多样化:数据的种类千奇百怪 2.研究大数据的目的 1.海量数据的储存 2.海量数据的分析计算 3.重要的度量单位 bit、Byte、KB、MB、GB、TB、PB、EB、ZB、
阅读全文
摘要:异常情况 编辑过程中链接出现终端 再次链接编辑文件会提示相应信息 解决方式:删除显示的隐藏文件 rm-f .oldboy.txt.swp 出现的原因: 1.编辑状态突然出现了终端 2.文件被多个人使用 总结:出现了隐藏文件,没有及时删除 vi -r oldboy.txt 目录结构说明 结构特点说明
阅读全文
摘要:操作系统的本质 用来管理、协调、控制计算机各个硬件的工作 我们所使用的很多软件搜必须运行在操作系统之上 pc端操作系统 windows操作系统 手机端操作系统 安卓 iOS 鸿蒙 windows操作系统主要哦侧重于用户的体验 操作极其简单 Linux操作系统主要侧重于软件的运行 操作较为繁琐 mac
阅读全文
摘要:LInux操作系统 1.Linux前期知识 2.Linux操作系统的安装和基本命令以及核心知识 3.Linux基础补充知识 4.Hadoop⼊⻔ 5.hadoop入门补充知识
阅读全文
摘要:算法模型 1.数据模型之一元线性回归模型 2.模型的假设检验(F与T)岭回归与Lasso回归 Logistics回归模型 决策树与随机森林 K近邻模型 3.贝叶斯模型、SVM模型、K均值模型、DBSCAN聚类
阅读全文
摘要:数据分析 1.数据分析简介和数据分析模块 2.数据分析之numpy科学计算库 3.pandas模块之Series 4.pandas模块之DataFrame 5.pandas模块结尾和matplotlib模块 6.matplotlib模块的补充 7.数据清洗
阅读全文
摘要:爬虫与MongoDB数据库 1.获取数据的途径、爬虫的概念、网页的组成 2.HTML标签和正则表达式 3.爬虫入门操作 4.爬虫前期知识补充 5.数据加载方法和爬虫实战案例 6.bs4模块的基本使用和实际案例 7.bs4模块和正则表达式的练习题(重要) 8.openpyxl模块和练习题(重要) 9.
阅读全文
摘要:MySQL数据库 1.MySQL数据库的简介 2.MySQL数据库的基本语句,修改、破解密码及配置文件 3.MySQL数据库的存储、数据类型、字段和约束条件 4.MySQL数据库约束条件的补充(主键、自增、外键) 5.MySQL数据库查询关键字与筛选关键字 6.MySQL数据库多表查询理论和可视化软
阅读全文
摘要:python基础知识 1.python的编程语言、使用的解释器以及编程的软件 2.python的基本操作和一些常量、数据类型的知识 3.python的基本数据类型、与用户交互、格式化输出以及基本运算符 4.逻辑运算符、成员运算符、身份运算符、流程控制 5.循环结构中的for循环、数据类型的内置方法
阅读全文
摘要:电脑的种类 台式机 笔记本 服务器 作用: 1.可以尽量避免数据不会丢失 2.可以24小时不间断提供服务 3.可以提升用户体验 ps:运维人员的工作,本质上就是为了上述三点的实现 服务器的种类 云主机服务器 将多台硬件服务器进行整合,根据用户的需求分配硬件资源给相应的客户 物理主机服务器 机架式服务
阅读全文
摘要:贝叶斯模型 通过已知类别的训练数据集,计算样本的先验概率 然后利用贝叶斯概率公式测算未知类别属于某个类别的后验概率 最终以最大后验概率所对应的类别作为样本的预测值 高斯贝叶斯分类器 适用于自变量为连续的数值类型的情况 # 导入第三方包 import pandas as pd # 读入数据 skin
阅读全文
摘要:模型的假设检验 F检验:提出原假设和备泽假设 之后计算统计量与理论值 最后比较 F检验主要检验的模型是否合理 # 导⼊第三⽅模块 import numpy as np # 计算建模数据中因变量的均值 ybar=train.Profit.mean() # 统计变量个数和观测个数 p=model2.df
阅读全文
摘要:一元线性回归模型 分析两个变量之间知否存在明显的线性关系 一元线性回归 公式:y=ax+b 多元线性回归 公式:y=a1x+a2x+a3x+......b 数据符号网站 散点图 看不出线性关系的不能说没有关系只能说没有线性关系 公式计算 大于等于0.8表示高度相关(存在明显的线性关系) 绝对值大于0
阅读全文
摘要:数据清洗的概念 类比定义 数据分析过程 做菜过程 收集数据 明确要做什么菜品 数据清洗 去菜市场买菜 数据分析 炒菜 数据分析报告+数据可视化 拍照+发朋友圈并且吃菜 专业定义 数据清洗是从记录表、表格、数据库中检测、纠正或删除损坏或不准确的记录过程 专业名词 脏数据 没有进过处理自身有一定问题的数
阅读全文
摘要:条形图的绘制 虽然饼图可以很好地表达离散型变量在各水平上的差异,但不擅长对比差异不大或水平值过多的离散型变量,因为饼图是通过各扇形面积的大小来比较差异的,面积的比较有事并不直观 对于条形图而言,对比的是柱形的高低,柱体越高,代表的数值越大,反之亦然 bar(x, height, width=0.8,
阅读全文
摘要:缺失值处理 缺失值的识别与处理 1. df.isnull 2. df.fillna 3. df.dropna data05 = pd.read_excel(r'data_test05.xlsx') data05.head() data05.isnull() # 统计每个数据项是否有缺失 data05
阅读全文
摘要:Series数据操作 res = pd.Series([111,222,333,444]) 增 res['a'] = 123 查 res.loc[1] 改 res[0] = 1 删 del res[0] 算数运算符 add 加(add) sub 减(substract) div 除(divide)
阅读全文
摘要:numpy小练习 1.计算数组每一行和每一列的中位数(不能使用axis参数) array([ [ 80.5, 60., 40.1, 20., 90.7], [ 10.5, 30., 50.4, 70.3, 90.], [ 35.2, 35., 39.8, 39., 31.], [91.2, 83.4
阅读全文
摘要:numpy简介 1.Numpy是高性能科学计算和数据分析基础包 2.也是pandas等其他数据分析工具的基础 3.Numpy具有多维数组功能,运算更加高效快速 下载模块 在notebook中如果需要执行pip命令下载模块 只需要在命令行的开头加上一个感叹号即可 !pip3 install numpy
阅读全文
摘要:数据分析的概念 什么是数据分析 就是从现有的数据中挖掘出价值 数据分析应用领域 商品推荐 eg:在淘宝上搜索了一款商品之后 接下来会疯狂给推荐相关的产品 相关产品 量化交易 股票 期货 等数据分析 短视频推送 抖音 今日头条等短视频推荐 数据分析是未来所有公司不可或缺的岗位,目前社会上获取数据的方式
阅读全文
摘要:文档操作的补充 涉及到数据的嵌套查找 支持直接点键或者索引 db.t1.deleteOne({'addr.counytry':'Japan'}) db.t1.deleteOne({'hobby.1':'tea'}) .键.索引.索引.键 可以无限制往下点点点 用户权限管理 涉及到用户权限相关 引号推
阅读全文
摘要:爬虫框架scrapy 框架:别人提前给我们搭建好了基本的架构 具备了一定的功能 Scrapy是网络爬虫中使用频率最高 功能最为完善的框架 下载scrapy框架 pip3 install scrapy 苹果笔记本直接下载就可以 但是Windows电脑可能会出现错误 windows电脑如果下载报错并且没
阅读全文
摘要:百度自动登录 from selenium import webdriver import time # 1.使用谷歌浏览器访问百度首页 bro = webdriver.Chrome() bro.get('https://www.baidu.com/') # 2.查找页面上的登录按钮 login_ta
阅读全文

浙公网安备 33010602011771号