10 2021 档案
10/27下
摘要:今日考题 1.阐述linux系统根目录下主要文件及功能 etc # 放配置文件 mnt # 临时挂载点 tmp # 临时数据 usr # 用户程序 var # 日志文件 2.阐述具有特定功能的特定文件有哪些 /etc/sysconfig/network-scripts/ifcfg-eth0 # 网络
阅读全文
10/27上
摘要:今日考题 1.系统相关命令有哪些 ip a # 查看网卡信息 ping www.baidu.com # 测试网络 Tab连按 # 查看指令(所有) clear # 清屏 man cd # 查看cd指令怎么用 shutdown -h 10 # 10分钟后关 shutdown -c # 取消关机或重启
阅读全文
10/26
摘要:今日考题 1.尽可能多的说说你所知道的算法模型各自核心点 线性回归模型 表达变量间线性关系 但是 自变量间不能有联系 自变量个数不能超过样本数 岭回归模型 对上面问题优化加入一个惩罚项 但是模型较为复杂 Lasso回归 一样能解决线性回归的短板 通过加入一个正则项 模型比岭回归简单 Logistic
阅读全文
10/25
摘要:今日考题 1.说说截至目前你所知道的算法模型以及各自你所知道的特点 1.一元线性回归模型 即一个变量对结果产生影响的情况 只有一个自变量和多个应变量 最后的数学在坐标中是直线 # 哑变量 通过类似矩阵表达出非数字的数据 2.多元线性回归模型 较于前者自变量可以有多个 更贴进生活 多变量组合影响结果
阅读全文
10/22
摘要:今日考题 1.如何确定变量之间是否存在线性关系 通过公式硬算关系 通过numpy自带方法 numpy.corrcoef(X,Y) 通过pandas自带方法 pandas.DataFrame({'X':X,'Y':Y}).corr() 得出结果的绝对值大于等于0.8表示高度相关 绝对值大于等于0.5小
阅读全文
10/21
摘要:今日考题 1.说说数据分析的整体工作流程 明确需求 收集数据 数据清洗 数据分析 数据报告+可视化 2.针对数据清洗核心流程及常用方法有哪些 读取数据 read_sql read_excel read_html read_csv 数据概览 index info columns shape... 简单
阅读全文
10/20
摘要:今日考题 1.说说你所知道的统计学图形及各自擅长点 饼图 用于查看数据占比 条形图 用于数据之间直观比较 直方图 用于查看数据分布特性 散点图 用于观察两个数据之间联系 气泡图 基于散点图的数据上有了第三个参数的情况 折线图 对于时间变化 用折线图能展示数据变化趋势 热力图 展示两个参数组合之后对另
阅读全文
10/19
摘要:今日考题 1.针对缺失值有哪些处理方法,实际工作中有哪些策略 针对缺失值总共就四种方法 1.isnull # 是NaN的标True 2.notnull # 和前一个刚好相反 3.dropna() # 删掉丢失数据 4.fillna() # 填充丢失数据 实际工作中如果丢失数据很少很少 比如占总数据的
阅读全文
10/18
摘要:今日考题 1.谈谈缺失数据的概念以及处理缺失数据的方法有哪些 丢失数据出现在重新创建索引或者是两个Series进行运算的情况下 有索引没有固定的数据则会出现 NaN 即数据缺失 NaN是一个浮点型数据 不太常用的方法可以直接dropna去删除这一数据 或者是通过fillna() 或者在运算中通过fi
阅读全文
三剑客小回顾
摘要:王者荣耀皮肤图片爬取 import requests import os from lxml import etree import time if not os.path.exists(r'王者skin'): os.mkdir(r'王者skin') # 创文件夹 res = requests.ge
阅读全文
10/15
摘要:今日考题 1.编写可以产生任意指定位数随机验证码的程序(先写思路再写代码) import random # 导入随机数模块 def ran_cod(figure): ''' 函数用来做随机验证码 参数控制位数 ''' code = '' # 定义空验证码方便之后加随机字符进来 for i in ra
阅读全文
10/14
摘要:今日考题 1.聊聊numpy模块 python编程环境中对于数字并不敏感 所以会出现一些将数字精确度降低的情况 同时仅用python自带的方式计算会消耗大量的时间 在数据量巨大的时候时间会成倍上涨 numpy模块可以有效的解决以上两个问题 同时他也是诸多运算模块的基础 numpy一般import之后
阅读全文
10/13
摘要:今日考题: 1.说说爬取王者荣耀英雄皮肤图片整体思路 先通过第一层网页找到详情页 然后找到图片所在位置 图片所在位置是背景板 而下面li标签中的链接是动态加载 所以通过背景板观察图片地址 找到规律之后发现刨除固定部分有一个是英雄的编号 和前面详情页地址的一部分一样 通过字符串操作拿到所需部分 然后思
阅读全文
10/12
摘要:今日考题 1.自我评价 哪里不足 有何缺陷 如何改进 昨天测验作为一阶段的总结我觉得 测试结果还是能够让我满意的 整体来说不管是理论题还是实操都能做出来 虽然理论题部分有遗忘 但是在经过老师话术的熏陶之后耳濡目染也能稍微掰扯些东西出来 对于这一个多月将近两个月的学习状况 我觉得自己后半程是有些许松懈
阅读全文
王者皮肤大图
摘要:王者英雄皮肤壁纸 1.首先进入英雄资料页面https://pvp.qq.com/web201605/herolist.shtml 2.数据是直接加载的 所以找到每个英雄头像对应的li标签 3.找到里面的链接herodetail/538.shtml 通过字符串拼接就能让代码进入详情页 import r
阅读全文
10/9
摘要:今日考题 1.聊聊你都了解哪些关于scrapy框架的知识 相当于是别人提前写好了个大概的爬虫程序 里面的spiders文件存放爬虫项目文件 settings.py 则是配置文件 items.py 存放数据存储相关文件 middlewares.py 存放中间件文件 中间件即操作流程中穿插着的小步骤 p
阅读全文
10/8
摘要:复习巩固 1.列举你所接触到的网站采取的防爬措施及解决方案(通用与自定义) 浏览器请求 增加请求头中浏览器信息 ip代理池 多找几个ip随机取用 cookie代理池 多注册几个cookie随机取用 图片防盗链 在请求头中加入referer伪装成所允许的网站发出请求 动态加载 向实现动态加载的网站发送
阅读全文
案例回顾
摘要:案例复习 豆瓣 import requests import re import time from bs4 import BeautifulSoup from openpyxl import Workbook wb = Workbook() # 打开表格 wb1 = wb.create_sheet
阅读全文
宇宙超级无敌烂货新整之网络爬爬爬
摘要:网络爬虫专题小课堂 第一篇爬虫理论基础 第二篇html各类标签以及正则 第三篇网络请求和requests模块 第四篇cookie和requests补充 第五篇数据加载方式和网页爬取思路 第六篇解析库bs4和红牛公司案例 一到六内容回顾 第七篇优美图库和犁视频 第七篇补充梨视频胎教级思路讲解 第八篇o
阅读全文
9/30
摘要:今日考题 1.阐述selenuim你所知道的操作 from selenium import webdriver bro = webdriver.Chrome() # 指定浏览器驱动 bro.get("https://www.") # 访问网页 tag = bro.find_element_by_id
阅读全文