01 2022 档案
摘要:一、背景 给定一个维表,如下: 区域 编码范围 N0 1000-1935, 2000-2079, 2085-2107 GF 2250-2263 WG 2500-2507, 2515-2532 NC 2282-2310 BR 3350, 3353-3356 V2 2648, 2715, 2717-27
阅读全文
摘要:一、需求 现有一个维表,包含以下字段: 国家 货物类型 重量上限2 重量下限2 运费 挂号费 ''' 英国 普货类 0 2 61 16 英国 普货类 2 20 61 16 英国 内置电池 0 2 83 16 英国 内置电池 2 20 78 16 德国 普货类 0 0.4 63 18 德国 普货类 0
阅读全文
摘要:人到中年 上有老 下有小 无时无刻不在焦虑 前几日刚迈入人生三十的大关卡 接下来将面对人生更大的挑战 也将面临更多的十字路口 踏错一步 将。。 今日焦躁。。 无输出。
阅读全文
摘要:总的来说,sort 是应用在列表上的方法,修改原始列表。 内建函数 sorted 可对所有可迭代的对象进行排序操作,返回新的对象。 list.sort() 方法效率会比 sorted(iter) 稍微高些。 一、sort函数 sort() 函数用于对原列表进行排序,如果指定参数,则依据指定的函数进行
阅读全文
摘要:一、背景 酷狗音乐热门榜单-酷狗TOP500(网页版)链接为: # 链接 https://www.kugou.com/yy/rank/home/1-8888.html?from=rank # 网页版并无下一页 只能通过自己构造链接实现 # 经发现 2-8888 3-8888 替换即可 二、实操 1.
阅读全文
摘要:一、每个部门工资第二高员工 MySQL8.0测试运行。 1.题目 有一张公司员工信息表 employee,有4个字段: employee_id varchar -- 员工ID employee_name varchar -- 员工姓名 employee_salary int -- 员工薪酬 depa
阅读全文
摘要:一、背景 日常工作中,如果对数据精度不敏感,则可以使用 ceil、floor、round 等函数对数据做取整、四舍五入操作即可。 # 取整 import math x = 11.245 math.ceil(x) # 向上 12 math.floor(x) # 向下 11 round(x) # 四舍五
阅读全文
摘要:一、背景 今日重温 SQL 练习题,发现很多必须基于窗口函数来书写,例如:row_number() over(partition by col_001 order by col_002),然而 MySQL5.5 不支持,只能通过变量 @var 的方式实现,略显麻烦。 遂更新之。 二、卸载5.0 由于
阅读全文
摘要:一、介绍 pip 可以对 python 第三方库进行安装、更新、卸载等操作,十分方便。 全称为:package installer for python ,也就是 python 包管理工具。 python 各种各样功能的工具库被存放在一个统一的“仓库”里,名叫 PyPi (Python Packag
阅读全文
摘要:一、介绍 在 Hive 中想实现按某字段分组,对另外字段进行合并,可通过 collect_list 或者 collect_set 实现。 它们都是将分组中的某列转为一个数组返回,其中区别在于: collect_list -- 不去重 collect_set -- 去重 有点类似于 Python 中的
阅读全文
摘要:一、背景 接上所叙,在对比训练集、验证集、测试集之后,实战中需要对数据进行划分。 通常将原始数据按比例划分为:训练集、测试集。 可以利用 sklearn.model_selection.train_test_split 方法实现。 二、介绍 使用语法为: x_train, x_test, y_tra
阅读全文
摘要:一、背景 实现一个数据要求往往有多种不同的方式,殊途同归,但终究速度上仍有一定的差异。 二、坏习惯 1.不要导入根目录 无论是内置模块,还是第三方模块,使用之前都必须导入。 如果我们只是需要其中某几个函数,单独导入即可。 ## 较慢 import math %%timeit math.sqrt(10
阅读全文
摘要:一、介绍 训练集、验证集和测试集在机器学习领域及其常见,后两者容易混用。 在有监督(supervise)的机器学习中,数据集常被切分为2-3部分,即: 训练集(train set) 验证集(validation set) 测试集(test set) 一个形象的比喻: **训练集:**学生的课本,学生
阅读全文
摘要:# -*- coding: utf-8 -*- """ Created on Sat Dec 18 00:00:59 2021 @author: Hider """ import requests import parsel import time import pandas as pd heade
阅读全文
摘要:一、介绍 Python 中 input() 函数接受一个标准输入数据,返回为字符类型。 无论是 int、float、list 等,在输入的时候,都是以字符串存储。 使用语法: a = input([prompt]) # 提示信息 等待用户输入 二、实操 1.接受一个值 a = input('inpu
阅读全文
摘要:一、背景 如何求微信的共同好友? 二、实操 1.建立测试表 -- 建立测试表 CREATE TABLE wechat_friends ( uid BIGINT, tuid BIGINT ); -- 插入数据 INSERT INTO wechat_friends(uid, tuid) VALUES (
阅读全文
摘要:一、介绍 数据分析中经常需要进行“行列转化”。 pandas.melt() 函数可以实现将 “宽数据” → “长数据”的一种列转行变换。 类似于 Excel 中的透视表(pivot)和逆透视表的操作。 可选择地保留设置的标识符变量。 1. 使用语法 pandas.melt(frame, id_var
阅读全文
摘要:一、介绍 Python 中利用 pd.value_counts() 函数对数据频次进行统计。 该函数返回一个序列 Series ,包含每个值的数量。 使用语法为: Series.value_counts(normalize=False, # 是否显示占比 sort=True, # 是否排序 asce
阅读全文
摘要:一、理论介绍 虚拟变量(dummy variable)也叫哑变量,是一种将多分类变量转换为二分变量的一种形式。 如果多分类变量有k个类别,则可以转化为k-1个二分变量。 需要有一个参照的类别。 在非线性关系的模型中,特别重要。 在模型分析时,虚拟变量都是同进同出,要么都在模型中,要么都不在模型中,不
阅读全文
摘要:一、背景知识 最近看微信公众号,发现很多有趣的图片,又不想一一保存,遂产生通过 python 爬虫的方式直接一次性解析保存。 在此过程中,使用到re、requests、os、bs4.BeautifulSoup、time、PIL 等多个库,算是综合使用了一下。 有所收获。 二、整体思路 分析网页源代码
阅读全文
摘要:一、背景 源其一个想法,在爬取微信公众号文章图片之后,过滤一些图标类文件。 二、实操 1.利用 PIL 包 Image 实现 from PIL import Image filename = r'C:\Users\Hider\Desktop\we\2.gif' img = Image.open(fi
阅读全文
摘要:一、背景 利用 pd.sort_values 可以实现对数据框的排序。 DataFrame.sort_values(by, # 排序字段 axis=0, #行列 ascending=True, # 升序、降序 inplace=False, # 是否修改原始数据框 kind='quicksort',
阅读全文
摘要:一、介绍 Pandas 数据框中的索引可以重复,因此切片取数时需注意。 二、实操 1.判断索引是否重复 Series 索引重复判断 import pandas as pd import numpy as np # 重复索引 是否唯一 s = pd.Series([1,2,3,4,5], index=
阅读全文
摘要:一、介绍 pd.dropna() 函数主要用于删除缺失数据。 Series 返回一个仅包含非空数据和索引的 Series,默认丢弃含有缺失值的行 DataFrame 可以通过参数更详细的删除行数据 使用语法: DataFrame.dropna(axis=0, how='any', thresh=No
阅读全文