2022 年 1月随笔档案 - Hider1214

Python学习笔记：给定邮编，判断区域

摘要：一、背景给定一个维表，如下：区域编码范围 N0 1000-1935, 2000-2079, 2085-2107 GF 2250-2263 WG 2500-2507, 2515-2532 NC 2282-2310 BR 3350, 3353-3356 V2 2648, 2715, 2717-27 阅读全文

posted @ 2022-01-28 16:34 Hider1214 阅读(378) 评论(0) 推荐(0)

Python学习笔记：快递运费计算

摘要：一、需求现有一个维表，包含以下字段：国家货物类型重量上限2 重量下限2 运费挂号费 ''' 英国普货类 0 2 61 16 英国普货类 2 20 61 16 英国内置电池 0 2 83 16 英国内置电池 2 20 78 16 德国普货类 0 0.4 63 18 德国普货类 0 阅读全文

posted @ 2022-01-28 10:19 Hider1214 阅读(1156) 评论(0) 推荐(0)

深夜有感

摘要：人到中年上有老下有小无时无刻不在焦虑前几日刚迈入人生三十的大关卡接下来将面对人生更大的挑战也将面临更多的十字路口踏错一步将。。今日焦躁。。无输出。阅读全文

posted @ 2022-01-18 23:33 Hider1214 阅读(62) 评论(0) 推荐(0)

Python学习笔记：sort和sorted实现排序之对比

摘要：总的来说，sort 是应用在列表上的方法，修改原始列表。内建函数 sorted 可对所有可迭代的对象进行排序操作，返回新的对象。 list.sort() 方法效率会比 sorted(iter) 稍微高些。一、sort函数 sort() 函数用于对原列表进行排序，如果指定参数，则依据指定的函数进行阅读全文

posted @ 2022-01-17 23:35 Hider1214 阅读(287) 评论(0) 推荐(0)

爬虫学习笔记：酷狗音乐榜单TOP500

摘要：一、背景酷狗音乐热门榜单-酷狗TOP500（网页版）链接为： # 链接 https://www.kugou.com/yy/rank/home/1-8888.html?from=rank # 网页版并无下一页只能通过自己构造链接实现 # 经发现 2-8888 3-8888 替换即可二、实操 1. 阅读全文

posted @ 2022-01-16 00:38 Hider1214 阅读(897) 评论(0) 推荐(0)

MySQL学习笔记：3道面试题小测

摘要：一、每个部门工资第二高员工 MySQL8.0测试运行。 1.题目有一张公司员工信息表 employee，有4个字段： employee_id varchar -- 员工ID employee_name varchar -- 员工姓名 employee_salary int -- 员工薪酬 depa 阅读全文

posted @ 2022-01-15 16:45 Hider1214 阅读(217) 评论(0) 推荐(0)

Python学习笔记：精确的四舍五入

摘要：一、背景日常工作中，如果对数据精度不敏感，则可以使用 ceil、floor、round 等函数对数据做取整、四舍五入操作即可。 # 取整 import math x = 11.245 math.ceil(x) # 向上 12 math.floor(x) # 向下 11 round(x) # 四舍五阅读全文

posted @ 2022-01-14 09:56 Hider1214 阅读(1331) 评论(0) 推荐(0)

Mysql学习笔记：5.5升级至8.0版本

摘要：一、背景今日重温 SQL 练习题，发现很多必须基于窗口函数来书写，例如：row_number() over(partition by col_001 order by col_002)，然而 MySQL5.5 不支持，只能通过变量 @var 的方式实现，略显麻烦。遂更新之。二、卸载5.0 由于阅读全文

posted @ 2022-01-13 23:17 Hider1214 阅读(1053) 评论(0) 推荐(0)

Python学习笔记：pip使用技巧

摘要：一、介绍 pip 可以对 python 第三方库进行安装、更新、卸载等操作，十分方便。全称为：package installer for python ，也就是 python 包管理工具。 python 各种各样功能的工具库被存放在一个统一的“仓库”里，名叫 PyPi （Python Packag 阅读全文

posted @ 2022-01-12 00:19 Hider1214 阅读(475) 评论(0) 推荐(0)

Hive学习笔记：列转行之collect_list/collect_set/concat_ws

摘要：一、介绍在 Hive 中想实现按某字段分组，对另外字段进行合并，可通过 collect_list 或者 collect_set 实现。它们都是将分组中的某列转为一个数组返回，其中区别在于： collect_list -- 不去重 collect_set -- 去重有点类似于 Python 中的阅读全文

posted @ 2022-01-11 22:49 Hider1214 阅读(2724) 评论(0) 推荐(0)

机器学习笔记：sklearn.model_selection.train_test_split切分训练、测试集

摘要：一、背景接上所叙，在对比训练集、验证集、测试集之后，实战中需要对数据进行划分。通常将原始数据按比例划分为：训练集、测试集。可以利用 sklearn.model_selection.train_test_split 方法实现。二、介绍使用语法为： x_train, x_test, y_tra 阅读全文

posted @ 2022-01-10 16:50 Hider1214 阅读(1292) 评论(0) 推荐(0)

Python学习笔记：6个代码性能坏习惯

摘要：一、背景实现一个数据要求往往有多种不同的方式，殊途同归，但终究速度上仍有一定的差异。二、坏习惯 1.不要导入根目录无论是内置模块，还是第三方模块，使用之前都必须导入。如果我们只是需要其中某几个函数，单独导入即可。 ## 较慢 import math %%timeit math.sqrt(10 阅读全文

posted @ 2022-01-10 11:37 Hider1214 阅读(88) 评论(0) 推荐(0)

机器学习笔记：训练集、验证集和测试集区别

摘要：一、介绍训练集、验证集和测试集在机器学习领域及其常见，后两者容易混用。在有监督（supervise）的机器学习中，数据集常被切分为2-3部分，即：训练集（train set）验证集（validation set）测试集（test set）一个形象的比喻： **训练集：**学生的课本，学生阅读全文

posted @ 2022-01-09 18:41 Hider1214 阅读(5012) 评论(0) 推荐(0)

爬虫学习笔记：打造自己的代理池

摘要：# -*- coding: utf-8 -*- """ Created on Sat Dec 18 00:00:59 2021 @author: Hider """ import requests import parsel import time import pandas as pd heade 阅读全文

posted @ 2022-01-08 23:48 Hider1214 阅读(62) 评论(0) 推荐(0)

Python学习笔记：input接受输入

摘要：一、介绍 Python 中 input() 函数接受一个标准输入数据，返回为字符类型。无论是 int、float、list 等，在输入的时候，都是以字符串存储。使用语法： a = input([prompt]) # 提示信息等待用户输入二、实操 1.接受一个值 a = input('inpu 阅读全文

posted @ 2022-01-07 21:38 Hider1214 阅读(717) 评论(0) 推荐(0)

SQL学习笔记：利用表自连接求共同好友

摘要：一、背景如何求微信的共同好友？二、实操 1.建立测试表 -- 建立测试表 CREATE TABLE wechat_friends ( uid BIGINT, tuid BIGINT ); -- 插入数据 INSERT INTO wechat_friends(uid, tuid) VALUES ( 阅读全文

posted @ 2022-01-06 16:50 Hider1214 阅读(555) 评论(0) 推荐(1)

Python学习笔记：行列转换之pandas.melt函数

摘要：一、介绍数据分析中经常需要进行“行列转化”。 pandas.melt() 函数可以实现将 “宽数据” → “长数据”的一种列转行变换。类似于 Excel 中的透视表（pivot）和逆透视表的操作。可选择地保留设置的标识符变量。 1. 使用语法 pandas.melt(frame, id_var 阅读全文

posted @ 2022-01-05 23:01 Hider1214 阅读(4287) 评论(0) 推荐(0)

Python学习笔记：counts、value_counts统计次数

摘要：一、介绍 Python 中利用 pd.value_counts() 函数对数据频次进行统计。该函数返回一个序列 Series ，包含每个值的数量。使用语法为： Series.value_counts(normalize=False, # 是否显示占比 sort=True, # 是否排序 asce 阅读全文

posted @ 2022-01-04 17:42 Hider1214 阅读(2550) 评论(0) 推荐(0)

Python学习笔记：利用pd.get_dummies实现哑变量编码

摘要：一、理论介绍虚拟变量（dummy variable）也叫哑变量，是一种将多分类变量转换为二分变量的一种形式。如果多分类变量有k个类别，则可以转化为k-1个二分变量。需要有一个参照的类别。在非线性关系的模型中，特别重要。在模型分析时，虚拟变量都是同进同出，要么都在模型中，要么都不在模型中，不阅读全文

posted @ 2022-01-04 14:47 Hider1214 阅读(6148) 评论(0) 推荐(0)

爬虫学习笔记：微信公众号文章图片下载

摘要：一、背景知识最近看微信公众号，发现很多有趣的图片，又不想一一保存，遂产生通过 python 爬虫的方式直接一次性解析保存。在此过程中，使用到re、requests、os、bs4.BeautifulSoup、time、PIL 等多个库，算是综合使用了一下。有所收获。二、整体思路分析网页源代码阅读全文

posted @ 2022-01-03 23:55 Hider1214 阅读(994) 评论(0) 推荐(0)

Python学习笔记：获取图片分辨率

摘要：一、背景源其一个想法，在爬取微信公众号文章图片之后，过滤一些图标类文件。二、实操 1.利用 PIL 包 Image 实现 from PIL import Image filename = r'C:\Users\Hider\Desktop\we\2.gif' img = Image.open(fi 阅读全文

posted @ 2022-01-03 01:23 Hider1214 阅读(1554) 评论(0) 推荐(0)

Python学习笔记：按特定字符排序sort_values

摘要：一、背景利用 pd.sort_values 可以实现对数据框的排序。 DataFrame.sort_values(by, # 排序字段 axis=0, #行列 ascending=True, # 升序、降序 inplace=False, # 是否修改原始数据框 kind='quicksort', 阅读全文

posted @ 2022-01-02 23:27 Hider1214 阅读(2431) 评论(0) 推荐(1)

Python学习笔记：重复索引处理方法

摘要：一、介绍 Pandas 数据框中的索引可以重复，因此切片取数时需注意。二、实操 1.判断索引是否重复 Series 索引重复判断 import pandas as pd import numpy as np # 重复索引是否唯一 s = pd.Series([1,2,3,4,5], index= 阅读全文

posted @ 2022-01-01 17:03 Hider1214 阅读(1922) 评论(0) 推荐(0)

Python学习笔记：pd.dropna删除缺失值

摘要：一、介绍 pd.dropna() 函数主要用于删除缺失数据。 Series 返回一个仅包含非空数据和索引的 Series，默认丢弃含有缺失值的行 DataFrame 可以通过参数更详细的删除行数据使用语法： DataFrame.dropna(axis=0, how='any', thresh=No 阅读全文

posted @ 2022-01-01 11:27 Hider1214 阅读(4972) 评论(0) 推荐(0)

Hider1214

01 2022 档案

公告