2024 年 6月随笔档案 - abloger

数据分析 | 整合数据

摘要：拼接与合并 1. 纵向或横向拼接：pd.concat() # 纵向拼接，在函数中放入列表，里面是想拼接的两个df # 如果列名一致，直接对齐；如果列名不一致，则各列都会保留，空值为NaN pd.concat([df1, df2], ignore_index = True) # >>> 此时索引是各自阅读全文

posted @ 2024-06-29 15:34 abloger 阅读(31) 评论(0) 推荐(0) 编辑

数据分析 | 数据清理的方法

摘要：数据清理的步骤 # 一、读取数据导入NumPy和Pandas数据库，用Pandas的read_csv函数读取原始数据集’e_commerce.csv’，使其转换成DataFrame格式，并赋值给变量df。展示数据集的前5行和后5行。 # 二、评估数据（整洁度、干净度）创建一个新的变量clean 阅读全文

posted @ 2024-06-27 20:37 abloger 阅读(81) 评论(0) 推荐(0) 编辑

数据分析 | DataFrame的增删改查

摘要：创建原始数据 pd.set_option('display.unicode.east_asian_width', True) # 解决数据输出时列名对不齐的问题 # 第一种方法：字典套字典 data = {"001": {"姓名": "小陈", "考试1": 85, "考试2": 95, "考试3" 阅读全文

posted @ 2024-06-26 11:27 abloger 阅读(9) 评论(0) 推荐(0) 编辑

关于zip、map、filter和lambda函数

摘要：zip # 相当于是拉链，将两个列表对应位置的数据拉到一起，变成元组，最后返回一个迭代器。用list将迭代器转换为列表即可看到内容 # 如果列表数据长度不对等，就以短的为主，剩下的不管了 list1 = [1, 2, 3] list2 = ['a', 'b', 'c', 'd'] z = zip（l 阅读全文

posted @ 2024-06-20 16:31 abloger 阅读(5) 评论(0) 推荐(0) 编辑

爬虫 | 多线程、多进程、协程

摘要：进程和线程进程就相当于各个部门，线程就相当于各个部门里的干事员们 """ 进程中至少有一条线程，线程和进程的开启非常类似，这里就展示线程 """ from threading import Thread from multiprocessing import Process # 第一种开启的方法就阅读全文

posted @ 2024-06-13 16:44 abloger 阅读(13) 评论(0) 推荐(0) 编辑

爬虫 | 防盗链和代理

摘要：防盗链referer：一种反爬方式。一些网站在响应之前会先溯源，检查请求的网址X，是从哪个链接进入的（即上一级网址是谁），比如：通过网址A >进入网址X，那么上一级就是A。如果发现上一级网址不存在，或者错误，则认为是其他歪门邪道来的，就不给你数据。这个就是防盗链referer。 # 防盗链的信息查阅读全文

posted @ 2024-06-12 13:11 abloger 阅读(33) 评论(0) 推荐(0) 编辑

爬虫 | 处理cookie的基本方法——session

摘要：很多网页要求登录后，才能查看对应的信息，整个流程是：客户端服务器玩家登录返回cookie 获得cookie后继续访问其他页面根据cookie查验身份，返回对应内容 session会话，理解为可以连续请求，先提交data换来cookie，然后可以带着cookie继续访问。比如此时想访问一个需阅读全文

posted @ 2024-06-12 10:48 abloger 阅读(19) 评论(0) 推荐(0) 编辑

爬虫 | xpath + lxml 库解析爬取网页

摘要：lxml 库是用来解析XML和HTML网页内容的 Xpath 库则是用来查询数据（XPath表达式是一种在XML文档中查找信息的语言，它同样适用于HTML文档）注意xpath中索引是从1开始而不是0 简单示例： # 先pip install lxml import requests from lx 阅读全文

posted @ 2024-06-11 17:04 abloger 阅读(48) 评论(0) 推荐(0) 编辑

爬虫 | 基本步骤和解析网页的几种方法

摘要：爬虫的步骤可以简单的概括为：获取网页并拿到HttpResponse对象，一般都是urllib库或者requests库 # 设置要爬取的网页，以及headers伪装浏览器（最基本防反扒手段） url = 'https://example.com' headers = { "User-Agent":" 阅读全文

posted @ 2024-06-05 18:31 abloger 阅读(156) 评论(0) 推荐(0) 编辑

爬虫 | 关于SSL证书的处理（requests库）

摘要：SSL证书是方法一：暴力 verify = False response = requests.get('https://example.com', verify=False) # 强烈建议不要在生产环境中使用 verify=False， # 因为它会使你的请求容易受到中间人攻击（Man-in-t 阅读全文

posted @ 2024-06-05 17:56 abloger 阅读(927) 评论(0) 推荐(0) 编辑

abloger

06 2024 档案

公告

搜索

常用链接

合集

随笔档案

阅读排行榜