06 2024 档案
摘要:拼接与合并 1. 纵向或横向拼接:pd.concat() # 纵向拼接,在函数中放入列表,里面是想拼接的两个df # 如果列名一致,直接对齐;如果列名不一致,则各列都会保留,空值为NaN pd.concat([df1, df2], ignore_index = True) # >>> 此时索引是各自
阅读全文
摘要:数据清理的步骤 # 一、读取数据 导入NumPy和Pandas数据库,用Pandas的read_csv函数读取原始数据集’e_commerce.csv’,使其转换成DataFrame格式,并赋值给变量df。 展示数据集的前5行和后5行。 # 二、评估数据(整洁度、干净度) 创建一个新的变量clean
阅读全文
摘要:创建原始数据 pd.set_option('display.unicode.east_asian_width', True) # 解决数据输出时列名对不齐的问题 # 第一种方法:字典套字典 data = {"001": {"姓名": "小陈", "考试1": 85, "考试2": 95, "考试3"
阅读全文
摘要:zip # 相当于是拉链,将两个列表对应位置的数据拉到一起,变成元组,最后返回一个迭代器。用list将迭代器转换为列表即可看到内容 # 如果列表数据长度不对等,就以短的为主,剩下的不管了 list1 = [1, 2, 3] list2 = ['a', 'b', 'c', 'd'] z = zip(l
阅读全文
摘要:进程和线程 进程就相当于各个部门,线程就相当于各个部门里的干事员们 """ 进程中至少有一条线程,线程和进程的开启非常类似,这里就展示线程 """ from threading import Thread from multiprocessing import Process # 第一种开启的方法就
阅读全文
摘要:防盗链referer: 一种反爬方式。一些网站在响应之前会先溯源,检查请求的网址X,是从哪个链接进入的(即上一级网址是谁),比如:通过网址A >进入网址X,那么上一级就是A。如果发现上一级网址不存在,或者错误,则认为是其他歪门邪道来的,就不给你数据。这个就是防盗链referer。 # 防盗链的信息查
阅读全文
摘要:很多网页要求登录后,才能查看对应的信息,整个流程是: 客户端 服务器 玩家登录 返回cookie 获得cookie后继续访问其他页面 根据cookie查验身份,返回对应内容 session会话,理解为可以连续请求,先提交data换来cookie,然后可以带着cookie继续访问。比如此时想访问一个需
阅读全文
摘要:lxml 库是用来解析XML和HTML网页内容的 Xpath 库则是用来查询数据(XPath表达式是一种在XML文档中查找信息的语言,它同样适用于HTML文档) 注意xpath中索引是从1开始而不是0 简单示例: # 先pip install lxml import requests from lx
阅读全文
摘要:爬虫的步骤可以简单的概括为: 获取网页并拿到HttpResponse对象,一般都是urllib库或者requests库 # 设置要爬取的网页,以及headers伪装浏览器(最基本防反扒手段) url = 'https://example.com' headers = { "User-Agent":"
阅读全文
摘要:SSL证书是 方法一:暴力 verify = False response = requests.get('https://example.com', verify=False) # 强烈建议不要在生产环境中使用 verify=False, # 因为它会使你的请求容易受到中间人攻击(Man-in-t
阅读全文