摘要: 关于email模块的使用 爬取天气预报并发到指定人的QQ邮箱(使用新浪邮箱) 天气预报: https://tianqi.so.com/weather/ # coding: utf-8 import smtplib from email.mime.text import MIMEText from e 阅读全文
posted @ 2020-03-27 22:23 -零 阅读(664) 评论(0) 推荐(0) 编辑
摘要: DecryptLogin 项目地址: https://github.com/CharlesPikachu/DecryptLogin 项目中文文档: https://httpsgithubcomcharlespikachudecryptlogin.readthedocs.io/zh/latest/ S 阅读全文
posted @ 2020-03-27 21:35 -零 阅读(2212) 评论(0) 推荐(1) 编辑
摘要: 数据预处理常用函数 df.duplicated() :判断各行是重复,False为非重复值。 df.drop_duplicates():删除重复行 df.fillna(0):用实数0填充na df.dropna():按行删除缺失数据,使用参数axis=0;按列删除缺失值,使用参数axis=1,how 阅读全文
posted @ 2020-03-27 16:27 -零 阅读(7480) 评论(0) 推荐(0) 编辑
摘要: 原文链接:最全面的数据预处理介绍 作者:可爱的算法 一、数据可能存在问题 在实际业务处理中,数据通常是脏数据。所谓的脏,指数据可能存在以下几种问题(主要问题): 1. 数据缺失 (Incomplete) 是属性值为空的情况。如 Occupancy = “ ” 2. 数据噪声 (Noisy)是数据值不 阅读全文
posted @ 2020-03-27 16:07 -零 阅读(3700) 评论(0) 推荐(0) 编辑
摘要: 数据分块 csv 格式是一种易储存, 易更改并且用户易读取的格式。 pandas 有read_csv ()方法来上传数据,存储为CSV 格式。当遇到CSV 文件过大,导致内存不足的问题该怎么办呢?试试强大的pandas 工具吧!我们先把整个文件拆分成小块。这里,我们把拆分的小块称为chunk。 一个 阅读全文
posted @ 2020-03-27 14:05 -零 阅读(6331) 评论(0) 推荐(1) 编辑