02 2022 档案

摘要:1. enumerate enumerate用于在循环过程中获得元素对应的索引,可分别得到索引和元素值。 marks = [5,4,0,33,45,67] for index,mark in enumerate(marks,start=1): print(index,mark) 2. zip zip 阅读全文
posted @ 2022-02-10 15:14 shirly_zhang 阅读(115) 评论(0) 推荐(0) 编辑
摘要:从线性回归(Linear regression)开始学习回归分析,线性回归是最早的也是最基本的模型——把数据拟合成一条直线。数据集使用scikit-learn里的数据集boston,boston数据集很适合用来演示线性回归。boston数据集包含了波士顿地区的房屋价格中位数。还有一些可能会影响房价的 阅读全文
posted @ 2022-02-10 14:48 shirly_zhang 阅读(1252) 评论(0) 推荐(0) 编辑
摘要:一、模型开发 sklearn为所有模型提供了非常相似的接口,这样使得我们可以更加快速的熟悉所有模型的用法。在这之前我们先来看看模型的常用属性和功能 # 拟合模型 model.fit(X_train, y_train) # 模型预测 model.predict(X_test) # 获得这个模型的参数 阅读全文
posted @ 2022-02-09 15:25 shirly_zhang 阅读(951) 评论(0) 推荐(0) 编辑
摘要:数据预处理 1、明确有多少特征,哪些是连续的,哪些是类别的。2、检查有没有缺失值,对确实的特征选择恰当方式进行弥补,使数据完整。3、对连续的数值型特征进行标准化,使得均值为0,方差为1。4、对类别型的特征进行one-hot编码。5、将需要转换成类别型数据的连续型数据进行二值化。6、为防止过拟合或者其 阅读全文
posted @ 2022-02-09 14:20 shirly_zhang 阅读(417) 评论(0) 推荐(0) 编辑
摘要:sklearn中的datasets数据集 ​ sklearn的数据集库datasets提供很多不同的数据集,主要包含以下几大类: 玩具数据集 真实世界中的数据集 样本生成器 样本图片 svmlight或libsvm格式的数据 从http://openml.org下载的数据 从外部加载的数据用的比较多 阅读全文
posted @ 2022-02-08 15:42 shirly_zhang 阅读(1911) 评论(0) 推荐(0) 编辑
摘要:在一些数据分析业务中,数据缺失是我们经常遇见的问题,缺失值会导致数据质量的下降,从而影响模型预测的准确性,这对于机器学习和数据挖掘影响尤为严重。因此妥善的处理缺失值能够使模型预测更为准确和有效。 缺失值处理 构建数据集 import pandas as pd import numpy as np d 阅读全文
posted @ 2022-02-08 11:30 shirly_zhang 阅读(474) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示