sklearn.datasets

sklearn.datasets

1.波士顿房价数据

#波士顿房价数据集
from  sklearn.datasets import load_boston
import pandas as pd
boston=load_boston()
boston.data
boston.target
boston.feature_names
df=pd.DataFrame(boston.data,columns=boston.feature_names)

属性:

name 属性信息
CRIM 按城镇划分的CRIM人均犯罪率
ZN ZN占地超过25,000平方英尺的住宅用地比例
INDUS INDUS每个城镇非零售业务英亩的比例
CHAS 查尔斯河虚拟变量(如果束缚河,则为1;否则为0)
NOX 一氧化氮浓度(百万分之几)
RM 每个住宅的平均房间数
AGE 1940年之前建造的自有住房的年龄比例
DIS 与五个波士顿就业中心的加权距离
RAD 径向公路通达性指数
TAX 每10,000美元的税全额财产税税率
PTRATIO 按镇划分的师生比例
B 1000(Bk-0.63)^ 2其中Bk是按城镇划分的黑人比例
LSTAT 人口地位降低百分比
target 自有住房的中位数价值(以1000美元计)

 

2.鸢尾花植物数据集

#鸢尾花数据集
from sklearn.datasets import load_iris
import pandas as pd
iris=load_iris()
iris.data
iris.target
iris.feature_names
df=pd.DataFrame(iris.data,columns=iris.feature_names)
iris.target_names

属性:

name 属性
sepal length (cm) 萼片长度(厘米)
sepal width (cm) 萼片宽度(厘米)
petal length (cm) 花瓣长度(厘米)
petal width (cm) 花瓣宽度(厘米)

3.糖尿病数据集

#糖尿病数据集
from sklearn.datasets import load_diabetes
import pandas as pd
diabetes=load_diabetes()
diabetes.data
diabetes.target
diabetes.feature_names
df=pd.DataFrame(diabetes.data,columns=diabetes.feature_names)

属性:

name 属性
age 年龄(岁)
sex 性别
bmi 体重指数
bp 平均血压
s1  tc,T细胞(一种白细胞)
s2 ldl,低密度脂蛋白
s3 hdl,高密度脂蛋白
s4  tch,甲状腺刺激激素
s5 LTG,拉莫三嗪
s6 glu,血糖水平

4.数字数据集

from sklearn.datasets import load_digits
import pandas as pd
digits=load_digits()

5.加州住房数据集

#加州住房数据集
from sklearn.datasets import fetch_california_housing
import pandas as pd
fetch_california_housing=fetch_california_housing()
df=pd.DataFrame(fetch_california_housing.data,columns=fetch_california_housing.feature_names)

属性:

name 属性
MedInc 中位数收入
HouseAge 房屋平均年龄
AveRooms 平均房间数
AveBedrms 平均卧室数
Population 人口
AveOccup 平均房屋出租率
Latitude 街区纬度
Longitude 房子街区经度
posted on 2020-07-09 11:25  小小喽啰  阅读(477)  评论(0编辑  收藏  举报