sklearn.datasets

1.波士顿房价数据

#波士顿房价数据集
from  sklearn.datasets import load_boston
import pandas as pd
boston=load_boston()
boston.data
boston.target
boston.feature_names
df=pd.DataFrame(boston.data,columns=boston.feature_names)

属性：

name	属性信息
CRIM	按城镇划分的CRIM人均犯罪率
ZN	ZN占地超过25,000平方英尺的住宅用地比例
INDUS	INDUS每个城镇非零售业务英亩的比例
CHAS	查尔斯河虚拟变量（如果束缚河，则为1；否则为0）
NOX	一氧化氮浓度（百万分之几）
RM	每个住宅的平均房间数
AGE	1940年之前建造的自有住房的年龄比例
DIS	与五个波士顿就业中心的加权距离
RAD	径向公路通达性指数
TAX	每10,000美元的税全额财产税税率
PTRATIO	按镇划分的师生比例
B	1000（Bk-0.63）^ 2其中Bk是按城镇划分的黑人比例
LSTAT	人口地位降低百分比
target	自有住房的中位数价值（以1000美元计）

2.鸢尾花植物数据集

#鸢尾花数据集
from sklearn.datasets import load_iris
import pandas as pd
iris=load_iris()
iris.data
iris.target
iris.feature_names
df=pd.DataFrame(iris.data,columns=iris.feature_names)
iris.target_names

属性：

name	属性
sepal length (cm)	萼片长度（厘米）
sepal width (cm)	萼片宽度（厘米）
petal length (cm)	花瓣长度（厘米）
petal width (cm)	花瓣宽度（厘米）

3.糖尿病数据集

#糖尿病数据集
from sklearn.datasets import load_diabetes
import pandas as pd
diabetes=load_diabetes()
diabetes.data
diabetes.target
diabetes.feature_names
df=pd.DataFrame(diabetes.data,columns=diabetes.feature_names)

属性：

name	属性
age	年龄（岁）
sex	性别
bmi	体重指数
bp	平均血压
s1	tc，T细胞（一种白细胞）
s2	ldl，低密度脂蛋白
s3	hdl，高密度脂蛋白
s4	tch，甲状腺刺激激素
s5	LTG，拉莫三嗪
s6	glu，血糖水平

4.数字数据集

from sklearn.datasets import load_digits
import pandas as pd
digits=load_digits()

5.加州住房数据集

#加州住房数据集
from sklearn.datasets import fetch_california_housing
import pandas as pd
fetch_california_housing=fetch_california_housing()
df=pd.DataFrame(fetch_california_housing.data,columns=fetch_california_housing.feature_names)

属性：

name	属性
MedInc	中位数收入
HouseAge	房屋平均年龄
AveRooms	平均房间数
AveBedrms	平均卧室数
Population	人口
AveOccup	平均房屋出租率
Latitude	街区纬度
Longitude	房子街区经度

posted on 2020-07-09 11:25 小小喽啰阅读(579) 评论(0) 收藏举报