人工智能_5_决策树_随机森林

# 决策树,随机森林
# 决策树结构:if-then
# 信息熵:
#   例:第一届世界杯32支球队 每个队伍冠军概率1/32
#               可得 log32(程序员认为的log一般都默认是以2为底) = -(1/32*log(1/32)+1/32*log(1/32).....)
#           2018 第21届世界杯根据历史数据获胜概率不同   log32  > -(1/4*log(1/4)+1/4*log(1/4).....)
#           几个log的和即为信息熵,   当概率变化时  log的和是小于log(n)的
# 信息熵与不确定性是相联系的
#   H(X)= -(P(X1)log(P(X1))+P(X2)log(P(X2))......)   概率相同时为log(n)
#       信息熵越大表示 几率均等,不确定性大
# 决策树的划分依据:信息增益 (最大值对应的特征即为重要特征)
#   当得知一个特征条件之后,减少的信息熵的大小 (构建决策树时,放在前边)
#   得知x特征的信息,是的类y的信息的不确定性减少的程度
#   Ck表示某个类的样本数,即某类目标值的数量
#       g(D,A) 特征A对数据集D的信息增益g(D,A)
#       H(D) 数据集的信息熵 (根据目标值求) H(D) = -((|C1|/|D|)/log(|C1|/|D|)+(|C2|/|D|)/log(|C2|/|D|)+......)
#       H(D,A) 给定条件下D的信息熵 H(D,A) = -( (|Di|/|D|)*H(Di) )
#           例:特征A为年龄,有青年,中年,老年  H(D,A) 表示为 -( 青年占所有的比例*H(青年)+ 中年,老年 )
#                       H(青年) = 值看青年的数据集    根据目标值  = - ( (目标值1/所有青年数)log(目标值1/所有青年数)+....)
#    即可根据此 生成决策树
# 常用算法 (有的使用基尼系数(不在分析实现方法),有的使用信息增益)
#   ID3 使用信息增益最大的原则
#   C45 信使用息增益比最大的准则
#   CART
#       回归树:平方误差最小
#       分类树 基尼系数(划分更加仔细,可以指定数的深度等等) 最小的准则 在skleran中选择划分的默认原则
# API
#   sklearn.tree.DecisionTreeClassifier(Criterion='gini',max_depth=None,random_state=None)
#   决策树分类器
#   criterion:默认是gini系数,也可选择信息增益的熵entroy
#   max_depth:树的深度大小
#   random_state:随机数种子
#   method:
#   decision_path:返回决策树的路径
# API sklearn.tree.export_graphviz() 导出DOT格式
#   tree.export_grahviz(estimator,out_file="",features_names=[])
#   将dot转换为图片格式
#   sudo apt-get install graphviz
#   dot -Tpng tree.dot -o tree.png
# ==================================
# 案例:泰坦尼克号------>根据游客的信息,判断游客是否存活
# 数据:http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt
#       age 项有空缺
#   "row.names","pclass","survived","name","age","embarked","home.dest","room","ticket","boat","sex"
#   "1","1st",1,"Allen, Miss Elisabeth Walton",29.0000,"Southampton","St Louis, MO","B-5","24160 L221","2","female"
def decision():
    import pandas as pd
    """
    决策树
    :return: 
    """
    # 1,获取数据
    taitan =pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")
    # 2,处理数据,获取特征值与目标值
    x = taitan[['pclass','age','sex']]
    y = taitan['survived']
    # 3,处理缺失值
    x['age'].fillna(x['age'].mean(),inplace=True) # inplace 表示填补
    # 4,分割数据
    from sklearn.model_selection import train_test_split
    x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25)

    # 5,特征处理 (对于类别的)使用one-hot编码(将数据转换为数字的形式:例如性别,使用0,1代替)
    from sklearn.feature_extraction import DictVectorizer
    dict = DictVectorizer(sparse=False)
    # to_dict() 把原来的 数据转换为 [{'sex':"male"},{}]格式
    x_train = dict.fit_transform(x_train.to_dict(orient="records"))

    x_test = dict.transform(x_test.to_dict(orient="records"))
    # 6,决策树处理
    from sklearn.tree import DecisionTreeClassifier
    dec = DecisionTreeClassifier()
    # dec = DecisionTreeClassifier(max_depth=5)
    dec.fit(x_train,y_train)
    print("准确率:",dec.score(x_test,y_test))
    # 导出决策树结构
    from sklearn.tree import export_graphviz
    export_graphviz(dec,out_file="./tree.dot",feature_names=["age","pclass=1st","pclass=2nd","pclass=3rd","女性","男性"])
# 优点
#   简单的理解和解释 树木可视化
#   不需要归一化
# 缺点(太过于详细,有些异常点)
#   创建的树不能很好的适用于测试集:过拟合
# 改进
#   减枝cart算法 (指定叶子属性:例如若到达该叶子的样本数少于5,就不要了)
#   随机森林
# ==========================================================
# 集成学习方法----随机森林
#   集成学习方法:多个分类器或模型组合
#   什么是随机森林:包含多个分类器,最后的结果取众数
#   随机森林的过程,优势(n个样本,m个特征
#       单个树的建立过程:
#           1,随机在n个中抽取一个样本,重复n次 样本可能重复
#           2,随机在m个特征中选出M个特征 M<m
#       建立10个树,样本,特征大多不同   随机又放回的抽样 bootstrap抽样
# API sklearn.ensemble.RandomForestClassifier(n_estimators=10,criterion="gini" 使用基尼系数
# ,max_depth=None,bootstrap=True,random_state=None)
#   n_estimators:数量个数默认是10 一般是120,200,300,500,800,1200
#   max_features="auto" 决策树最大的特征数量,(选取的特征太多,容易过拟合)
#   auto:特征数开方,sprt=auto,log2,None
def random_forest():
    import pandas as pd
    """
   随机森林
    :return: 
    """
    taitan =pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")
    x = taitan[['pclass','age','sex']]
    y = taitan['survived']
    x['age'].fillna(x['age'].mean(),inplace=True)
    from sklearn.model_selection import train_test_split,GridSearchCV
    x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25)
    from sklearn.feature_extraction import DictVectorizer
    dict = DictVectorizer(sparse=False)
    x_train = dict.fit_transform(x_train.to_dict(orient="records"))
    x_test = dict.transform(x_test.to_dict(orient="records"))
    from sklearn.ensemble import RandomForestClassifier
    rf = RandomForestClassifier()
    # 网格搜索与交叉验证
    gc =GridSearchCV(rf,param_grid={"n_estimators":[120,200,300,500,800,1200],"max_depth":[5,8,15,25,30]},cv=2)
    gc.fit(x_train,y_train)
    print("随机森林准确率",gc.score(x_test,y_test))
    print("随机森林选择的参数模型",gc.best_params_)
# 极好的准确率,有效使用在大数据,不需要降维
if __name__ =="__main__":
    #decision()
    random_forest()

 

posted @ 2019-10-07 16:34  下雨天,真好  阅读(336)  评论(0编辑  收藏  举报