7.逻辑回归实践
1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下)
在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不工作。
防止过拟合的方法有:1、增加样本数量
2、正则化:当数据稀疏时,使用L1正则化比L2效果要好
3、特征筛选:剔除不必要的特征
4、检查业务逻辑,判断特征的有效性
正则化参数变得很大,参数W很小,z也会相对变小,此时忽略b的影响,z会相对变小,实际上,z的取值范围很小,这个激活函数,也就是曲线函数tanh会相对呈线性,整个神经网络会计算离线性函数近的值,这个线性函数非常简单,并不是一个极复杂的高度非线性函数,不会发生过拟合。
2.用logiftic回归来进行实践操作,数据不限。
使用cancer.csv进行实践:
import pandas as pd import numpy as np from sklearn.linear_model import LogisticRegression, LogisticRegressionCV from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.preprocessing import StandardScaler from sklearn.metrics import classification_report def logic(): column = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape', 'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class'] # 读取数据 data = pd.read_csv('./cancer.csv', names=column) # 替换数据中的问号 data.replace(to_replace='?', value=np.nan, inplace=True) # 然后删除nan所在的行 data.dropna(how='any', inplace=True) x = data.iloc[:, 1:10] y = data.loc[:, 'Class'] x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=1) sd = StandardScaler() x_train = sd.fit_transform(x_train) x_test = sd.transform(x_test) # lr = LogisticRegression() # params = {'solver': ['lbfgs'], 'penalty': ['l2'], 'C': [0.01, 0.1, 1.0, 10.0, 100.0]} # gv = GridSearchCV(lr, param_grid=params, cv=4) # # gv.fit(x_train, y_train) # y_pred = gv.predict(x_test) # # print(gv.best_score_) # print(gv.best_params_) # # print('训练集score:', gv.score(x_train, y_train)) # print('测试集score:', gv.score(x_test, y_test)) # 以下是通过上边的网格搜索得出的C值 c = [0.01, 0.1, 1.0, 10.0, 100.0] for i in range(5): print('*' * 20, i) lr = LogisticRegression(C=c[i], solver='lbfgs', penalty='l2') lr.fit(x_train, y_train) y_pred = lr.predict(x_test) print('训练集score:', lr.score(x_train, y_train)) print('测试集score:', lr.score(x_test, y_test)) print(classification_report(y_test, y_pred, labels=[2, 4], target_names=['良性', '恶性'])) if __name__ == '__main__': logic()
测试结果: