摘要: """ K-近邻算法(KNN):如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别) K取值问题:取小容易受异常值影响,取太大预测准确率不好 性能问题:时间复杂度很高,计算量太大,适用小数据场景,于几千~几万样本 """ from skl 阅读全文
posted @ 2020-03-25 23:52 kog_maw 阅读(169) 评论(0) 推荐(0) 编辑
摘要: """ 机器学习算法分类: 监督学习(有目标值) 分类(目标值是离散型数据):K-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络 回归(目标值是连续型数据):线性回归、岭回归 无监督学习(无目标值):聚类 K-means 机器学习一般会把数据集划分为训练集(3/4)和测试集(1/4),可 阅读全文
posted @ 2020-03-25 23:50 kog_maw 阅读(271) 评论(0) 推荐(0) 编辑
摘要: import pandas as pd from sklearn.decomposition import PCA # 数据地址:https://www.kaggle.com/c/instacart-market-basket-analysis/data # 读取表 prior = pd.read_ 阅读全文
posted @ 2020-03-25 23:48 kog_maw 阅读(150) 评论(0) 推荐(0) 编辑
摘要: # 特征选择的原因:部分特征的相关度高,容易消化计算性能,部分特征对预测结果会产生噪声# filter(过滤式):variancethreshold,即从方差大小考虑# embedded(嵌入式):正则化、决策树,# wrapper(包裹式):# 主成分分析:PCA本质是一种分析、简化数据集的技术, 阅读全文
posted @ 2020-03-25 15:36 kog_maw 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 数值型特征处理:通过特定的统计方法将数据转换成算法要求的数据,归一化和标准化 # 归一化的计算公式决定了其对异常值很敏感,一旦出现异常值会导致鲁棒性较差,所以归一化只适合传统精确小数据场景 from sklearn.preprocessing import MinMaxScaler def mm() 阅读全文
posted @ 2020-03-25 14:46 kog_maw 阅读(602) 评论(0) 推荐(0) 编辑
摘要: 机器学习数据:csv文件可用数据集: UCI:收录了360个数据集,覆盖科学、生活、经济等领域,数据量几十万 Kaggle:大数据竞赛平台,80万科学家,数据真实,数据量巨大 scikit-learn:数据量小,方便学习数据结构:特征值(+目标值)特征工程:将原始数据转换为更好地代表预测模型的潜在问 阅读全文
posted @ 2020-03-25 13:47 kog_maw 阅读(485) 评论(0) 推荐(0) 编辑
摘要: import pandas as pd pd.options.display.max_rows = 10 # 设置显示行数 df1 = pd.read_csv(r'E:\anacondatest\PythonData\PM25\Beijing_2009_HourlyPM25_created20140 阅读全文
posted @ 2020-03-25 00:50 kog_maw 阅读(191) 评论(0) 推荐(0) 编辑
摘要: import pandas as pd pd.options.display.max_rows = 10 # 设置显示行数 df1 = pd.read_csv(r'E:\anacondatest\PythonData\PM25\Beijing_2009_HourlyPM25_created20140 阅读全文
posted @ 2020-03-25 00:39 kog_maw 阅读(1053) 评论(0) 推荐(0) 编辑
摘要: import pandas as pd pd.options.display.max_rows = 10 # 设置显示行数 df1 = pd.read_csv(r'E:\anacondatest\PythonData\高校信息.csv', encoding='gbk', index_col='学校名 阅读全文
posted @ 2020-03-25 00:15 kog_maw 阅读(184) 评论(0) 推荐(0) 编辑