2020 年 3月 25 日随笔档案 - kog_maw

2020年3月25日

摘要： """ K-近邻算法（KNN）：如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别） K取值问题：取小容易受异常值影响，取太大预测准确率不好性能问题：时间复杂度很高，计算量太大，适用小数据场景，于几千~几万样本 """ from skl 阅读全文

posted @ 2020-03-25 23:52 kog_maw 阅读(169) 评论(0) 推荐(0) 编辑

第五节算法的分类介绍和数据集的划分

摘要： """ 机器学习算法分类：监督学习（有目标值）分类（目标值是离散型数据）：K-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络回归（目标值是连续型数据）：线性回归、岭回归无监督学习（无目标值）：聚类 K-means 机器学习一般会把数据集划分为训练集（3/4）和测试集（1/4），可阅读全文

posted @ 2020-03-25 23:50 kog_maw 阅读(271) 评论(0) 推荐(0) 编辑

第四节数据降维案列

摘要： import pandas as pd from sklearn.decomposition import PCA # 数据地址：https://www.kaggle.com/c/instacart-market-basket-analysis/data # 读取表 prior = pd.read_ 阅读全文

posted @ 2020-03-25 23:48 kog_maw 阅读(150) 评论(0) 推荐(0) 编辑

第三节数据降维

摘要： # 特征选择的原因：部分特征的相关度高，容易消化计算性能，部分特征对预测结果会产生噪声# filter（过滤式）：variancethreshold，即从方差大小考虑# embedded（嵌入式）：正则化、决策树，# wrapper（包裹式）：# 主成分分析：PCA本质是一种分析、简化数据集的技术，阅读全文

posted @ 2020-03-25 15:36 kog_maw 阅读(183) 评论(0) 推荐(0) 编辑

第二节数值型特征进行归一化或标准化处理

摘要：数值型特征处理：通过特定的统计方法将数据转换成算法要求的数据，归一化和标准化 # 归一化的计算公式决定了其对异常值很敏感，一旦出现异常值会导致鲁棒性较差，所以归一化只适合传统精确小数据场景 from sklearn.preprocessing import MinMaxScaler def mm() 阅读全文

posted @ 2020-03-25 14:46 kog_maw 阅读(602) 评论(0) 推荐(0) 编辑

第一节特征工程和文本特征提取

摘要：机器学习数据：csv文件可用数据集： UCI：收录了360个数据集，覆盖科学、生活、经济等领域，数据量几十万 Kaggle：大数据竞赛平台，80万科学家，数据真实，数据量巨大 scikit-learn：数据量小，方便学习数据结构：特征值（+目标值）特征工程：将原始数据转换为更好地代表预测模型的潜在问阅读全文

posted @ 2020-03-25 13:47 kog_maw 阅读(485) 评论(0) 推荐(0) 编辑

第十六节 pandas数据特征的分析探索

摘要： import pandas as pd pd.options.display.max_rows = 10 # 设置显示行数 df1 = pd.read_csv(r'E:\anacondatest\PythonData\PM25\Beijing_2009_HourlyPM25_created20140 阅读全文

posted @ 2020-03-25 00:50 kog_maw 阅读(191) 评论(0) 推荐(0) 编辑

第十五节 pandas建立时间索引

摘要： import pandas as pd pd.options.display.max_rows = 10 # 设置显示行数 df1 = pd.read_csv(r'E:\anacondatest\PythonData\PM25\Beijing_2009_HourlyPM25_created20140 阅读全文

posted @ 2020-03-25 00:39 kog_maw 阅读(1053) 评论(0) 推荐(0) 编辑

第十四节 pandas缺失值处理

摘要： import pandas as pd pd.options.display.max_rows = 10 # 设置显示行数 df1 = pd.read_csv(r'E:\anacondatest\PythonData\高校信息.csv', encoding='gbk', index_col='学校名阅读全文

posted @ 2020-03-25 00:15 kog_maw 阅读(184) 评论(0) 推荐(0) 编辑

kog_maw

公告