clllll  

2022年6月6日

摘要: support vector machine SVM 是非常强大、 灵活的有监督学习算法, 可以用于分类和回归。 贝叶斯分类器,对每个类进行了随机分布的假设,用生成的模型估计 新数据点 的标签。是属于 生成分类 方法。 判别分类:不再为每类数据建模,而是用一条分割线 或者 流形体 将各种类型分开。 阅读全文
posted @ 2022-06-06 22:46 llcl 阅读(61) 评论(0) 推荐(0) 编辑

2022年6月5日

摘要: 朴素贝叶斯是解决分类任务的好起点,线性回归是解决回归任务的好起点。 简单线性回归 将数据拟合成一条直线。 y = ax + b , a 是斜率, b是直线截距 原始数据如下: 使用LinearRegression评估器来拟合数据 除了简单的直线拟合,还可以处理多维度的线性回归模型。 基函数回归 使用 阅读全文
posted @ 2022-06-05 19:22 llcl 阅读(79) 评论(0) 推荐(0) 编辑
 
摘要: 朴素贝叶斯模型 朴素贝叶斯模型是一组非常简单快速的分类方法,通常适用于维度非常高的数据集。因为运行速度快,可调参数少。是一个快速粗糙的分类基本方案。 naive Bayes classifiers 贝叶斯分类 朴素贝叶斯分类器建立在贝叶斯分类方法的基础上。数学基础是贝叶斯定理。 一个描述统计量条件概 阅读全文
posted @ 2022-06-05 18:27 llcl 阅读(63) 评论(0) 推荐(0) 编辑
 
摘要: 特征工程常见示例: 分类数据、文本、图像。 还有提高模型复杂度的 衍生特征 和 处理 缺失数据的填充 方法。这个过程被叫做向量化。把任意格式的数据 转换成具有良好特性的向量形式。 分类特征 比如房屋数据: 房价、面积、地点信息。 方案1:把分类特征用映射关系 编码成 整数 。 {'Queen Ann 阅读全文
posted @ 2022-06-05 12:48 llcl 阅读(123) 评论(0) 推荐(0) 编辑

2022年6月4日

摘要: 模型验证 model validation 就是在选择 模型 和 超参数 之后。通过对训练数据进行学习。对比模型对 已知 数据的预测值和实际值 的差异。 错误的模型验证方法。 用同一套数据训练 和 评估 模型。 准确率总是100% 。 模型验证正确方法: 留出集。 从训练模型的数据中留出一部分。用这 阅读全文
posted @ 2022-06-04 21:42 llcl 阅读(249) 评论(0) 推荐(0) 编辑
 
摘要: 机器学习分为俩类: 有监督学习 supervised learning 和 无监督学习 unsupervised learning 有监督学习: 对数据的若干特征与若干标签之间 的关联性 进行建模的过程。 只要模型被确定,就可以应用到新的未知的数据上。 进一步可以分为 分类 classificati 阅读全文
posted @ 2022-06-04 16:55 llcl 阅读(142) 评论(0) 推荐(0) 编辑

2022年6月3日

摘要: 向量化字符串操作 Series 和 Index对象 的str属性。 可以正确的处理缺失值 方法列表 正则表达式。 Method Description match() Call re.match() on each element, returning a boolean. extract() Ca 阅读全文
posted @ 2022-06-03 20:51 llcl 阅读(245) 评论(0) 推荐(0) 编辑
 
摘要: 简单累计功能 Series sum() 返回一个 统计值 DataFrame sum。默认对每列进行统计 设置axis参数,对每一行 进行统计 describe()可以计算每一列的若干常用统计值。 获取seaborn planets数据 github: https://github.com/mwas 阅读全文
posted @ 2022-06-03 17:33 llcl 阅读(362) 评论(0) 推荐(0) 编辑
 
摘要: 将不同的数据源进行合并 , 类似数据库 join merge . 工具函数 concat / append pd.concat() 简易合并 合并高维数据 默认按行合并。 axis=0 ,试试 axis = 1 索引重复 结果中,索引是重复的。 这可能并不是我们想要的结果。 1)捕捉索引重复的错误。 阅读全文
posted @ 2022-06-03 13:47 llcl 阅读(318) 评论(0) 推荐(0) 编辑

2022年5月31日

摘要: 一维数据 和 二维数据 分别使用Series 和 DataFrame 对象存储。 多维数据:数据索引 超过一俩个 键。 Pandas提供了Panel 和 Panel4D对象 解决三维数据和四维数据。 实践中,更直观的形式是通过 层级索引(Hierarchical indexing, 多级索引 = 》 阅读全文
posted @ 2022-05-31 23:38 llcl 阅读(438) 评论(0) 推荐(0) 编辑