摘要:最简单的例子:原始数据(1000个样本) ↓ ├── 训练验证集(800个样本,80%) │ │ │ ├── 第一步:五折交叉验证找最佳参数 │ │ │ └── 第二步:用最佳参数在整个800个样本上重新训练 │ └── 测试集(200个样本,20%) │ └── 第三步:训练完成后预测一次 1.
阅读全文
随笔分类 - python
python学习
摘要:最简单的例子:原始数据(1000个样本) ↓ ├── 训练验证集(800个样本,80%) │ │ │ ├── 第一步:五折交叉验证找最佳参数 │ │ │ └── 第二步:用最佳参数在整个800个样本上重新训练 │ └── 测试集(200个样本,20%) │ └── 第三步:训练完成后预测一次 1.
阅读全文
摘要:举例: 如下图1所示,已知小明到家时带着一只娃娃,请问他更有可能乘坐了公交还是地铁? 图1 图2 图3 图4 如图2所示,正方形面积为小明回家方式的所有可能(100%),黄色为公交(P(X)=20%),绿色为地铁(P(Y)=80%)。 如图3-4所示,深黄色面积为通过公交并且抓到娃娃的概率(P(W|
阅读全文
摘要:1、机器学习的核心学习范式 (Core Learning Paradigms) 监督学习 (Supervised Learning):模型从带有标签的训练数据中学习映射关系(如输入->输出)。主要用于分类和回归任务。 例子:垃圾邮件识别(输入邮件内容,输出是/不是垃圾邮件)、房价预测。 无监督学习
阅读全文
摘要:ML很重要的一点是避免数据泄露的风险: 1、数据预处理造成数据泄露 在数据标准化(如StandardScaler)的时候,如果直接对所有数据(训练集+验证集/测试集)统一计算均值/方差并标准化,训练过程会隐式利用测试集分布信息,导致模型评估结果被高估,失去真实性。 通用防泄露原则: 🔒 黄金法
阅读全文
摘要:最近使用conda 突然出现了这个问题: Error while loading conda entry point: conda-libmamba-solver (No module named 'libmambapy.bindings') 网上看了很多方法,尝试后都没有解决。 最后,在执行以下命
阅读全文
摘要:scaler = StandardScaler().fit(X_train)X_train_scaled = scaler.transform(X_train)X_val_scaled = scaler.transform(X_val)和scaler = StandardScaler() X_tra
阅读全文
摘要:##Code Description: Statistics of attendance records(基于从打卡机导出的Excel表格,统计每个人每天的打卡时长,以及总打卡时长,将结果放入一个新的Excel表中)##Author: RuichaoMao##Date: 4-16-2024impor
阅读全文
摘要:见 https://blog.csdn.net/weixin_45936544/article/details/137667693?spm=1001.2014.3001.5501
阅读全文
摘要:获取 Scikit-Learn 中监督学习模型的方法: from sklearn.utils import all_estimators # 获取所有 Scikit-Learn 模型的列表 all_models = all_estimators(type_filter='classifier') +
阅读全文
摘要:通过结合方差阈值、特征相关性分析、单因素统计测试、递归特征消除和特征重要性等特征选择方案,在减少特征数量的同时,最大限度地保留对目标变量的关键信息,从而提升模型的效率、可解释性,并防止过度拟合的发生。 一、特征相关性分析 计算各个特征之间的相关性(可用皮尔逊相关系数)。如果有相关系数较高的两个特征,
阅读全文
摘要:一、特征缩放的定义,原因 特征缩放(feature scaling)是在机器学习中常用的数据预处理步骤,是数据预处理步骤中及其容易被忽略的一步。 为什么要特征缩放?考虑一下 kNN 算法,如果我们有两个特征,特征 A 的取值范围在 [1,10],特征 B 的取值范围在 [1, 100000]。那么在
阅读全文
摘要:从机器学习谈起 原文链接 在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前
阅读全文
摘要:交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓
阅读全文
摘要:2024.1.28更新:主要对红色部分进行了更新。以避免当xyz坐标的数值连在一起时,使用split函数会导致index的数量不确定,进而造成后续提取元素超出index。 #python3 for add ACENME#ruichaomao,2022.1.4pro_list = ['ALA','AR
阅读全文
摘要:问题:一个python脚本test.py,内含while True循环。想让这个while True循环永远在后台运行。 如果在终端直接 python test1.py & ,脚本正常运行,但是此时关闭ssh终端,脚本将会推出。 解决: 1、通过 nohup ./proc_source.py > n
阅读全文
摘要:*一些操作: 运行R脚本:source (“Rscript”) 当前目录下的文件:dir() *画图 ########R语言画图 ###RMSD getwd() file <- read.csv("backbone_rmsd.csv",sep='',header = FALSE) options(m
阅读全文
摘要:(1)一个python环境中需要有一个解释器(python2和python3),一个包集合(自带包和第三方包,后者一般通过pip下载)。 (2)常用命令首先激活anaconda才能使用: conda activate *Conda --version #查看版本 *conda create --na
阅读全文
摘要:7、Writelines可以把一个列表挨行写进文件 6、函数startswith,判断开头 5、接收命令行中的参数>>>>argparse模块 参考: https://www.cnblogs.com/yymn/p/8056436.html 4、format格式化 输入: 输出: 3、if __nam
阅读全文
摘要:到目前为止,在我们的程序中,我们都是根据操作数据的函数或语句块来设计程序的。这被称为 面向过程的 编程。还有一种把数据和功能结合起来,用称为对象的东西包裹起来组织程序的方法。这种方法称为 面向对象的 编程理念。在大多数时候你可以使用过程性编程,但是有些时候当你想要编写大型程序或是寻求一个更加合适的解
阅读全文
|