摘要:
voting简单投票 优点: 速度快 train_for_model = pd.read_csv('train_for_model.csv') testa_for_model = pd.read_csv('testa_for_model.csv') train_for_model.drop(colu 阅读全文
摘要:
建模 使用随机森林加网络搜索调参,调节5个参数:n_estimators max_depth min_samples_split min_samples_leaf max_features 第一种: 单个参数调参 第二种: 5个参数一起调参 想法:想看看哪种方法结果好些 几十w数据这样调参时间相当久 阅读全文
摘要:
import pandas as pd import numpy as np import warnings warnings.filterwarnings('ignore') import matplotlib.pyplot as plt import seaborn as sns train = 阅读全文
摘要:
查看train与test列特征 train 800000条数据,47列; testa 200000条数据,48列。 >>>print(train.shape) >>>print(testa.shape) (800000, 47) (200000, 48) testa数据集存在n2.2, n2.3, 阅读全文
摘要:
赛题数据 赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitl 阅读全文
摘要:
数学基础知识 数据科学需要一定的数学基础,但仅仅做应用的话,如果时间不多,不用学太深,了解基本公式即可,遇到问题再查吧。 下面是常见的一些数学基础概念,建议大家收藏后再仔细阅读,遇到不懂的概念可以直接在这里查~ 高等数学 1.导数定义: 导数和微分的概念 \(f'({{x}_{0}})=\under 阅读全文
摘要:
bert对于多层神经网络还不会搭的我来说太难了,先打个卡,后面慢慢补上 阅读全文
摘要:
# 在上一次中10fold代码不知道怎么写![](https://img2020.cnblogs.com/blog/1358638/202007/1358638-20200731212605021-1488696390.png) , 之后看了论坛大哥代码,有点理解了。 # 10_kfold fucn 阅读全文
摘要:
1. fasttext 参数含义 - input # training file path (required) 训练文件路径(必须)<br> - lr # learning rate [0.1] 学习率 default 0.1<br> - dim # size of word vectors [1 阅读全文
摘要:
import pandas as pd train = pd.read_csv(r'./train_set.csv', sep='\t') test_a = pd.read_csv(r'./test_a.csv', sep='\t') from sklearn.feature_extraction. 阅读全文