【新人赛】阿里云恶意程序检测 -- 实践记录11.3 - n-gram模型调参

主要工作

本周主要是跑了下n-gram模型，并调了下参数。大概看了几篇论文，有几个处理方法不错，准备下周代码实现一下。

xgboost参数设置为：

param = {'max_depth': 6, 'eta': 0.1, 'eval_metric': 'mlogloss', 'silent': 1, 'objective': 'multi:softprob',
'num_class': 8, 'subsample': 0.5, 'colsample_bytree': 0.85}

n-gram模型，CountVectorizer

为了训练速度考虑，采用两折校验，对ngram_range参数，start=end，即只用某元：

ngram	train-mean	val-mean
1	0.113553	0.376238
2	0.086720	0.331593
3	0.085156	0.338862
4	0.102556	0.347408
5	0.090270	0.366249

import matplotlib.pyplot as plt
import numpy as np

train_mean = [0.113553, 0.086720, 0.085156, 0.102556, 0.090270]
val_mean = [0.376238, 0.331593, 0.338862, 0.347408, 0.366249]

# 绘制对比柱状图
plt.bar(x=range(1, 6), height=train_mean, label="train mean", alpha=0.8, width=bar_width)
plt.legend()
plt.xlabel("ngram_range(start=end)")
plt.ylabel("mean")
plt.title('result')
plt.show()

plt.bar(x=np.arange(1, 6), height=val_mean, label="val mean", alpha=0.8, width=bar_width)
plt.legend()
plt.xlabel("ngram_range(start=end)")
plt.ylabel("mean")
plt.title('result')
plt.show()

绘图可得：