IMBD数据集处理
该数据集是GNN使用的测试网络之一。[1]使用了该数据集,它的来源参考文献为[2]。
一、数据格式
- 训练数据和测试数据
- 影评和标签(0表示负面评论,1表示正面评论),影评单词用数字表示,表示为一个数组。
二、准备数据
- 影评有长有短,所以将 用pad_sequences 函数他们标准化为统一长度
三、构建模型
四、隐藏单元
五、损失函数和优化器
- 该问题属于二元分类问题,使用
binary_crossentropy
损失函数
六、创建验证集
七、训练模型
- 用有 512 个样本的小批次训练模型 40 个周期。
八、评估模型
- 模型返回两个值,损失函数和准确率,loss和acc。
九、将结果可视化
- 要防止过拟合。
https://blog.csdn.net/wendaoliutou/article/details/93046369
[1]Xu K, Hu W, Leskovec J, et al. How powerful are graph neural networks?[J]. arXiv preprint arXiv:1810.00826, 2018.
[2]Yanardag P, Vishwanathan S V N. Deep graph kernels[C]//Proceedings of the 21th ACM SIGKDD international conference on knowledge discovery and data mining. 2015: 1365-1374.