week5

4.2会议&cif文件解析转换

4.2会议记录

算法组的需求:

关注的性质是电荷数, 过电荷。这些属性决定催化性能如电催化、加氢反应 。

关注的对象是稀土MOF(RE-MOFs)。

介绍了材料指纹(唯一的向量化表示):

image-20220406123929420

image-20220406123951207

平台组的需求:

切割模块:输入一个cif,输出两个cif ,分别代表配体和次级结构。

北科大团队可以提供规范化的cif文件,解决部分cif无法读取的问题。

拆分qmof

将2GB的qmof_structure_data.json拆分成单独的文件:使用了ase库

qmof_structure_data.json 解析

由20375个mofs组成,每个mofs对应下面一个json文件。该文件的structure对应pymatgen的structure类,读取方式为mof = Structure.from_dict(entry["structure"])

image-20220330151717902

json cif xyz 的关系

输入输出都以ase.atoms为基准。

因此,使用adaptorAseAtomsAdaptor().get_atoms() 将上一步读取的pymatgen的structure类 转换为ase的atoms类

image-20220330152233732

拆分情况概览

得到如下三个文件夹分别存储2W个mofs的三种格式。xyz,json只包含了空间结构信息,cif文件还包含了pbe结果的key(没有值),对称信息,化学式。

image-20220330152433068

属性的对应

GNN使用的属性

qmof 的GCN:只有空间结构 (CIF)+ 元素种类(one hot)

image-20220330153525432

MatDL:只用空间结构(json)+元素种类(one hot,写在代码里)。

image-20220330153628171

ALIGNN:输入的是VASP文件,空间结构+边特征(原子间键距离)+节点属性(根据其原子种类分配9个输入节点特征:电负性、基团数、共价半径、价电子、第一电离能、电子亲和力、块和原子体积)

System
1.0
7.091458561131444 0.0 0.0
0.0 12.284128695721973 0.0
-8.862874621478095 0.0 25.0
Y Br
4 12
direct
0.033346999999999086 0.6240773822144681 0.1871170000000006 
0.033346999999999086 0.9574286177855293 0.1871170000000006 
0.5333479999999966 0.12407738221446811 0.1871170000000006 
0.5333479999999966 0.4574286177855292 0.1871170000000006 
0.2891270840017781 0.46667191911829303 0.2510176333839372 
0.2891270840017781 0.11483508088170911 0.2510176333839372 
0.2613405348547832 0.7907530000000023 0.2510114569972214 
0.7891270840017786 0.9666709191182953 0.2510176333839372 
0.7891270840017786 0.6148350808817092 0.2510176333839372 
0.7613405348547837 0.2907530000000023 0.2510114569972214 
0.30535446514521963 0.2907530000000023 0.1232235430027774 
0.2775679159982247 0.9666709191182953 0.123216366616057 
0.2775679159982247 0.6148350808817092 0.123216366616057 
0.8053554651452168 0.7907530000000023 0.1232235430027774 
0.7775679159982244 0.46667191911829303 0.123216366616057 
0.7775679159982244 0.11483508088170911 0.123216366616057 

之前的工作

core和qmof的cif差异

CoRE和QMOF数据集都有MOF对应的cif文件,但是即使是相同的MOF,文件的也存在不同,如下图所示(以ABAVIJ为例)

  • 属性上:两者存在以下一一对应关系,关键的属性两者都能对上。—— 因为cif 属性之间是无序的。本质上是一个键值对,类似字典。
  • 数值上:具体的数字不太相同,甚至有比较大的差异,可以看到其中_cell_angle_beta差异非常明显。——出现这个问题是因为零点的取法不一样。

image-20210716164808158

xyz转cif 初步分析

image-20210716162637892

ASE库:https://wiki.fysik.dtu.dk/ase/

posted @ 2022-03-30 15:49  SuuTTT  阅读(99)  评论(0编辑  收藏  举报