77 lines
35 KiB
JSON
77 lines
35 KiB
JSON
[
|
||
{
|
||
"id": 1,
|
||
"chunk": "# 自然 机器智能",
|
||
"category": " Introduction"
|
||
},
|
||
{
|
||
"id": 2,
|
||
"chunk": "# 大规模化学语言表征捕捉分子结构和特性 \n\n收到:2022 年 4 月 18 日 \n\n接受:接受: 2022 年 11 月 3 日 \n\nJerret Ross , Brian Belgodere, Vijil Chenthamarakshan , Inkit Padhi, Youssef Mroueh & Payel \n\n在线出版:2022 年 12 月 21 日",
|
||
"category": " References"
|
||
},
|
||
{
|
||
"id": 3,
|
||
"chunk": "# 检查更新 \n\n基于机器学习的模型可以准确、快速地预测分子性质,这在药物发现和材料设计方面具有重要意义。各种有监督的机器学习模型都表现出了良好的性能,但广阔的化学空间和有限的性质标签使得有监督的学习具有挑战性。最近,基于无监督变换器的语言模型在大量无标签语料库上进行了预训练,在许多下游自然语言处理任务中取得了一流的成果。受这一发展的启发,我们提出了通过训练高效的变换器编码器模型 MoLFormer 获得的分子嵌入。 \n\n位置嵌入。该模型采用线性注意机制,并结合高度分布式训练,对来自PubChem 和 ZINC 数据集的 11 亿个无标签分子的 SMILES 序列进行了训练。我们的研究表明,在来自十个基准数据集的多个下游任务上,学习到的分子表示优于现有的基准,包括监督和自我监督图神经网络和语言模型。它们在另外两个数据集上的表现也很有竞争力。进一步的分析,特别是通过注意力的视角,表明 MoLFormer \n\n在化学 SMILES 基础上进行的训练确实可以学习分子内原子之间的空间关系。这些结果提供了令人鼓舞的证据,证明大规模分子语言模型可以捕捉到足够的化学和结构信息来预测各种不同的分子特性,包括量子化学特性。 \n\n机器学习(ML)已成为预测分子性质的一种极具吸引力的高效计算方法,对药物发现和材料工程具有重要意义。分子的 ML 模型可以直接根据预定义的化学描述符(如无监督分子指纹(1))或几何特征(如库仑矩阵(2))的手工衍生衍生物进行训练。然而,最近的 ML 模型侧重于从编码连接性的自然图谱中自动学习特征。 \n\n或分子结构的行注释,如流行的 SMILES3(简化分子输入行输入系统)表示法。SMILES 通过对分子图进行深度优先的前序生成树遍历,为每个原子、键、树遍历判定和断裂循环生成符号,从而定义了分子的字符串表示法。因此,生成的字符串对应于分子图生成树的扁平化。在 SMILES 上学习已被广泛用于 \n\n \n图 1| MoLFormer 管道概览。基于变压器神经网络的模型是以自我监督的方式,在与来自 PubChem 和 ZINC(两个公共化学数据库)的大量化学分子对应的 SMILES 序列上进行训练的。MoLFormer 的设计采用了高效的线性注意机制和相对位置嵌入,目的是学习有意义的、压缩的化学表达式。 \n\n分子特性预测4-7,因为 SMILES 通常比包括图形在内的其他结构表示方法更为简洁。此外,SMILES 字符串还明确表示了有意义的子结构,如分支、环状结构和手性信息,而图形表示法则没有这些信息。 \n\n然而,SMILES 语法既复杂又有限制性;适当字符集上的大多数序列 \n\n都不属于定义明确的分子。目前存在其他基于字符串的表示法,如SMARTS8 和 SELFIES9。比较这些替代表示法与 SMILES 的优势是一个活跃的研究领域。例如,参考文献10 着重研究了学习表示空间上分子优化任 \n务,结果表明就优化能力和采样效率而言,SMILES 与 SELFIES 相比没有明显的不足,尤其是当语言模型更先进时。不过,人们认为基于字符串的表征不具有拓扑意识,而基于图形的表征具有拓扑意识。由于这些限制,深度化学语言模型可能会侧重于学习分子字符串的语法,而不是分子 \n图的隐含拓扑结构。因此,虽然基于字符串的深度神经网络已被用于预测分子性质5(-)(7)(,)(11),但它们的性能通常比图神经网络(GNN)12及其变体13(-)(21)要好。图神经网络框架一般可被视为 \"信息传递\",其中包括本地邻域信息聚合,以及根据图的连接结构在不同粒度级别(例如节点、边或整 \n个图)上进行信息更新。用于分子特性预测的 GNN 和语言模型的监督训练面临的一个挑战是标记数据的稀缺。分子的标签注释通常成本高昂, \n而需要注释的可信化学物质的空间大得惊人( $10^{60}$ 到 $10^{(100)}$ )(22),这使得问题更加复杂。在这种情况下,就需要进行分子表征学习,以便在无监 \n督/自我监督的下将其推广到各种性质预测任务中。基于转换器的大型基 \n础模型2324最近取得了成功,该模型采用了学习与任务无关的语言表征的方法,通过在大型无标签语料库上进行预训练获得,随后利用该表征对感兴趣的下游任务进行微调。 \n\n到其他领域。 \n\n用于预测分子性质的预训练语言模型(25)和 GNNs(26)最近才开始出现。然而,在由数 $+$ 亿分子组成的大型语料库上训练的预训练语言模型在多大程度上能够在各种下游任务中捕捉到分子-属性关系仍有待探索。 \n\n分子。然后,通过对特定任务的数据进行微调,使这一基础模型适用于不同的下游分子特性预测任务。通过使用 MoLFormer 编码恢复分子相似性,以及分析给定的原子间空间距离和注意力值之间的对应关系,进一步测试了该模型的代表性。 \n\n朝着这个方向,我们在此提出了分子 SMILES 转换器模型,称为MoLFormer(分子语言转换器)。我们将性能最好的 MoLFormer 变体命名为 MoLFormer-XL。MoLFormer-XL 是在一个包含 11 亿个分子的大型语料库(图 1)中使用高效的线性注意机制训练出来的。结果表明,在预测包括量子力学性质在内的各种分子时,经过预训练的分子 SMILES 变换器编码器与现有的有监督或无监督语言模型和 GNN 基线相比具有很强的竞争力0 \n\n我们的主要贡献如下 \n\n• 我们利用相对有限的硬件资源(最多 16 个 V100 图形处理器(GPU))在超过十亿个分子上训练了大规模高效分子语言模型转换器MoLFormer)。我们的可扩展性和速度提升归功于高效的线性时间关注、批次的自适应分级以及 PyTorch Lightning 和 NCCL 提供的开源并行化。利用分批和线性注意的组合,我们能够实现每个 GPU1,600 个分子的批次规模。使用 16 个 GPU,我们需要 208 小时才能完成 MoLFormer-XL 的四次预训练。要在相同的时间内完成训练,如果不使用分级和线性注意,每个 GPU 只能处理不到 50 个分子,需要超过 1000 个 GPU 才能完成任务。 \n\n• 我们探讨了绝对位置嵌入和相对位置嵌入在表示分子 SMILES 时的区别。我们还为最近提出的相对位置 RoFormer27 提供了一种新的、高效和准确的线性注意近似方法。 \n• 我们对来自 MoleculeNet28 的十个基准数据集的若干分类和回归任务进行了广泛的实验和消融研究,这些数据集涵盖了小分子化学物质的量子力学、物理、生物物理和生理特性预测。 \n• 我们的研究结果提供了令人鼓舞的证据,证明 MoLFormer 表示法能够准确捕捉足够的化学和结构信息,从而预测各种化学特性。此外,MoLFormer 的性能优于从精确的图拓扑信息和其他信息(例如键距)中学习的最先进的 GNN,或者与之相当。 \n• 我们进一步分析表明,MoLFormer 可以仅从 SMILES 注释中捕捉分子内的子结构以及原子间的空间距离。 \n\n \n图 2| 绝对嵌入和旋转嵌入的训练损失和验证损失比较。a,b, 使用旋转(相对)和绝对位置嵌入的线性注意力 MoLFormer 的训练损失(a)和验证损失(b)。 \n\n \n步骤 \n\n在 PubChem 上。我们发现,旋转式和绝对式 MoLFormer 都有优美的训练曲线。与使用绝对位置嵌入的 MoLFormer 相比,我们的旋转线性注意力MoLFormer 的训练和验证损失更低。 \n\n本研究探讨了预先训练好的化学语言模型在预测从量子化学到生理学的广泛下游分子特性方面的表征能力。特别是,仅从 SMILES 字符串预测量子化学性质并非易事,因为这些性质在很大程度上取决于精确的三维(3D)分子几何信息,而这些信息被视为特权信息,一般无法获得。",
|
||
"category": " Results and discussion"
|
||
},
|
||
{
|
||
"id": 4,
|
||
"chunk": "# 结果和讨论",
|
||
"category": " Results and discussion"
|
||
},
|
||
{
|
||
"id": 5,
|
||
"chunk": "# MoLFormer 框架 \n\n如图 1 所示,MoLFormer 的目标是从大规模化学 SMILES 数据中学习通用分子表征,然后在各种下游分子性质预测任务中评估该表征。,MoLFormer 模型使用屏蔽语言模型框架29,30 开发,该框架在训练过程中随机屏蔽 SMILES 序列中一定比例的标记,然后预测这些标记。因此,屏蔽语言模型利用了自我监督,实现了上下文学习。为了实现更好的语境学习和更快的训练,我们使用了旋转位置嵌入(27)而不是绝对位置嵌入,同时还使用了线性注意(31)(关于模型结构和训练的更多细节,请参见方法和补充信息)。如图 2 所示,与绝对嵌入相比,使用旋转嵌入进行预训练时,我们发现训练损失行为的稳定性更高,收敛速度更快。为了证明预训练 MoLFormer 作为通用的、与任务无关的分子表示法的有效性,我们在来自 MoleculeNet28 的大量具有挑战性的分类和回归任务中对其适应性能进行了基准测试。有关基准数据集的详细信息,请参见补充章节 C。",
|
||
"category": " Results and discussion"
|
||
},
|
||
{
|
||
"id": 6,
|
||
"chunk": "# MoLFormer 嵌入的推导 \n\n我们通过从编码器模型中提取最后一个隐藏状态的所有嵌入值的平均值,对化学 SMILES 进行编码。由此产生的嵌入值将用于所有下游任务。下游任务本身可分为两类,第一类称为冻结任务,第二类称为微调任务。冻结设置的定义是为每个任务训练一个完全连接的模型,同时保持编码器嵌入固定不变。第二类是微调,包括针对每个下游任务联合微调编码器模型和全连接模型的权重。冻结策略的理想配置和超参数是通过网格搜索发现的,如补充表 1 所述。对于微调后的 \n\n在策略上,我们使用了一个两层全连接网络,其隐藏维度为 768(与编码器嵌入相匹配),中间有滤除(设置为 0.1)和高斯误差线性单元层,最后还有一个用于回归任务的单一输出维度。 \n\nMoLFormer嵌入式在下游任务中的性能 我们评估了MoLFormer嵌入式的性能,并在MoleculeNet基准28的六项分类任务和五项回归任务中将其与现有基线进行了比较,讨论如下。我们将在由 ${\\approx}11$ 亿个分子(来自 PubChem和 ZINC 的所有分子)组成的整个训练集上经过预训练的 MoLFormer 称为MoLFormer-XL。除非另有说明,MoLFormer-XL 使用旋转位置嵌入进行线性注意训练,报告的性能是模型在下游任务中微调后的性能(详见方法)。为了预测下游任务中的各种适当关系,我们按照上一节所述对模型进行了微调。我们使用 MoleculeNet 基准为所有任务定义的训练、验证和测试数据(补充章节 C)。 \n\n分类任务。我们从 Mol- eculeNet 基准中选择了六项分类任务与 MoLFormer-XL 进行比较,共有九条基准线,其中四条是监督基准线,五条是自我监督基准线。监督基线包括根据分子指纹训练的浅层 ML 模型(表 1 中的 RF 和 SVM)和图神经网络。在预训练/自我监督基线中,Hu 等人32 在分子图上预训练了一个图同构网络(GNN,在聚合中使用多层感知器和节点特征加权和),其中包括参与聚合的边缘特征。N-gram graph33使用了一种简单的无监督分子表示法,首先将节点嵌入图中,然后通过将顶点嵌入集合到图中的短路径来构建图的紧凑。MolCLR26是一种基于图同构网络的自监督学习框架,它使用对比损失34,35。GraphMVP-C 是参考文献 36 中提出的图形多视图预训练框架。36 中提出的图形多视图预训练框架,利用二维拓扑结构和三维几何视图之间的对应性和一致性进行自监督学习。我们还考虑了其他三个几何感知GNN 基线,一个是监督式(DimeNet37),两个是自监督式(GeomGCL36 和GEM38)。ChemBERTa25 是在一个较小的化学数据集上训练的预训练分子语言模型。表 1 记录了 MoLFormer 与这些基线在六个分类基准上的性能比较,使用的是 MoleculeNet \n\n表 1| 微调后的 MOLFORMER 与现有的监督和预训练/自我监督基线在多个分类基准上的比较 \n\n\n<html><body><table><tr><td></td><td>BBBP 1</td><td>Tox21 12</td><td>临床毒理学2艾滋病毒</td><td>1</td><td>BACE1</td><td>SIDER 27</td></tr><tr><td>射频</td><td>71.4</td><td>76.9</td><td>71.3</td><td>78.1</td><td>86.7</td><td>68.4</td></tr><tr><td> SVM</td><td>72.9</td><td>81.8</td><td>66.9</td><td>79.2</td><td>86.2</td><td>68.2</td></tr><tr><td>MGCN56</td><td>85.0</td><td>70.7</td><td>63.4</td><td>73.8</td><td>73.4</td><td>55.2</td></tr><tr><td>D-MPNN57</td><td>71.2</td><td>68.9</td><td>90.5</td><td>75.0</td><td>85.3</td><td>63.2</td></tr><tr><td>DimeNet37</td><td>-</td><td>78.0</td><td>76.0</td><td></td><td></td><td>61.5</td></tr><tr><td>Hu (32)</td><td>70.8</td><td>78.7</td><td>78.9</td><td>80.2</td><td>85.9</td><td>65.2</td></tr><tr><td>N-gram33</td><td>91.2</td><td>76.9</td><td>85.5</td><td>83.0</td><td>87.6</td><td>63.2</td></tr><tr><td>MolCLR26</td><td>73.6</td><td>79.8</td><td>93.2</td><td>80.6</td><td>89.0</td><td>68.0</td></tr><tr><td>GraphMVP-C36</td><td>72.4</td><td>74.4</td><td>77.5</td><td>77.0</td><td>81.2</td><td>63.9</td></tr><tr><td>GeomGCL36</td><td>-</td><td>85.0</td><td>91.9</td><td></td><td>-</td><td>64.8</td></tr><tr><td>创业板38</td><td>72.4</td><td>78.1</td><td>90.1</td><td>80.6</td><td>85.6</td><td>67.2</td></tr><tr><td>化学ERTa25</td><td>64.3 93.7</td><td>84.7</td><td>90.6</td><td>62.2</td><td>-</td><td></td></tr></table></body></html>\n\n粗体表示表现最好的模型。所有模型都是通过支架分割的接收者操作特征曲线下面积进行评估的。基线性能采用文献 25、26、36 中的数据。25、26、36,\"-\"表示没有报告相应任务的数值。 \n\n脚手架数据分割。在六项基准测试中,MoLFormer-XL 在三项(BBBP、ClinTox 和 SIDER)测试中的表现优于所有基准,在另外三项( $\\bar{\\mathsf{T o x}}21$ 、HIV 和 BACE)测试中紧随其后。 \n\n回归任务。接下来,我们在 MoleculeNet 中难度更大的回归任务上对MoLFormer-XL 进行了评估。我们在表 2 中报告了我们在 QM9、QM8、ESOL、FreeSolv 和 Lipophilicity 这五个回归基准上的表现(另见补充章节 D 和E)。其中,QM9 和 QM8 涉及多个量子化学指标的预测,这在无法获取特定三维几何信息的情况下具有挑战性。在这些任务中,我们再次使用了参考文献 28 中建议的训练、验证和测试拆分方法。我们考虑的基线是分子图卷积网络(GC,一种在线性变换前利用节点及其邻域的均值池的GNN)39、殷勤 FP(A-FP)模型40 和一种学习边缘特征(如成对原子间距离)的 MPNN 变体18。结果表明,MoLFormer-XL 经过特定任务的微调后,在所有五项任务中表现都优于现有的有监督 GNN 基线,特别是 GC、A-FP 和 MPNN(针对 QM8 和 QM9 采用键距增强)。补充表 7 进一步显示,在三个物理属性回归基准上,MoLFormer 的表现优于几何感知 GNN(DimeNet、GeomGCL 和 GEM)。这些结果,再加上 MoLFormer-XL 在分类基准上的表现,证实了它的通用性。 \n\n进一步了解 QM9。补充表 9 进一步比较了 MoLFormer-XL 在 QM9 原子化能量和焓(根据参考原子修正的内能/焓,以电子伏特为单位)预测任务上的表现,以及 SchNet41 和 Dimenet37 这两个超视觉 3D GNN 的表现。仅在SMILES 上训练的 MoLFormer-XL 在所有四项任务中的表现都优于这两个模型。然而,SchNet 和 DimeNet 直接对三维进行编码,并采用专门的架构对量子进行建模,但它们仅分别以大约 8 倍和大约 10 倍的优势胜过 MoLFormer-XL。这一结果以及表 1 和表 2 再次证明了从 SMILES 等现成信息中学习通用分子表示法的能力、 \n\n表 2 微调后的 MOLFORMER 和其他有监督 GNN 基线在 QM9、QM8、ESOL、FreeSolv 和亲脂性回归基准上的表现 \n\n\n<html><body><table><tr><td></td><td>QM9</td><td>QM8</td><td>ESOL</td><td colspan=\"2\">FreeSolv亲脂性</td></tr><tr><td>GC</td><td>4.3536</td><td>0.0148</td><td>0.970</td><td>1.40</td><td>0.655</td></tr><tr><td>A-FP</td><td>2.6355</td><td>0.0282</td><td>0.5030</td><td>0.736</td><td>0.578</td></tr><tr><td>MPNN</td><td>3.1898</td><td>0.0143</td><td>0.58</td><td>1.150</td><td>0.7190</td></tr><tr><td>M LF</td><td>-XL 1.5894</td><td>0.0102</td><td>0.2787</td><td>0.2308</td><td>0.5289</td></tr></table></body></html>\n\n对于 QM9 和 QM8,我们报告的是平均 MAE,其余任务报告的是均方根误差。基准性能来自参考文献。28,40.粗体表示表现最好的模型。 \n\n同时证实了特权几何信息在量子化学能量预测中的关键作用。此外,这次比较的结果为未来的研究打开了大门,其目标是估计 MoLFormer 中几何意识的出现(见后面的章节),或如何通过添加部分或完整的三维几何信息来进一步增强仅有 SMILES 的 MoLFormer 的表现力。 \n\n烧蚀研究。在本节中,我们将讨论 MoLFormer-XL 的几种不同消融情况,以深入了解其令人印象深刻的性能。我们进行的消融大致可分为以下三类:(1)预训练数据和模型深度的大小和性质的影响,(2) 对下游数据和模型进行微调(冻结)和微调(微调)后的结果。 \n(3) 绝对位置嵌入和旋转位置嵌入的影响。 \n\n数据/ 模型大小。首先,我们研究了预训练数据集的大小如何影响MoLFormer-XL 在 MoleculeNet 基准的几个下游任务上的性能。为此,我们选择了 PubChem 和 ZINC 数据集的三种不同加权组合,特别是由 $10\\%$ 的 ZINC 和 $10\\%$ 的 PubChem 组成的数据集、由 $100\\%$ 的 PubChem 和 $10\\%$ 的 ZINC 组成的数据集,以及由 $100\\%$ 的 ZINC 分子和 $0\\%$ 的 PubChem 组成的数据集。我们还通过在完整的 ZINC 和 PubChem 数据集上预训练一个名为 MoLFormer-Base 的六层模型来研究模型深度的影响。所有模型都使用旋转嵌入和线性注意进行预训练,然后与 MoLFormer-XL 进行比较。相同的学习率、数据分割、优化等都用于预训练和微调。扩展数据表 1 和表 2总结了这些结果。虽然 MoLFormer-XL 的平均表现更好,但我们报告了两个有趣的观察结果。首先,在第二大数据集 $100\\%$ ZINC 上进行预训练的模型的表现一直比其他所有预训练模型差。仅在 ZINC 数据集上训练的模型表现不佳的一个可能原因是,ZINC 数据集包含的词汇量比所有其他数据集组合要小得多,而且分子更短,分子长度的差异很小。另一个值得关注的问题是,当 MoLFormer-XL 落后时,其差距也非常小(见表 2 中ESOL、QM8 和 FreeSolv 基准的性能)。扩展数据表 1 和表 2 进一步显示,在大多数任务中,MoLFormer-Base 性能都低于 MoLFormer-XL,这意味着更深层次的模型有助于学习。 \n\n微调与冻结。扩展数据 表 3 进一步总结了使用 QM9 基准进行的其余两项消融实验。为了简单起见,我们发现在所有预训练数据集上,微调消融实验比冻结实验取得了令人信服的胜利,因此我们选择只对所有其他基准进行微调。这些结果为 MoLFormer 的神经和数据扩展行为提供了经验见解。 \n\n表 3| MOLFORMER 模型与原子间空间距离图和注意力图之间余弦相似性的比较,针对 QM9 测试集中 7 806 个分子的三种不同距离类别 \n\n\n<html><body><table><tr><td>距离类别</td><td>请注意</td><td>1</td><td>3</td><td>5</td><td>7</td><td>9</td><td>11</td></tr><tr><td rowspan=\"2\">短</td><td>完整(√旋转式)</td><td>0.615</td><td>0.604</td><td>0.603</td><td>0.615</td><td>0.601</td><td>0.598</td></tr><tr><td>线性(√旋转)</td><td>0.596</td><td>0.597</td><td>0.602</td><td>0.597</td><td>0.600</td><td>0.594</td></tr><tr><td rowspan=\"2\">中型</td><td>完整(√旋转式)</td><td>0.716</td><td>0.724</td><td>0.724</td><td>0.716</td><td>0.727</td><td>0.727</td></tr><tr><td>线性(√旋转)</td><td>0.729</td><td>0.728</td><td>0.724</td><td>0.727</td><td>0.726</td><td>0.730</td></tr><tr><td rowspan=\"2\">长</td><td>完整(√旋转式)</td><td>0.204</td><td>0.207</td><td>0.208</td><td>0.205</td><td>0.208</td><td>0.210</td></tr><tr><td>线性(√旋转)</td><td>0.211</td><td>0.210</td><td>0.210</td><td>0.211</td><td>0.209</td><td>0.210</td></tr></table></body></html>\n\n短距离、中距离和长距离类别的原子间距离范围分别为、2-4 和 4-10 Å。粗体表示表现最好的模型。 \n\n位置嵌入。扩展数据表 3 收集了位置嵌入消减结果,结果表明,在较小的数据集上,使用旋转嵌入和微调的 MoLFormer 落后于绝对位置嵌入模型,但当数据集规模超过 10 亿个分子时,MoLFormer 则胜出。",
|
||
"category": " Results and discussion"
|
||
},
|
||
{
|
||
"id": 7,
|
||
"chunk": "# 深入了解 MoLFormer \n\n分子相似性恢复。接下来,我们分析了在分子指纹上使用谷本距离(一种常用的化学物质间成对测量方法)估算的成对相似度与在 MoLFormer-XL 嵌入上使用欧氏距离估算的成对相似度之间的相关性。我们还进一步研究了一对分子的最大公共子图中的原子数与它们在嵌入空间中的相应欧氏距离之间的相关性,这些分子是从 PubChem 中随机挑选出来的。扩展数据表 4 对结果进行了总结,结果表明与 ChemBERTa 相比,MoLFormer-XL 嵌入与已知分子相似性度量的相关性更好。这些结果表明,MoLFormer 嵌入对化学结构相似性具有参考价值。 \n\n注意力分析。最后,我们检查了 MoLFormer-XL 的平均集合注意力矩阵,以探索蕴含的化学信息。,我们利用注意力值与 QM9 测试集中分子内原子间空间距离之间的余弦相似性。空间距离是从 QM9 基准(28)中提供的相应能量最小化几何图形中获得的。在整个 PubChem $^+$ ZINC 数据集上,MoLFormer-XL 与经过全神贯注和旋转嵌入训练的 MoL Former 变体进行了比较。请注意,这里的 MoLFormer 模型没有针对 QM9 数据集进行微调。在 QM9 下游任务中,全神贯注的冻结 MoLFormer 显示出更高的平均绝对误差( ${\\mathrm{.}}M A E\\geq12$ );在内能( $\\upsilon$ 和 $U_{0}\\overbrace{\\mathbf{\\Omega}}$ )、焓 $\\left(\\boldsymbol{H}\\right)$ )和自由能(G)方面的表现尤其糟糕。我们分别列出了三类不同原子间空间距离的注意力结果--短距离( $.\\leq2\\mathring{\\mathsf{A}}$ ;主要反映分子中典型的共价键,C-C 单键距离为 1.5)、中距离(2-4)和长距离( $\\geq4)$ )--并在表 3 中进行了总结。有趣的是,MoLFormer 中的线性注意力或完全注意力(以及旋转位置嵌入)与短原子间距和中等原子间距的相似性很强,而与长原子间距的相似性较弱(约 0.2)。这是一个有趣的观察结果,表明 MoL Former 能够捕捉 SMILES序列中不一定相邻的原子标记之间的空间关系。与全神贯注的MoLFormer 相比,在 MoLFormer-XL 中观察到的注意力更符合中距离和长距离。这一观察结果表明,使用线性注意力的 MoLFormer-XL 事实上能更有效地捕捉原子之间的空间关系。 \n\n图 3 进一步阐述了这一点,显示了 MoLFormer-XL 中间注意层的平均学习注意系数和旋转位置嵌入。不同原子标记对之间的注意力与原子对之间的共价键连通性和三维距离进行了比较(所有层中相同分子的完整注意力矩阵见补充图 5 和 6)。我们从 QM9 测试集中选择了注意力值与中程空间距离具有高度余弦相似性的两个分子进行可视化。目测结果表明,中间旋转注意力层上的头部聚集与共价键模式非常吻合,同时也捕捉到了分子内非键原子间空间关系的特征。这些注意力分析结果表明,MoLFormer-XL 能够在很大程度上从相应的 SMILES 序列中恢复分子结构信息。这种能力可能源于对大量化学SMILES语料的预训练,这也使得MoLFormer-XL能够学习化学物质的基本属性,包括结构信息和从量子化学到生理学的各种下游属性。最近的蛋白质序列建模工作也报告了类似的观察结果42,43。这证实了通过大规模数据预训练的化学语言模型所学习到的表征中出现了结构和各种属性信息。",
|
||
"category": " Results and discussion"
|
||
},
|
||
{
|
||
"id": 8,
|
||
"chunk": "# 结论 \n\n在这项工作中,我们探索了无监督大规模预训练分子语言模型在各种分子特性预测任务中的威力。与图不同,SMILES 等分子语言并不明确编码分子拓扑结构。然而,通过在大规模语料库上进行精心设计的自监督训练,并采用富有表现力的架构(如具有线性注意机制的基于上下文转换器的语言模型)和并行化训练协议,我们的 MoLFormer 可以高效地学习隐含的丰富结构-属性关系信息。 \n\n具体来说,MoLFormer 在各种分子回归和分类基准上的表现都优于现有的基于图的基准线。这项工作验证了大规模自监督预训练分子语言模型在预测从量子化学到生理学整个范围的分子特性方面的能力。此外,通过分析所学到的关注点,我们证明了在 SMILES 序列上训练的 MoLFormer 确实能够意识到分子内的原子间关系,甚至超越了二维拓扑结构。最后,在大规模学习方面,我们展示了MoLFormer对计算资源的高效和环境友好型利用,将执行训练所需的GPU数量减少了60(1000对16)。 \n\nMoLFormer 有助于更快地对不同靶点的分子进行硅学筛选,这对材料设计和药物发现应用非常重要,并能产生积极的社会影响。然而,应该注意的是,滥用这种技术而不 \n\n \n\nCC1(C)C(C)(O)C1(C)O\"a)和 \"CC(C)C(C)(C)O\"b) 注意图(范0围.02从 0 到 1;只显示 色环绕部分)中程三维距0.01离。与组成原子映射的标记 0 0 \n\n在湿实验室进行适当的实验和科学验证可能会产生有害影响。此外,有研究表明,准确的属性预测模型(,用于预测毒性)和生成模型可用于设计分子(44)。这就强调了需要一个负责任的框架 \n\n围绕使用这些新兴的强大技术。此外,本研究还要求进一步探索MoLFormer 直接从化学语言中学习分子结构信息的表征能力,并可将其扩展到本中所研究的小分子有机物之外。 \n\n未来的工作还将通过采用更大的模型和更多的训练数据、使用改进的和/或特定领域的自我监督任务以及使用其他基于字符串的表示方法(如SELFIES(9))来改进 MoLFormer。",
|
||
"category": " Conclusions"
|
||
},
|
||
{
|
||
"id": 9,
|
||
"chunk": "# 方法",
|
||
"category": " Materials and methods"
|
||
},
|
||
{
|
||
"id": 10,
|
||
"chunk": "# 型号详情 \n\n由于我们的目标是在利用相对有限的硬件资源的同时,高效率、高效益地训练化学 SMILES 的大规模屏蔽语言模型,因此我们利用了基于变压器的神经网络(23)。变压器通过一系列自注意和前馈连接交替的区块处理输入。它们通过位置嵌入(称为绝对位置嵌入)对序列中的位置进行编码。因此,位置 $m$ 上的输入特征会与相应的绝对位置嵌入连接起来。自我注意使网络能够构建包含整个序列上下文的复杂表征。注意机制会将序列中的特征转化为查询 $(q)$ 、键 $(k)$ 和值 $(v)$ 表示。这些表征会在 $m$ 处产生如下的注意力输出: \n\n$$\n\\begin{array}{r l}&{\\sum_{n\\ {\\bf{\\epsilon}}^{n}}^{N}\\exp\\left(\\langle q_{\\mathrm{~,~}k}\\rangle\\right)\\psi\\ }\\\\ {\\langle Q,K,V=}&{\\ \\frac{n\\imath=}{\\sum_{n=1}^{N}\\exp\\left(\\langle q_{m}\\mathrm{~,~}k_{\\langle n}\\rangle\\right)}}\\end{array}\n$$ \n\n其中,Q、 $\\boldsymbol{\\kappa}$ 和 $v$ 分别为查询、键和值。vanilla transformer23 架构的一个众所周知的计算瓶颈是,注意力机制的计算成本与序列长度成二次方关系。线性复杂度注意力模型31(,)(45) 利用核近似和随机特征近似变体解决了这一问题。这促使我们设计出了 MoLFormer,它采用了基于变压器的编码器和线性注意(31)。带有线性注意的 MoLFormer 每层由 12 个层级和 12 个注意头组成,隐藏状态大小为 768。线性注意选择了广义特征图31(详见补充章节 A.1.1)。 \n\n如上所述,在转换器结构中,(化学)序列不同位置的标记之间的依赖关系是在位置编码的监督下建模的。参考文献 23 的开创性工作研究了绝对位置嵌入,以编码标记在序列中的位置。最近的工作46(-)(48)表明,使用标记间的相对位置嵌入可以提高性能。RoFormer27引入了旋转位置嵌入,通过对查询和位于 $m$ 处的键进行与位置相关的旋转 ${\\sf R}_{m}$ 来增强相对编码。 \n\n为了利用线性变换器进行旋转嵌入,参考文献 27 提出了以下近似方法: \n\n$$\n\\begin{array}{r l}{\\sum^{N}}&{{}\\left\\langle R\\phi\\left(q\\right)\\ ,\\ R\\phi\\left(k\\right)\\right\\rangle v}\\end{array}\n$$ \n\n$$\n\\begin{array}{r l}{\\mathbf{\\Phi}_{m}\\left(\\boldsymbol{Q},\\boldsymbol{K},\\boldsymbol{V}=\\mathrm{~\\cfrac~{\\gamma\\left(\\boldsymbol{~\\Omega~}\\right)~=~\\gamma~}{~\\frac{\\gamma~\\left(\\boldsymbol{~\\Omega~}\\right)~=~\\gamma~\\left(\\boldsymbol{~\\Omega~}\\right)~=~\\gamma~\\left(\\boldsymbol{~\\Omega~}\\right)~=~\\gamma~\\left(\\boldsymbol{~\\Omega~}\\right)~=~\\gamma~\\left(\\boldsymbol{~\\Omega~}\\right)~}~}}&{}\\end{array}\n$$ \n\n其中, $j$ 是随机特征图。 \n\n在对这种线性 RoFormer 进行初步实验后,我们发现它的性能比绝对位置模型差。我们对 RoFormer 提出了以下修改建议,我们发现它比原始RoFormer 训练效果更佳(训练损失下降得更快、更低),而且比使用绝对嵌入的模型性能更好: \n\n$$\n\\begin{array}{r l}{\\left(Q,K,V=\\right.}&{{}\\sum_{n=1}^{N}\\left.\\mathcal{\\hat{V}}\\left(R q_{n m}\\right)\\right.,\\phi\\left(R_{n}k_{n\\right)}\\right\\rangle v_{\\leftn{\\left(n\\right)}}}\\end{array}\n$$ \n\n与参考文献 27 相比,我们用 $\\phi$ 旋转原始密钥和查询,而不是转换后的密钥和查询。",
|
||
"category": " Materials and methods"
|
||
},
|
||
{
|
||
"id": 11,
|
||
"chunk": "# 数据集和标记化 \n\n我们将 PubChem 数据集49 和 ZINC 数据集50 以不同比例组合在一起,构建了多个数据集用于预训练。PubChem 数据集包含 1.11 亿个分子,而更大的ZINC 数据集包含超过 10 亿个分子。为了构建词汇表,我们使用了参考文献51 中的标记符。51.利用 RDKit(http://www.rdkit.org)将 PubChem 和 ZINC中的所有分子转换为规范格式,然后进行标记化。从输出结果中提取的所有独特标记为我们提供了一个包含 2357 个标记和 5 个特殊标记的词汇表,因此词汇表标记总数为 2362 个,这些标记用于本文所考虑的所有预训练模型,与预训练数据集的大小无关。说,在词汇量固定的情况下,所有模型都具有相同的嵌入能力。但是,预训练时所使用的唯一标记可能只包含模型词汇量的一个子集。分子的标记后序列长度从 1 到刚刚超过 2000 个标记不等。我们决定将序列长度范围限制在 1 token \n到 202 个标记,包括特殊标记,以减少计算时间。 \n由于我们数据集中 $99.4\\%$ 以上的分子包含少于 202 个标记,因此我们假设,删除多于 202 个标记的分子对预训练的负面影响很小。",
|
||
"category": " Materials and methods"
|
||
},
|
||
{
|
||
"id": 12,
|
||
"chunk": "# 大规模训练和并行化 \n\n在预训练中,我们使用了参考文献 30 中定义的屏蔽语言模型方法。30.最初,我们会选择 $15\\%$ 的标记词进行去噪处理。从中随机抽取 $80\\%$ 的标记替换为[MASK]标记,随机抽取 $10\\%$ 的标记替换为随机标记,其余 $10\\%$ 的标记保持不变。对整个 PubChem $^+$ ZINC 数据集进行了四个历元的训练,固定学习率为 $1.6\\times10^{-4}$ ,每个 GPU 的批量大小为 ,600 个分子,通过InfiniBand 结构连接两台服务器上的总共 16 个 GPU。值得注意的是,随着使用的 GPU 数量的增加我们发现学习率必须提高 8 倍。 \n\n为了将我们的训练扩展到大型数据集(10 亿多个数据点),我们依赖于按序列长度对迷你批进行自适应分级,以及通过分布式训练实现并行化(详见补充章节 A)。通过使用线性注意和分桶,我们将所需的GPU 数量从没有分桶的二次注意的大约 1000 台减少到 16 台(参考文献52-55)。",
|
||
"category": " Materials and methods"
|
||
},
|
||
{
|
||
"id": 13,
|
||
"chunk": "# 数据可用性 \n\n用 于 模 型 预 训 练 和 基 准 任 务 微 调 的 数 据 可 从https://github.com/IBM/molformer 网站获取。",
|
||
"category": " References"
|
||
},
|
||
{
|
||
"id": 14,
|
||
"chunk": "# 代码可用性 \n\n用于 MoLFormer 训练和微调的 Python 代码,以及 Python用于 MoLFormer 注意力可视化的笔记本,以及实例 \n\n预训练模型的数据可在 https://github.com/IBM/mol- former 网站查阅。如有其他疑问,请联系通讯作者。",
|
||
"category": " Materials and methods"
|
||
},
|
||
{
|
||
"id": 15,
|
||
"chunk": "# 参考资料 \n\n1. Rogers, D. & Hahn, M. Extended-connectivity fingerprints.J. Chem.Inf.Model.50, 742-754 (2010). \n2. Rupp, M., Tkatchenko, A., Müller, K.-R. & Von Lilienfeld, O. A. Fast and accurate modeling of molecular atomization energies with machine learning.Phys.108, 058301 (2012). \n3. Weininger, D. SMILES, a chemical language and information system.1.方法和编码规则介绍。J. Chem.Inf.28, 31-36 (1988).28, 31-36 (1988). \n4. Goh, G. B.、Hodas, N. O.、Siegel, C. & Vishnu, A. SMILES2Vec: an SMILE",
|
||
"category": " References"
|
||
}
|
||
] |