麻省理工学院的研究人员发现,如何利用数据集中的对称性概念可以减少训练模型所需的数据量。
这一发现被记录在麻省理工学院博士生贝赫鲁兹·塔赫马塞比和他的导师、麻省理工学院副教授斯蒂芬妮·杰格尔卡通过Arxiv检索到的一项研究中。 它植根于一个百年的定律——威尔定律的数学见解。
韦尔定律最初是由德国数学家赫尔曼·韦尔在110多年前提出的,旨在测量光谱信息的复杂性,如乐器的振动。
Tahmasebi在学习微分方程时受到这一定律的启发,发现了它在降低神经网络数据输入复杂性方面的潜力。通过理解数据集固有的对称性,机器学习模型可以变得更高效、更快,而无需在数字上添加更多数据。
Tahmasebi和Jegelka的论文解释了如何利用数据集中的对称性或“不变性”来简化机器学习任务,进而需要更少的训练数据。
这听起来很复杂,但原理相对简单。例如,想想字母“X”—无论你旋转它还是翻转它,它看起来都像一个“X”。在机器学习中,当模型理解了这个想法时,他们可以更有效地学习。他们意识到,即使猫的图像被颠倒或镜像,它仍然显示一只猫。
这有助于模型更好地利用其数据,以多种方式从每个示例中学习,并减少实现准确结果所需的大量数据。
然而,这项研究比传统意义上的对称性更深入。核岭回归(KRR)不变性包括对称变换,如旋转、反射和在特定操作下保持不变的其他数据特征。
Tahmasebi表示:“据我所知,这是韦尔定律第一次被用来确定如何通过对称性来增强机器学习。”
这项研究最初在2023年12月的神经信息处理系统会议上提出。
这在计算化学和宇宙学等领域尤其重要,因为这些领域的质量数据有限。 稀疏数据很常见 在数据集特别大的领域,但实际上,数据集中有用的数据是非常有限的。
例如,在浩瀚的太空中,你可能会在一片巨大的虚无海洋中找到一个微小的有用数据, —因此,你必须让零星的数据发挥作用–而对称性是实现这一目标的一个有用工具。
约翰·霍普金斯大学的应用数学家索莱达·维拉尔在研究中提到,“满足问题对称性的模型不仅是正确的,而且使用少量的训练点就能产生误差更小的预测。”
好处和结果
研究人员确定了利用对称性的两种类型的改进:线性提升,效率与对称性成比例地增加,以及指数增益,当处理跨越多个维度的对称性时,它提供了不成比例的大好处。
“这是一个新的贡献,基本上告诉我们,更高维度的对称性更重要,因为它们可以给我们一个指数级的增益,”Tahmasebi解释道。
让我们进一步细分:
- 使用对称性增强数据:通过识别数据中的模式或对称性(比如对象即使在旋转或翻转时看起来是一样的),机器学习模型可以学习,好像它拥有比实际更多的数据。这种方法提高了模型的效率,使其能够从更少的东西中学到更多的东西。
- 简化学习任务:他们的第二个发现是关于通过关注这些对称性来使模型的功能更容易。由于模型学会忽略不重要的更改(如对象的位置或方向),因此它必须处理不太复杂的信息。这意味着该模型可以用更少的例子达到很好的结果,加快了学习过程,提高了性能。
哈盖·马龙是Technion和NVIDIA的计算机科学家,他称赞了这部作品的新颖视角, 告诉麻省理工学院这一理论贡献为新兴的“几何深度学习”子领域提供了数学支持。
研究人员直接强调了计算化学的潜在影响,例如,他们研究中的原理可能会加速药物发现过程。
通过利用分子结构中的对称性,机器学习模型可以用更少的数据点预测相互作用和性质,从而更快、更有效地筛选潜在的药物化合物。
对称性还可以帮助分析宇宙现象,在宇宙现象中,数据集非常大,但由有用的数据稀少地填充。
例如,利用对称性研究宇宙微波背景辐射或星系结构,从有限的数据中提取更多的见解。