理解大型语言模型中的注意力

导读假设您有一些很长的文本，并且您要求聊天机器人识别关键主题，并对它们进行汇总和总结。为了做到这一点，你需要能够专注于正确的细节，密歇...

“假设您有一些很长的文本，并且您要求聊天机器人识别关键主题，并对它们进行汇总和总结。为了做到这一点，你需要能够专注于正确的细节，”密歇根大学电气和计算机工程助理教授SametOymak说，他监督了在神经信息学会议上发表的这项研究。处理系统会议。

“我们首次用数学方法展示了变形金刚如何学习做到这一点，”他说。

Transformer架构于2017年首次提出，彻底改变了自然语言处理，因为它们非常擅长处理很长的文本字符串——GPT-4可以处理整本书。Transformer将文本分解为更小的片段，称为标记，这些片段被并行处理，但仍保留每个单词周围的上下文。GPT大语言模型花了数年时间消化来自互联网的文本，然后以聊天机器人的形式出现，其熟悉程度足以通过律师资格考试。

Transformer的关键是注意力机制：它们决定哪些信息最相关。Oymak的团队发现，变压器执行此操作的部分方法相当老式——他们基本上使用30年前发明的支持向量机。SVM设置边界，使数据落入两个类别之一。

例如，它们用于识别客户评论中的积极和消极情绪。事实证明，变形金刚在决定要注意什么以及要忽略什么方面也做了类似的事情。

尽管听起来像是在与人交谈，但ChatGPT实际上是在进行多维数学计算。文本的每个标记都变成一串数字，称为向量。

当您第一次输入提示时，ChatGPT会使用其数学注意机制为每个向量以及每个单词和单词组合赋予权重，以决定在制定响应时考虑哪些因素。这是一种单词预测算法，因此它首先预测可能开始良好响应的第一个单词，然后预测下一个单词，直到完成响应。

然后，当您输入下一个提示时，感觉就像是对话的延续，但ChatGPT实际上是从头开始读取整个对话，为每个标记分配新的权重，然后根据这个新的评估制定响应。

这就是它给人的印象是能够回忆起之前说过的话。这也是为什么如果你给它罗密欧与朱丽叶的前一百行并要求它解释蒙太古和凯普莱特之间的问题，它就能总结出最相关的互动。

关于变压器神经网络如何运作，人们已经了解了很多。然而，Transformer架构的设计并没有明确规定要注意什么和不应该注意什么。这就是类似SVM的机制的用途。

“我们不明白这些黑匣子模型在做什么，但它们正在成为主流，”奥伊马克说。“这是第一个清楚地展示注意力机制如何在大海捞针的文本中找到并检索有用信息的研究之一。”

该团队打算利用这些知识来使大型语言模型更高效、更容易解释，他们预计这对于其他研究注意力很重要的人工智能领域(例如感知、图像处理和音频处理)的其他人来说将很有用。