ChatGPT的工作原理，这篇文章说清楚了 -北京赛维博信科技发展有限公司

全国直销电话:4006-854-568

IT-technology

以人为本，众志成城，以“用户至上”.“服务上乘”为原则，
追求产品和服务高质量，努力实现与客户之间真诚有效的沟通，
不断地圆梦、奔跑与腾飞。

新闻动态 NEWS

网站首页 ∷ 所有新闻 ∷ 行业资讯 ∷ ChatGPT的工作原理，这篇文章说清楚了 -北京赛维博信科技发展有限公司

ChatGPT的工作原理，这篇文章说清楚了 -北京赛维博信科技发展有限公司

在上面的第一节中，我们谈到了使用 2-gram 概率来根据它们的直接前身来挑选单词。变换器中的 “注意” 机制所做的是允许 “注意” 甚至更早的词 —— 因此有可能捕捉到，比如说，动词可以指代在句子中出现在它们之前的许多词的名词的方式。

在更详细的层面上，注意力头所做的是以一定的权重重新组合与不同标记相关的嵌入向量中的大块。因此，例如，在第一个注意力区块中的 12 个注意力头（在 GPT-2 中）对上面的 “hello, bye” 字符串有如下（“look-back-all-the-way-beginning-the-sequence-of-tokens”）模式的 “重组权值”：

在经过注意力头的处理后，产生的 “重新加权的嵌入向量”（GPT-2 的长度为 768，ChatGPT 的 GPT-3 的长度为 12288）被传递到一个标准的 “全连接” 神经网层。很难掌握这个层在做什么。但这里是它使用的 768×768 权重矩阵的图（这里是 GPT-2）：

采用 64×64 的移动平均数，一些（随机漫步式的）结构开始出现：

是什么决定了这种结构？最终，它可能是人类语言特征的一些 “神经网络编码”。但到现在为止，这些特征可能是什么还很不清楚。实际上，我们正在 “打开 ChatGPT 的大脑”（或至少是 GPT-2），并发现，是的，里面很复杂，而且我们不了解它 —— 尽管最终它产生了可识别的人类语言。

好吧，在经历了一个注意力区块之后，我们得到了一个新的嵌入向量 —— 然后它又被连续地传递到其他的注意力区块中（GPT-2 共有 12 个；GPT-3 有 96 个）。每个注意力区块都有自己特定的 “注意力” 和 “完全连接” 权重模式。这里是 GPT-2 的 “你好，再见” 输入的注意权重序列，用于第一个注意头（attention head）：