全国直销电话:4006-854-568
IT-technology
以人为本,众志成城,以“用户至上”.“服务上乘”为原则,
追求产品和服务高质量,努力实现与客户之间真诚有效的沟通,
不断地圆梦、奔跑与腾飞。
新闻动态   NEWS
ChatGPT的工作原理,这篇文章说清楚了 -北京赛维博信科技发展有限公司
来源:本人摘自网络,如有侵权请联系删除 | 作者:svbx001 | 发布时间: 2023-05-06 | 4384 次浏览 | 分享到:

在上面的第一节中,我们谈到了使用 2-gram 概率来根据它们的直接前身来挑选单词。变换器中的 “注意” 机制所做的是允许 “注意” 甚至更早的词 —— 因此有可能捕捉到,比如说,动词可以指代在句子中出现在它们之前的许多词的名词的方式。

在更详细的层面上,注意力头所做的是以一定的权重重新组合与不同标记相关的嵌入向量中的大块。因此,例如,在第一个注意力区块中的 12 个注意力头(在 GPT-2 中)对上面的 “hello, bye” 字符串有如下(“look-back-all-the-way-beginning-the-sequence-of-tokens”)模式的 “重组权值”:

在经过注意力头的处理后,产生的 “重新加权的嵌入向量”(GPT-2 的长度为 768,ChatGPT 的 GPT-3 的长度为 12288)被传递到一个标准的 “全连接” 神经网层。很难掌握这个层在做什么。但这里是它使用的 768×768 权重矩阵的图(这里是 GPT-2):

采用 64×64 的移动平均数,一些(随机漫步式的)结构开始出现:

是什么决定了这种结构?最终,它可能是人类语言特征的一些 “神经网络编码”。但到现在为止,这些特征可能是什么还很不清楚。实际上,我们正在 “打开 ChatGPT 的大脑”(或至少是 GPT-2),并发现,是的,里面很复杂,而且我们不了解它 —— 尽管最终它产生了可识别的人类语言。

好吧,在经历了一个注意力区块之后,我们得到了一个新的嵌入向量 —— 然后它又被连续地传递到其他的注意力区块中(GPT-2 共有 12 个;GPT-3 有 96 个)。每个注意力区块都有自己特定的 “注意力” 和 “完全连接” 权重模式。这里是 GPT-2 的 “你好,再见” 输入的注意权重序列,用于第一个注意头(attention head):

这里是全连接层的(移动平均)“矩阵”:

奇怪的是,尽管这些 “权重矩阵” 在不同的注意力块中看起来很相似,但权重的大小分布可能有些不同(而且不总是高斯的):

那么,在经历了所有这些注意力区块之后,转化器的净效果是什么?从本质上讲,它是将原始的符号序列的嵌入集合转化为最终的集合。而 ChatGPT 的具体工作方式是在这个集合中提取最后一个嵌入,并对其进行 “解码”,以产生一个关于下一个标记应该是什么的概率列表。

这就是 ChatGPT 的概要内容。它可能看起来很复杂(尤其是因为它有许多不可避免的、有点武断的 “工程选择”),但实际上,所涉及的最终元素非常简单。因为最终我们要处理的只是一个由 “人工神经元” 组成的神经网络,每个神经元都在进行简单的操作,即接受一组数字输入,然后将它们与某些权重相结合。

 

服务热线

1391-024-6332