全国直销电话:4006-854-568
IT-technology
以人为本,众志成城,以“用户至上”.“服务上乘”为原则,
追求产品和服务高质量,努力实现与客户之间真诚有效的沟通,
不断地圆梦、奔跑与腾飞。
新闻动态   NEWS
ChatGPT的工作原理,这篇文章说清楚了 -北京赛维博信科技发展有限公司
来源:本人摘自网络,如有侵权请联系删除 | 作者:svbx001 | 发布时间: 2023-05-06 | 4375 次浏览 | 分享到:

即使在我们之前讨论的看似简单的学习数字函数的案例中,我们发现我们经常不得不使用数百万个例子来成功训练一个网络,至少从头开始。那么,这意味着我们需要多少个例子来训练一个 “类人语言” 模型呢?似乎没有任何基本的 “理论” 方法可以知道。但是在实践中,ChatGPT 已经成功地在几千亿字的文本上进行了训练。

有些文本被多次输入,有些只有一次。但不知何故,它从它看到的文本中 “得到了它需要的东西”。但是,考虑到需要学习的文本量,它应该需要多大的网络才能 “学好”?同样,我们还没有一个基本的理论方法来说明。

最终 —— 我们将在下面进一步讨论 —— 人类语言大概有某种 “总的算法内容”,以及人类通常用它说什么。但接下来的问题是,神经网络在实现基于该算法内容的模型时将会有多大的效率。我们也不知道 —— 尽管 ChatGPT 的成功表明它的效率还算不错。

最后我们可以注意到,ChatGPT 使用了几千亿个权重 —— 与它所获得的训练数据的总字数(或令牌)相比,它所做的事情是相当的。在某些方面,也许令人惊讶的是(尽管在 ChatGPT 的小型类似物中也有经验观察),似乎工作良好的 “网络规模” 与 “训练数据的规模” 如此相似。毕竟,这肯定不是说 “在 ChatGPT 内” 所有来自网络和书籍等的文本都被 “直接存储” 了。因为在 ChatGPT 里面的实际上是一堆数字 —— 精度略低于 10 位 —— 是对所有这些文本的总体结构的某种分布式编码。

换句话说,我们可以问人类语言的 “有效信息含量” 是什么,以及通常用它说什么。这里有语言实例的原始语料库。然后是 ChatGPT 的神经网络中的表述。这个表征很可能与 “算法上最小” 的表征相去甚远(我们将在下面讨论)。但它是一个很容易被神经网络使用的表征。在这种表示法中,训练数据的 “压缩” 程度似乎很低;平均而言,似乎只需要不到一个神经网络的权重就可以承载一个词的训练数据的 “信息内容”。

当我们运行 ChatGPT 来生成文本时,我们基本上不得不使用每个权重一次。因此,如果有 n 个权重,我们有 n 个计算步骤要做 —— 尽管在实践中,许多步骤通常可以在 GPU 中并行完成。但是,如果我们需要大约 n 个字的训练数据来设置这些权重,那么从我们上面所说的,我们可以得出结论,我们需要大约 n2 个计算步骤来进行网络训练 —— 这就是为什么,用目前的方法,人们最终需要谈论数十亿美元的训练工作。

 

服务热线

1391-024-6332