ChatGPT的工作原理，这篇文章说清楚了 -北京赛维博信科技发展有限公司

全国直销电话:4006-854-568

IT-technology

以人为本，众志成城，以“用户至上”.“服务上乘”为原则，
追求产品和服务高质量，努力实现与客户之间真诚有效的沟通，
不断地圆梦、奔跑与腾飞。

新闻动态 NEWS

网站首页 ∷ 所有新闻 ∷ 行业资讯 ∷ ChatGPT的工作原理，这篇文章说清楚了 -北京赛维博信科技发展有限公司

ChatGPT的工作原理，这篇文章说清楚了 -北京赛维博信科技发展有限公司

即使在我们之前讨论的看似简单的学习数字函数的案例中，我们发现我们经常不得不使用数百万个例子来成功训练一个网络，至少从头开始。那么，这意味着我们需要多少个例子来训练一个 “类人语言” 模型呢？似乎没有任何基本的 “理论” 方法可以知道。但是在实践中，ChatGPT 已经成功地在几千亿字的文本上进行了训练。

有些文本被多次输入，有些只有一次。但不知何故，它从它看到的文本中 “得到了它需要的东西”。但是，考虑到需要学习的文本量，它应该需要多大的网络才能 “学好”？同样，我们还没有一个基本的理论方法来说明。

最终 —— 我们将在下面进一步讨论 —— 人类语言大概有某种 “总的算法内容”，以及人类通常用它说什么。但接下来的问题是，神经网络在实现基于该算法内容的模型时将会有多大的效率。我们也不知道 —— 尽管 ChatGPT 的成功表明它的效率还算不错。

最后我们可以注意到，ChatGPT 使用了几千亿个权重 —— 与它所获得的训练数据的总字数（或令牌）相比，它所做的事情是相当的。在某些方面，也许令人惊讶的是（尽管在 ChatGPT 的小型类似物中也有经验观察），似乎工作良好的 “网络规模” 与 “训练数据的规模” 如此相似。毕竟，这肯定不是说 “在 ChatGPT 内” 所有来自网络和书籍等的文本都被 “直接存储” 了。因为在 ChatGPT 里面的实际上是一堆数字 —— 精度略低于 10 位 —— 是对所有这些文本的总体结构的某种分布式编码。

换句话说，我们可以问人类语言的 “有效信息含量” 是什么，以及通常用它说什么。这里有语言实例的原始语料库。然后是 ChatGPT 的神经网络中的表述。这个表征很可能与 “算法上最小” 的表征相去甚远（我们将在下面讨论）。但它是一个很容易被神经网络使用的表征。在这种表示法中，训练数据的 “压缩” 程度似乎很低；平均而言，似乎只需要不到一个神经网络的权重就可以承载一个词的训练数据的 “信息内容”。

当我们运行 ChatGPT 来生成文本时，我们基本上不得不使用每个权重一次。因此，如果有 n 个权重，我们有 n 个计算步骤要做 —— 尽管在实践中，许多步骤通常可以在 GPU 中并行完成。但是，如果我们需要大约 n 个字的训练数据来设置这些权重，那么从我们上面所说的，我们可以得出结论，我们需要大约 n2 个计算步骤来进行网络训练 —— 这就是为什么，用目前的方法，人们最终需要谈论数十亿美元的训练工作。

« 上一页 1…23 242526 27…35 下一页 » 查看全文 »

上一篇： Cisco ASA防火墙PPPOE拨号配......

下一篇：交换机最重要的配件，你或许从未真正了解 ......

服务热线

1391-024-6332

地址：北京市海淀区上地十街1号院2号楼13层1313

电话：010-62980070 010-62961051 手机：13910246332

友情链接：ruckus无线华为交换机华为防火墙北京室内除甲醛重庆租车推流会议推流会场WiFi租赁会场网络搭建会场无线租赁推流会议推流