ChatGPT的工作原理，这篇文章说清楚了 -北京赛维博信科技发展有限公司

全国直销电话:4006-854-568

IT-technology

以人为本，众志成城，以“用户至上”.“服务上乘”为原则，
追求产品和服务高质量，努力实现与客户之间真诚有效的沟通，
不断地圆梦、奔跑与腾飞。

新闻动态 NEWS

网站首页 ∷ 所有新闻 ∷ 行业资讯 ∷ ChatGPT的工作原理，这篇文章说清楚了 -北京赛维博信科技发展有限公司

ChatGPT的工作原理，这篇文章说清楚了 -北京赛维博信科技发展有限公司

有不同的损失函数选择（平方之和、绝对值之和，等等）。有不同的方法来进行损失最小化（每一步要在权重空间中移动多远，等等）。然后还有一些问题，比如要展示多大的 “一批” 例子来获得每一个试图最小化的损失的连续估计。而且，是的，人们可以应用机器学习（例如，我们在 Wolfram 语言中所做的）来实现机器学习的自动化 —— 自动设置超参数等东西。

但最终，整个训练过程的特点是看到损失是如何逐渐减少的（如这个 Wolfram Language 的小型训练的进度监视器）：

而人们通常看到的是，损失在一段时间内减少，但最终在某个恒定值上趋于平缓。如果这个值足够小，那么可以认为训练是成功的；否则，这可能是一个应该尝试改变网络结构的信号。

能否告诉我们 “学习曲线” 要花多长时间才能变平？就像许多其他事情一样，似乎有近似的幂律缩放关系，这取决于神经网络的大小和使用的数据量。但一般的结论是，训练一个神经网络是很难的，需要大量的计算努力。作为一个实际问题，这些努力的绝大部分都花在了对数字阵列的操作上，而这正是 GPU 所擅长的 —— 这就是为什么神经网络训练通常受限于 GPU 的可用性。

在未来，是否会有从根本上更好的方法来训练神经网络，或者一般地做神经网络的工作？我认为，几乎可以肯定。神经网络的基本理念是用大量简单（本质上相同）的组件创建一个灵活的 “计算结构”，并让这个 “结构” 能够被逐步修改，以便从实例中学习。

在目前的神经网络中，人们基本上是使用微积分的思想 —— 应用于实数 —— 来做这种增量修改。但越来越清楚的是，拥有高精度的数字并不重要；即使用目前的方法，8 位或更少的数字可能也足够了。

像蜂窝自动机这样的计算系统，基本上是在许多单独的比特上并行操作的，如何做这种增量修改从来都不清楚，但没有理由认为它不可能。事实上，就像 “2012 年深度学习的突破” 一样，这种增量修改在更复杂的情况下可能比简单的情况下更容易。

神经网络 —— 也许有点像大脑 —— 被设定为拥有一个基本固定的神经元网络，被修改的是它们之间连接的强度（“重量”）。（也许至少在年轻的大脑中，大量的完全新的连接也可以增长。）但是，虽然这对生物学来说可能是一个方便的设置，但并不清楚它是否是实现我们所需功能的最佳方式。而涉及渐进式网络重写的东西（也许让人想起我们的物理项目）最终可能会更好。

但即使在现有的神经网络框架内，目前也有一个关键的限制：现在的神经网络训练从根本上说是连续的，每一批例子的效果都被传播回来以更新权重。

« 上一页 1…12 131415 16…35 下一页 » 查看全文 »

上一篇： Cisco ASA防火墙PPPOE拨号配......

下一篇：交换机最重要的配件，你或许从未真正了解 ......

服务热线

1391-024-6332

地址：北京市海淀区上地十街1号院2号楼13层1313

电话：010-62980070 010-62961051 手机：13910246332

友情链接：ruckus无线华为交换机华为防火墙北京室内除甲醛重庆租车推流会议推流会场WiFi租赁会场网络搭建会场无线租赁推流会议推流