这个理论可能是什么样的呢?好吧,有一个小小的角落,基本上两千年来一直为人所知,那就是逻辑。当然,在亚里士多德发现的 Syllogistic 形式中,逻辑基本上是一种说法,即遵循某些模式的句子是合理的,而其他的则不是。
因此,例如,说 “所有的 X 都是 Y,这不是 Y,所以它不是 X” 是合理的(正如 “所有的鱼都是蓝色的,这不是蓝色,所以它不是鱼”)。就像人们可以有点异想天开地想象亚里士多德通过(“机器学习式”)大量的修辞学例子来发现对偶逻辑一样,人们也可以想象在 ChatGPT 的训练中,它将能够通过查看网络上的大量文本等来 “发现对偶逻辑”。
(是的,虽然我们可以期待 ChatGPT 产生包含 “正确推论” 的文本,比如基于对偶逻辑,但当它涉及到更复杂的形式逻辑时,情况就完全不同了 —— 我认为我们可以期待它在这里失败,原因与它在小括号匹配中失败的原因相同)。
但除了逻辑这个狭隘的例子之外,对于如何系统地构建(或识别)甚至是合理的有意义的文本,又能说些什么呢?是的,有一些东西,如《疯狂的自由》,使用非常具体的 “短语模板”。但不知何故,ChatGPT 隐含着一种更普遍的方法。也许除了 “当你有 1750 亿个神经网络权重时,它就会以某种方式发生” 之外,对如何做到这一点没有什么可说的。但我强烈怀疑有一个更简单、更有力的故事。
我们在上面讨论过,在 ChatGPT 中,任何一段文本都有效地由一个数字阵列来表示,我们可以将其视为某种 “语言特征空间” 中的一个点的坐标。因此,当 ChatGPT 继续一个文本时,这相当于在语言特征空间中追踪一个轨迹。但现在我们可以问,是什么让这个轨迹对应于我们认为有意义的文本。也许会有某种 “语义运动法则” 来定义 —— 或者至少是约束 —— 语言特征空间中的点如何移动,同时保留 “有意义”?
那么,这个语言学特征空间是什么样子的呢?下面是一个例子,说明如果我们把这样一个特征空间投射到二维空间,单个词(这里是指普通名词)是如何布局的:
我们在上面看到的另一个例子是基于代表植物和动物的词。但这两种情况下的重点是,“语义相似的词” 被放在附近。
作为另一个例子,这里是对应于不同语音部分的词是如何布置的:
当然,一个给定的词一般来说并不只有 “一个意思”(或一定只对应一个语篇)。通过观察包含一个词的句子在特征空间中的布局,我们通常可以 “区分” 出不同的含义 —— 就像这里的例子 “起重机”(crane, “鸟” 或 “机器”?):
服务热线
1391-024-6332