老师足交从0构建大模子学问体系（3）：大模子的祖先RNN

发布日期：2025-04-15 23:36 点击次数：166

从天然说话的数字化进程老师足交，到RNN的数学旨趣、测验方法和文本生成机制，再到其在当代大模子中的地位和影响，本文将为你揭开RNN的微妙面纱，带你深切联结大说话模子的中枢时间基础。

按照老例，论断先行

这篇著作要商酌啥？

商酌AI是怎么通过天然说话处理时间来完成“用户发问，AI回答”的文本生成任务的。RNN（轮回神经收集，Recurrent Neural Network）是完成这一任务的经典模子，同期亦然目下大说话模子的时间起源，了解RNN有助于咱们联结目下大说话模子的概率输出机制以及幻觉征象的成因。

我会以测验一个RNN架构的客服机器东谈主为切进口，成见其通过轮回结构完毕序列数据系念的机制，并阐释其概率输出机制与幻觉征象的内在关联。

著作商酌的中枢问题和论断是啥？

① 东谈主类的天然说话是怎么被数字化的？

天然说话的数字化进程分为token化、数字映射、独热编码和词镶嵌四步

② 如若说模子的实质是一套数学公式，那么文本生成模子的数学公式是什么？

模子的数学公式无法用一个约略式子描摹，只可画出模子结构，其里面进行了矩阵乘法运算

③ 文本生成模子的测验数据是怎么构造的，模子又是怎么被测验的？

将测验语料分割为多个“输入→输出”语料对，通过这些语料对来诊疗模子参数

④ 测验出的模子是怎么完成文本生成任务的？

基于文本序列末尾的几个字轮回掂量下一个字，逐字彭胀直至完成文本生成

⑤ 为什么模子会有幻觉征象？

根蒂原因在于模子基于概率的输出机制实质是在最大化说话的连贯性而非正确性

次要问题和论断是啥？

⑥ 模子真是具备智能吗？

说话模子实质是统计不同字词共同出现概率的掂量系统，不具备因果联结才略，不具备广义的智能

⑦ 为什么模子会对沟通的输入产生不同的输出？

为追求创造性，模子的“温度”参数会让其在即便沟通的输入下也会输出不同的内容

“RNN是时辰往返所里不灭的赌徒，它用当年的系念来换取掂量改日的筹码”

——题记

上一篇著作《从0构建大模子学问体系（2）：给模子开眼的CNN》已先容图像识别的经典模子CNN。但日常传递信息除了图像外还会使用大批的天然说话，即东谈主类日常交流使用的说话（如汉文、英语）。让计较机能够联结并处理天然说话的时间被统称为天然说话处理（NLP，Natural Language Processing），其中最经典的一项时间便是本文要先容的轮回神经收集（RNN，Recurrent Neural Network）。

趁机一提，RNN被称为大模子祖先是因其纠正版块——LSTM（短经久系念收集）启发了Transformer的缱绻。而Transformer又是目下大模子（如chatGPT、DeepSeek）的基础架构，因此联结RNN有助于联结当代大模子的中枢计制及挑战，如幻觉的成因。

从客服机器东谈主开动提及

假定你是某网店的客服，濒临日均5000+条诸如 “包邮吗”、” 有赠品吗 ” 的彼此市酌，即便写了FAQ文档用户也懒得看。于是你开动念念考：能否测验一个智能助手，让它把柄用户的问题自动生成适应语境的回答？

这种需求催生了天然说话处理规模的文本生成任务（text generation），其中枢是让模子在给定输入后，输出语法正确且语义连贯的文本。面前炙手可热的ChatGPT、DeepSeek等大说话模子，实质上齐是在完成这一任务。

与上一篇著作处理图片数据不同的是，天然说话处理有两个零散挑战。

处理天然说话的两个挑战：序列性与高下文关连性

在图像识别任务中，CNN架构的模子存在两个致命残障。① 无法处理输入数据的方法。举例识别数字时，先识别图片1后识别图片2与先识别2后识别1毫无互异。② 无法系念之前处理的内容。即图片1的识别驱散十足不会影响图片2。可是天然说话具有：

1）严格的序列性：”我心爱上班” 与 “班心爱上我” 的语序互异奏凯导致语义颠覆。

2）复杂的高下文关连性：举例试着完成底下3个空格填字

童颜巨乳

1.“食堂大__”2.“保洁阿__”3.“外卖小__”东谈主类不错松驰补全为 “妈 / 姨 / 哥”，这是因为东谈主脑能竖立高下文关联。这种特色条目模子必须具备系念才略，这恰是传统 CNN 难以处理天然说话的根蒂原因。

不外在措置这两个挑战之前还有个问题，那便是专栏第一篇著作就提到，不管大模子小模子，其实质齐是把一个数通过一定运算变成另一个数的数学公式。是以彰着，咱们需先措置天然说话数字化的问题。

把天然说话转为数字的四个方法

第一步：token化（tokenization）。东谈主类联结汉文是以字为最小单元，如“我心爱上班。”这句话是被拆分为“我”、“喜”、“欢”、“上”、“班”、“。”来联结的。肖似东谈主类逐字联结的进程，token（词元）即模子处理天然说话的最小单元，将句子分割为多个token的进程便是token化。

比如“我心爱上班。”这句话按照词的维度不错被token化为[“我” ，”心爱” ，”上班” ， “。”]4个token，也不错按照字的维度token化为[“我” ，”喜” ，”欢” ，”上” ，”班”， “。”]6个token。不同的模子通常有不同的战略。是以咱们平时使用大模子时输入一句话到底算几个token取决于所用模子我方的token战略

目下的大模子如DeepSeek世俗给与的token化战略叫作念BPE（Byte Pair Encoding），中枢念念想是将高频字符组（包括非完满词汇）与单字共同作为 token。比如除了将“我”、“喜”、“欢”三个高频汉字各作为一个token外，也会将“我心爱”，这么高频出现的非完满词汇作为一个token。是以上头这句话其实还不错被分割为[“我心爱” ，”上班”， “。”]3个token。

为肤浅评释，本文一律把一个汉字作为一个token。

第二步：指定token和数字的对应关系。token天然是模子处理天然说话的最小单元，但毕竟token不是数字，是以还需要给每个token指定所对应的数字。比如咱们不错这么指定token和数字的对应关系：

那么“我心爱上班。” 这句话目下就不错暗意为[1， 2， 3， 4， 5， 6]6个数字。践诺当中通常会把总共token按照其在语料中的出现频率由高到低胪列，频率越高的token指定的数字越小，这是因为小的数字在计较机中的存储和运算老本齐更小

到此老师足交，对于一些数据量少，问题约略，小模子就能措置的场景来说天然说话数字化的进程就驱散了。但这么的数字化驱散存在两个问题：

1）数值大小≠语义关系。举例“我”对应数字1，“喜”对应2，天然1<2但这并不代表“我”<“喜”。数值大小与语义脱节会导致模子学习到造作的说话法例。

2）无法进走运算。天然数学上 1+2=3，但 “我”+“喜” 彰着不等于“你”。这将导致模子无法以数学运算的方式对说话作念处理。

因此，大模子需要通事后续方法措置这些问题，使数字着实承载语义信息，从而完毕更接近东谈主类的说话处理才略。

第三步：独热编码（one-hot encoding）。也便是将每个token所对应的数字再作念一次调遣，具体调遣也很容易联结，比如“我”对应的数字是1，那就用除了第一位是1，其余位全是0的六维向量来暗意它，即[1，0，0，0，0，0]。同理，“爱”对应2，那么它的编码驱散便是[0，1，0，0，0，0]……依此类推。这种方法摒除了数值大小的误导性，且允许约略组合，比如“我”+“喜”=[1，1，0，0，0，0]暗意“我”和“喜”两个字，很合理。但独热编码仍存在两大局限：

1）计较老本高。这里咱们只探究了6个token，是以一个token经过独热编码后唯有6个数字。但处理通盘汉文学系至少也需要一万个token吧。每个token独热编码后便是一万个数字，是以光是联结“我心爱上班。”6个token就需要计较机处理6万个数字，老本太高。

2）语义关联性缺失。举例 “树”被编码为 [0，0，0，0，1，0]，“ 木”被编码为 [1，0，0，0，0，0]，两个编码驱散十足无法体现“树”和“木”的语义相似性。

是以对于大模子来说，天然说话的数字化调遣还有一步。

第四步：将独热编码后的token进行词镶嵌操作（word embedding）。通过挑升测验的词镶嵌模子，将独热编码的高维向量（如 10000 维）调遣为低维向量（如 3 维）。词镶嵌模子的缱绻和测验是另一个话题，咱们只需要知谈经过词镶嵌后可完毕三个成果：

1）维度变低且数值有零有整。蓝本一个token是用一个唯有0和1的高维向量暗意的，但目下变为了有零有整的低维向量，比如[3.1， 2.6， 7]这么。

2）语意左近的token编码驱散会比拟相似。比如咱们会发现进行词镶嵌处理后以下4个token的编码可能长这么

如若把每个token编码中的三个数字当作念xyz坐标，“树”、“木”、“叶”会特殊接近，且他们距离“海”的距离齐比拟远。

3）token编码之间的加减也具有语义。比如咱们会发现“树”-“木”≈“叶”

到此，对大模子来说天然说话数字化的进程才算透顶驱散。

是以总结一下，当咱们输入一句话时，这句话最初会被切分红多个token，不同的模子有不同的切分战略，每个token会被映射成一个数字，之后再经过独热编码和词镶嵌，最终成为模子可处理的一串数。

目下咱们措置了天然说话数字化的问题，接下来就需要搭建模子完成文本生成任务了。完成这一任务的中枢数学运算是矩阵乘法，是以咱们先约略先容一下这种运算。

一种运算：矩阵乘法

矩阵乘法便是说两个矩阵相乘不错得到一个新的矩阵。比如：

总之便是两组数相乘暗意通过对这两组数进行加法和乘法运算不错得到新的一组数。

来，让咱们给AI开系念

RNN中的神经元其实就干矩阵相乘这一件事。RNN既然叫轮回神经收集，证据在其中有个东西得是轮回出现的，何况还通过这种方式构成了一个收集。这个轮回出现的东西便是RNN收集合的神经元，它长这么：

在这个结构中A、B和C齐是一个矩阵。其中A是输入，B是模子参数，A与B相乘后得到了输出C，C会往模子中其他两个场所不绝传递，是以C有两个输出场所。

模子对说话的处理实质上亦然在作念加减乘除。举个例子，假定“你”这个字数字化后的驱散为[1， 5， 3]这串数，而模子的参数B为：

那么输入“你”后模子里面即进行了一次矩阵乘法，即：

得到的驱散怎么解读咱们之后再说。

神经元轮回联结就成为了轮回神经收集RNN，收集能够将历史输入信息融入面前计较，从而具备了系念。比如咱们让神经元轮回联结3次，得到的收集长这么：

咱们来不雅察一下模子的3个输出C1、C2和C3。C1的产生十足由A1决定，它是以A1为输入与B相乘后得到的输出。数据流向画出来是这么

而C2的产生则是由A1和A2共同决定的

同理，C3的产生由A1，A2和A3共同决定。换句话说，模子在输出时记取了之前输入的内容，是以说模子领有了系念。

那如若要让模子完成“外卖小__”的空格填字怎么办了？好说，把“外”、“卖”、“小”三个字数字化后诀别当作念A1、A2和A3输入给模子，取C3作为最终输出就行，毕竟C3的产生结合了A1至A3。至于中间驱散C1和C2在咱们这儿用不上，丢弃就行。

C3暗意模子合计每一个token有多大的可能成为面前的输出。目下咱们来解读一下模子的最终输出。模子最终的输出C3不是一个数，而是一串数。有几许个数取决于咱们准备的测验语料包含几许个不同的token。假定咱们的语料一共包含“外卖小哥保洁大姨食堂大妈”这12个token，那么C3便是12个数，每个数是一个0~1之间的极少，比如咱们输入“外卖小”三个token后得到的C3可能长这么：

[0.05， 0.02， 0.1， 0.2， 0.1， 0.05， 0.04， 0.07， 0.02， 0.15， 0.09， 0.11]

其中第一个数暗意模子合计token集合第一个token（也便是“外”）应该作为本次输出的概率为0.05，第二个数暗意第二个token（也便是“卖”）作为本次输出的概率为0.02……依此类推。咱们画个图来看一下

这个图暗意了每个token的输出概率，因此模子的输出机制是“基于概率输出”。从这些候选token中怎么选出一个token作为输出就叫作念“采样战略”。目下来看“哥”这个token的概率最高，是以如若咱们的采样战略是“把概率最高的token作为本次输出”（天然这是最适应直观的采样战略，但现实通常不会这么作念），那模子就会以“哥”作为本次输出。天然，在现实当中十足有可能是某个别的token概率最大。

至于为什么要强调“基于概率输出”以及“采样战略”这两点，先埋个伏笔……在先容完模子测验和现实使用之后再回收。

是以总结一下，将RNN神经元屡次轮回联结就不错得到RNN。最末尾神经元的输出是由之前总共的输入共同决定的，因此RNN具有系念。此外，模子对天然说话的处理实质也仅仅在作念加减乘除，当咱们输入一句话后，模子的输出是一个概率分散，最终现实会输出什么内容取决于咱们的采样战略。

到此，模子就搭建结束，其实质亦然一个数学公式，即给定一句话后进行的一系列运算。回到一开动的问题，咱们要怎么依靠这个模子来测验一个客服机器东谈主呢？这就关乎测验数据应该怎么准备以及怎么测验了。

测验前：准备测验数据

还铭记啥叫文本生成吗？让模子依据给定的输入来输出适应语法例矩、语义指引的文本内容。是以咱们要把柄语料束缚的提供这么的“输入→输出”示范让模子学会语料内的内在关系。具体来说，假定咱们的客服文档中对于家具品性部分的证据如下：

“此款衬衫给与新疆长绒棉混纺莫代尔面料，兼具纯棉的透气亲肤与莫代尔的抗皱垂坠特色。立体剪裁缱绻，衣长袒护腰线，袖口深度优化活动摆脱度，版型贴合东谈主体工学。”

那么咱们不错四个字为一组，前三个字作为给定输入，第四个字为守望输出的方式对这段话进行分割，如下所示。

按照这么的方式上头这段话能被分割为71个语料对。到此咱们的测验数据就准备结束。

测验中：输入每个语料对诊疗参数

分割出的每一双语料对齐将用于诊疗模子参数，以第一个语料对（此款衬，衫）为例，一共有4步：

是以通盘测验进程不错这么暗意：

测验后：文本生成

完成测验后的模子就不错参预使用了。现实使用需要用户先给输入，也便是目下常说的prompt。假定用户输入“您好！”，模子会先把柄这三个字输出下一个字，然后不绝把柄最新的三个字输出下一个字，如斯轮回直到模子合计不错罢手输出。通盘进程不错如下暗意：

这就评释了为什么咱们日常使用的大模子通常给与逐字输出的方式，同期也评释了为何部分模子会健忘用户之前输入的内容——因为之前输入的内容已超出其输入范围。比如图中这个模子每次的输入范围就唯有最近的3个token，3个token之前的东西就记不住。（但目下的大模子如GPT-4o的输入范围是128，000个token）

伏笔回收之一：模子基于概率的输出机制

不管是大模子如故本文先容的RNN，他们齐给与基于概率的输出机制，因此势必产生幻觉。总结一下咱们是怎么测验模子的：咱们将语料按照“输入→输出”的方式分割为了宽敞语料对，并用来诊疗模子参数。这种机制使模子学到的是语料中字词共同出现的法例（也便是当某些字出现之后，在这之后的字能够率会是什么），而非事实逻辑。

因此假定咱们的语料中出现了大批的“星期三”，模子就会合计“星期”二字之后能够率应该是“三”，是以如若输入“2025年4月32日是星期”，模子会输出“三”，哪怕4月其实并莫得32日。同理，如若语料中出现大批的“1+1=3”，那么输入“1+1=”模子也会输出3。

这种基于概率的输出机制使得模子并不追求说话的 “正确性”，而是把柄所学语料追求说话的“连贯性”。因此会出现模子的说话抒发连贯天然但与事实不符的征象，也便是幻觉。

模子真是“智能”吗？目下咱们联结了模子的实质是通过大限度数据测验酿成的概率掂量系统，那这作为着实的智能吗？我合计不算。天然“智能”到底应该怎么界说是一个重大的形而上学问题，但一个智能的个体至少应该能够联结因果，并哄骗因果关系措置现实问题。而模子从海量的数据中真是学到了因果吗？彰着不是，它只学到了字词共同出现的概率。

那为什么目下的大模子看上去如斯智能？因为语料充足多，质地充足好，模子缱绻充足复杂，这使得目下的大模子如实太像一个着实智能的个体了，像到如实不错用来措置好多问题了。但即便如斯，其概率掂量系统的实质决定了它不可能发展为联结因果关系的终极智能系统。

伏笔回收之二：模子的token采样战略

回到输入“外卖小”后模子的输出这个例子，咱们之前假定模子此时对每个token的输出概率如下

如若采选“把概率最高的token作为本次输出”的采样战略，那模子天然会输出“哥”字。而现实当中通常不会给与这个战略，而是用一个叫作念“温度”（temperature）的参数来适度模子的输出要按照多猛进度偏移概率最高的token。

如若温度为0，那么模子就会长期按照它从测验语料中习得的最有可能与面前输入共同出现的token作为输出。这种情况下不管咱们输入几许次“外卖小”，模子输出齐是“哥”。此时的模子具有较强的准确性。

如若把温度训诫，模子就可能从其他token里选一个作为输出，温度越高越有可能。这种情况下咱们屡次输入“外卖小”的话有可能第一次是“哥”，第二次是“姨”，第三次又是“妈”，第四次又是“哥”。此时的模子具有较强的创造性。这亦然为啥咱们即便屡次输入相同的内容给大模子，每次回答齐不相同的原因之一。（其他原因有用户所用的开采不同、地点不同、时辰不同。这些信息天然不在咱们的prompt中，但app会自动上传给大模子以优化其回答）

因此，如若app内不错调控这个参数的话（比如下图里Google的AI Studio），对于一些条目准确性强的任务，如法律文献生成，不错将温度调低，让模子忠于语料中学到的字词共现法例，不要虚构握造法律条规。而对于条目创造性的任务，如诗歌生成，则不错将温度适应调高。

复盘一下，咱们学到了什么

天然说话的序列性和高下文关连性是两大挑战。这条目模子具备系念才略。

天然说话处理实质亦然在对数字进行加减乘除。咱们输入的一句话会先被切分红多个token，每个token会经过独热编码和词镶嵌最终成为模子可处理的一串数。模子对这些数进行加减乘除后就不错达到预期的成果。

RNN便是将一个神经元轮回联结构成的收集，这种收集具有系念。一个神经元只干矩阵相乘这一件事，当咱们把这么的神经元轮回联结后，终末一个神经元的输出会兼顾之前总共的输入，是以RNN具有系念。

给定一句话，让模子续写这事儿叫文本生成，测验文本生成模子需要准备宽敞语料对。每个语料对体现的是哪些字词会共同出现，模子便是通过学习这种共现法例来生成文本的。

模子基于序列末尾的几个字轮回掂量下一个字，逐字彭胀直至完成文本生成。这是模子之是以一个字一个字往外蹦以及有时候会健忘用户之前输入内容的原因。

模子产生幻觉的根蒂原因在于其基于概率的输出机制。不管大模子如故 RNN，这类说话模子齐通过学习语料中字词的共现法例来生成输出。在测验进程中，数据被分割为 “输入→输出” 的语料对，模子通过统计法例掂量给定输入后的下一个字，实质是在最大化说话的连贯性而非正确性，因此会出现幻觉。

大模子也好，小模子也罢，齐不是着实的智能。模子的实质是一个统计了语料间字词共现法例的概率掂量系统，它并未联结语料中包含的信息，并不睬解因果，更不可哄骗因果。目下的大模子如实很像一个智能的个体，像到了真是不错用来措置现实问题的进度，但它依旧不是世俗兴致的智能。

“温度”是导致模子对于沟通输入的回答不一致的原因之一。温度为0，模子则长期按照概率最大的token进行输出。温度越高，模子偏移概率最大的token进行输出的可能性越高。除此以外，app还会上传用户所用开采、所在的位置、时辰等信息供大模子参考，也会导致沟通prompt下大模子输出不一致。

宽待来到1997

RNN天然在20世纪80年代就已被提议，但碍于其梯度消成仇爆炸的固有问题（即收集一朝变长，通过反向传播就无法灵验诊疗模子参数）现实应用特殊受限。直到1997年Sepp Hochreiter和Jürgen Schmidhuber提议的短经久系念收集（LSTM）才透顶措置了这个问题，使得RNN被大批应用于天然说话处理。ChatGPT的早期版块、苹果Siri、亚马逊Alexa齐是其具体应用。

是以这里以RNN的第二诞辰来恭喜你对大模子学问的联结来到了1997年。此时距离DeepSeek-R1发布还有28年。

趁机提一下，RNN由于可并行计较的部分有限，因而不可在大限度数据集上通过GPU测验，是以目下照旧不怎么流行了。拔帜树帜的是给与了RNN的念念想，总共计较齐可并行的，下一篇著作就会提到的，目下大模子广阔给与的，大模子基石——Transformer。

AI Heroes

LSTM发明者——Sepp Hochreiter涵养

赋予RNN第二次人命的LSTM。RNN在出身之初由于梯度消成仇爆炸问题导致模子一朝过长便无法灵验测验，因此无法处理较长的序列数据。这个问题在1997年由Sepp Hochreiter和Jürgen Schmidhuber发表的《Long Short-Term Memory》中被透顶措置，他们对RNN的纠正在于引初学控机制和系念单元，完毕了对信息的采选性存储与渐忘，使得 LSTM 在处理长序列时能够褂讪地传递梯度，灵验捕捉经久依赖。一个LSTM神经元长这么：

比咱先容的只作念了一次矩阵乘法的RNN神经元复杂多了，而且看上去像只草履虫哈哈哈

Sepp Hochreiter，IEEE 2021年神经收集前驱奖赢得者。Hochreiter现任奥地利林茨大学不时所长处，2021年赢得 IEEE 神经收集前卫奖以赏赐他在LSTM规模的首创性孝敬，该奖项被视为神经收集规模的最高荣誉之一。

xLSTM，makes RNN great again。2024年5月Hochreiter团队推出的了xLSTM（eXtendedLSTM），旨在措置目下以Transformer架构为主的大模子（如DeepSeek）计较支拨大的问题。

Transformer架构的计较支拨与文本长度呈正常增长关系，而xLSTM在处理长文本时只需增多相应数目的神经元，因此计较支拨仅为线性增长。在模子测验上xLSTM克服了传统LSTM的并行计较瓶颈，完毕了与Transformer相等的并行化测验才略。在最终成果上，xLSTM在同等参数目下，长序列任务性能显耀优于Transformer，尤其在说话建模和及时场景中困惑度更低、内存效率更高，硬件适配性更强，适应工业部署；但在代码生成、多模态交融等结构化任务中仍弱于Transformer，需依赖搀杂架构均衡方法与并行才略。对于那些推理计较量浩大和需要快速反映的场景，xLSTM 无意是值得热心的一条时间阶梯。

连气儿创业者。

2017 年Hochreiter 创立奥地利东谈主工智能高档不时所（IARAI）并担任首任长处，鞭策 AI 在交通、动力等规模的应用，举例开发及时交通掂量系统，减少城市拥挤。2024年其不时所孵化了一家名叫NXAI的科技公司，针对特定行业（如汽车、医疗）定制 AI 措置决策2025年孵化Emmi AI，专注于通过其中枢时间xLSTM 模子为制造业和动力行业提供轻量化、高效力的 AI 措置决策。

“他以轮回为针脚，将闹翻的字符织入时辰的经纬，让昨天的字节得以亲吻来日的比特”

——跋文

本文由 @夜雨念念晗原创发布于东谈主东谈主齐是家具司理。未经作家许可，谢却转载

题图由作家提供

该文不雅点仅代表作家本东谈主老师足交，东谈主东谈主齐是家具司理平台仅提供信息存储空间作事

下一篇：欧美三级片整治损失行政职权排斥、摈弃竞争市集监管总局开展专项步履

色哥哥

老师 足交 从0构建大模子学问体系（3）：大模子的祖先RNN

老师足交从0构建大模子学问体系（3）：大模子的祖先RNN