国产精品自拍亚洲-国产精品自拍一区-国产精品自拍在线-国产精品自拍在线观看-亚洲爆爽-亚洲不卡一区二区三区在线

18世紀(jì)的貝葉斯定理如何統(tǒng)治人工智能

2025-07-03 15:50

你是不是也感覺——AI 越來越像人了?

它能理解你的問題、給你建議,甚至還能陪你聊天談心;

大模型(LLM)不僅在說話,簡直是在思考。

但你有沒有想過:這些模型為什么像人類一樣“思考”?

是因?yàn)閿?shù)據(jù)多了?參數(shù)大了?算法復(fù)雜了?LLM背后的邏輯如果用一句話總結(jié),應(yīng)該是——LLM 背后其實(shí)是利用了一個(gè) 18 世紀(jì)的“人類思考公式”:貝葉斯定理(Bayes’ Theorem)

貝葉斯定理是以18世紀(jì)英國數(shù)學(xué)家和神父托馬斯·貝葉斯(Thomas Bayes)的名字命名的,是一種用于更新我們對(duì)某個(gè)事件發(fā)生概率的方法。通俗地理解,你可以將其比作一種“修正”或“調(diào)整”我們的信念。

假設(shè)你有一個(gè)關(guān)于某件事情發(fā)生概率的初始猜測(cè),這個(gè)猜測(cè)可能是主觀的、基于經(jīng)驗(yàn)的、或者是先驗(yàn)知識(shí)。然后,當(dāng)你獲得新的信息或證據(jù)時(shí),你可以使用貝葉斯定理來重新評(píng)估你的初始猜測(cè),得到一個(gè)更準(zhǔn)確的估計(jì)。

每次我們面對(duì)不確定的事物做出決策時(shí)——一直以來我們都是這樣做的——都可以利用貝葉斯定理來判斷該決策在多大程度上算是個(gè)好決策。

事實(shí)上,無論是怎樣的決策過程,無論你為了實(shí)現(xiàn)某個(gè)目標(biāo)對(duì)世界產(chǎn)生了多大的影響,無論你掌握的信息多么有限,無論你是正在尋找高濃度葡萄糖環(huán)境的細(xì)菌,是正在利用復(fù)制行為傳播遺傳信息的基因,還是正在努力實(shí)現(xiàn)經(jīng)濟(jì)增長的政府,只要你想把事情干好,你就離不開貝葉斯定理。

AI(人工智能)本質(zhì)上也是貝葉斯定理的一個(gè)具體應(yīng)用。

從最基本的層面來說,AI 所做的事情就是“預(yù)測(cè)”。一個(gè)可以分辨貓狗圖像的 AI 應(yīng)用,本質(zhì)上就是在根據(jù)過往的訓(xùn)練數(shù)據(jù)和當(dāng)前的圖像信息去“預(yù)測(cè)”人類對(duì)圖片的判斷。DALL-E 2、GPT-4、Midjourney 等各種優(yōu)秀的 AI 應(yīng)用,正在以令人應(yīng)接不暇的速度一次次沖擊人們的認(rèn)知。

不過,這些和你談笑風(fēng)生、為你生成高質(zhì)量圖像的 AI,本質(zhì)上也是在做預(yù)測(cè),只不過它們預(yù)測(cè)的是人類作家、人類藝術(shù)家面對(duì)這些提示詞時(shí)會(huì)如何作答。這些預(yù)測(cè)行為的基礎(chǔ)都是貝葉斯定理。

AI 本質(zhì)上是在不確定的情況下做出抉擇。谷歌的密碼學(xué)家保羅·克勞利告訴我:“如果你懂貝葉斯理論,你就會(huì)發(fā)現(xiàn) AI 在最基本的層面上用到了大量貝葉斯思想。”

現(xiàn)代的那些 AI 神經(jīng)網(wǎng)絡(luò)存在大量節(jié)點(diǎn),這些節(jié)點(diǎn)就像大腦中的神經(jīng)元一樣。AI 會(huì)在學(xué)習(xí)過程中為不同的節(jié)點(diǎn)鏈接賦予不同的權(quán)重,從而加強(qiáng)或削弱各節(jié)點(diǎn)之間的關(guān)聯(lián)程度。

保羅·克勞利表示:“AI 內(nèi)部有一套評(píng)分機(jī)制,權(quán)重體系越復(fù)雜,它的得分就越低,反之就越高。如此一來,我們就能迫使它盡量采用更簡單的假說,而不是更復(fù)雜的假說,這看上去完全就是貝葉斯思想;其先驗(yàn)概率就是建立在奧卡姆剃刀原則之上的。進(jìn)行完整的貝葉斯計(jì)算需要耗費(fèi)大量算力,所以現(xiàn)代這些 AI會(huì)盡量使用算力需求較低但性能表現(xiàn)并不會(huì)遜色多少的簡化算法。”

不管怎么說,貝葉斯思想都是 AI 的基本原理之一。“大多數(shù)現(xiàn)代AI 系統(tǒng)的基本思想都是貝葉斯定理,因?yàn)樗鼈冴P(guān)心的都是不確定情況下的推理方法”。

事實(shí)上,有一種 AI 算法就叫“貝葉斯機(jī)器學(xué)習(xí)”,它的整個(gè)構(gòu)架都在模仿貝葉斯定理。

假定現(xiàn)在有一個(gè)非常簡單的 AI,它的任務(wù)是識(shí)別老鼠、狗、獅子的圖片。如果是十幾年前,這種 AI 足以令人感到震撼,但放到今天來看,它簡直太普通了(其實(shí)就在 2017 年,我為第一本書的創(chuàng)作而四處走訪時(shí),AI 能夠?qū)⒇埞穮^(qū)分開來還是一件非常新奇的事。至于現(xiàn)在,你只需要掏出自己的智能手機(jī)就可以做到這一點(diǎn),它甚至可以在幾分之一秒內(nèi)將照片庫中的狗狗、嬰兒、海灘等類別的照片全部給你篩選出來)。

理論上來說,它的工作方式是這樣的:

你“喂”給 AI 幾百萬或幾千萬張分別標(biāo)好“老鼠”“狗”“獅子”的圖片,讓它利用這些“已標(biāo)注數(shù)據(jù)”進(jìn)行訓(xùn)練,然后它就會(huì)以某種方式反復(fù)學(xué)習(xí)數(shù)據(jù)。學(xué)習(xí)完成之后,你需要再拿幾張它沒見過的圖片(“測(cè)試數(shù)據(jù)”)進(jìn)行測(cè)試,此時(shí)它會(huì)根據(jù)自己的學(xué)習(xí)經(jīng)驗(yàn)對(duì)這些測(cè)試圖片做出最佳猜測(cè),并給這些圖片分別標(biāo)上“老鼠”“狗“獅子”的標(biāo)簽。

AI 的這種學(xué)習(xí)方式就是所謂的“監(jiān)督學(xué)習(xí)”。它所干的事情,就是預(yù)測(cè)“那些喂給自己學(xué)習(xí)數(shù)據(jù)的人類”會(huì)給新圖片標(biāo)上什么標(biāo)簽。”

當(dāng)然,我們也可以用貝葉斯思想去解釋這一過程,二者幾乎是一樣的:在看到某張圖片之前,這個(gè) AI 可能會(huì)主觀地認(rèn)為這是一只獅子的先驗(yàn)概率為 1/3,即 p ≈0.33。看到圖片之后,也就是得到新信息之后,它會(huì)將這一概率更新為 p=0.99,或其他什么數(shù)字。先驗(yàn)概率、似然比、后驗(yàn)概率。

我們可以更具體一些。現(xiàn)在我們將情況進(jìn)一步簡化,把上面的例子看成一張圖,圖上面有一堆數(shù)據(jù)點(diǎn)。此時(shí) AI 的任務(wù)是分析圖像,然后找到一條能夠穿越這些數(shù)據(jù)點(diǎn)的最佳擬合直線。事實(shí)上,我們根本不需要強(qiáng)大的 AI 來干這種事,因?yàn)檫@只是線性回歸而已,高爾頓那個(gè)年代的統(tǒng)計(jì)學(xué)家就可以輕松解決這一問題。不過原理是一樣的。

假定這些數(shù)據(jù)點(diǎn)表示的是人們的鞋碼與身高——你隨機(jī)抽取了一大群人,測(cè)量了它們的身高和鞋碼。圖上 X 軸表示的是鞋碼,Y軸表示的是身高。通常來說,這些數(shù)據(jù)點(diǎn)會(huì)分布在左下至右上的區(qū)域附近。

AI 的任務(wù)就是找出這些數(shù)據(jù)點(diǎn)的最佳擬合直線。當(dāng)然,你也可以憑感覺來畫,但我們最好采用一個(gè)已經(jīng)相當(dāng)成熟的方法,即最小二乘法。在圖上畫一條直線,然后測(cè)量每個(gè)數(shù)據(jù)點(diǎn)和這條直線的垂直距離,這一距離就是“誤差”。將每個(gè)點(diǎn)的距離,也就是誤差,取平方值(平方是為了讓所有數(shù)都是正數(shù)),然后將所有平方值加總,得到平方和。

我們的目標(biāo)就是找到能讓平方和達(dá)到最小值的直線,即每個(gè)數(shù)據(jù)點(diǎn)的平均距離最短的直線。

這些數(shù)據(jù)點(diǎn)可以視為 AI 的訓(xùn)練數(shù)據(jù),而這一過程也用到了貝葉斯思想。首先,圖上分布著一條直線,代表著寬泛的先驗(yàn)概率。然后我們?cè)趫D上加入了數(shù)據(jù)點(diǎn)——代表數(shù)據(jù)。之后這條直線會(huì)根據(jù)數(shù)據(jù)而移動(dòng),得出后驗(yàn)分布。最后這條直線又會(huì)成為下一批數(shù)據(jù)的先驗(yàn)分布。

假如你現(xiàn)在知道一個(gè)人的鞋碼是 11 號(hào),想用它預(yù)測(cè)這個(gè)人的身高,那它就會(huì)用最小二乘法畫出一條最佳擬合直線,然后讀取橫坐標(biāo) 11 所對(duì)應(yīng)的縱坐標(biāo),這個(gè)縱坐標(biāo)就是 AI 對(duì)身高的最佳猜測(cè)。它有多大把握,取決于訓(xùn)練數(shù)據(jù)有多少,以及訓(xùn)練數(shù)據(jù)有多分散。數(shù)據(jù)越分散,把握就越小。

當(dāng)然,這只是 AI 最基本的原理,實(shí)際上它們要比這復(fù)雜得多,涉及的參數(shù)也不會(huì)只有鞋碼、身高,而是成千上萬個(gè),但基本思路是一樣的。所有 AI 都需要大量的訓(xùn)練數(shù)據(jù),然后根據(jù)某些參數(shù)去預(yù)測(cè)另一些參數(shù)的值。

目前為止,我們一直假設(shè)這條線是直線,其實(shí)真實(shí)情況下它更可能是曲線。如果 Y 軸表示的是“新冠病毒感染者的全球病例數(shù)”,X 軸表示的是“時(shí)間”,起始時(shí)間是 2019 年 11 月,那么最符合實(shí)際情況的應(yīng)當(dāng)是條指數(shù)曲線,因?yàn)椴±龜?shù)量每隔幾天就會(huì)翻一番。有的時(shí)候,最佳擬合曲線會(huì)長得像英文字母 S 或 J,也可能是一條正弦曲線,或其他什么形狀的曲線。當(dāng)然你可以讓 AI 一直依照直線去模擬,但大多數(shù)情況下這并不是一個(gè)好的選擇:這會(huì)導(dǎo)致這條線“欠擬合”。

同樣,你也可以讓 AI 變得極為復(fù)雜,這樣它就會(huì)畫出一條七扭八歪的、完美穿過每一個(gè)數(shù)據(jù)點(diǎn)的曲線,此時(shí)誤差的平方和等于0。雖然看起來很美好,但這很可能無法反映出數(shù)據(jù)背后的真實(shí)情況。出現(xiàn)新數(shù)據(jù)時(shí),這條七扭八歪的曲線很可能距離新的數(shù)據(jù)點(diǎn)相去甚遠(yuǎn),因?yàn)檫@條線已經(jīng)變得“過擬合”了。

由此可見,問題的關(guān)鍵在于 AI 應(yīng)當(dāng)在多大程度上去擬合曲線,這種程度就是自由度。自由度有點(diǎn)像前兩節(jié)中的“超參數(shù)”——除了最佳擬合曲線這個(gè)問題,我們還應(yīng)當(dāng)關(guān)心一個(gè)更高層次的問題,即這條曲線應(yīng)當(dāng)有多“扭曲”。AI 對(duì)這些參數(shù)的先驗(yàn)判斷就是它的超先驗(yàn)。通常情況下,在其他情況都相同的情況下,AI 會(huì)在兩條線中選取更簡單的那條。還記得嗎?在講奧卡姆剃刀原則的時(shí)候我們?cè)岬剑覀円獧?quán)衡假說的簡單程度和符合程度,AI 也需要做這種權(quán)衡。

醫(yī)用 AI 在試圖分辨癌癥的掃描結(jié)果時(shí),ChatGPT 在試圖仿照《英王欽定本圣經(jīng)》中描寫的一個(gè)男人努力取出電視機(jī)里的三明治的情節(jié)時(shí),都用到了貝葉斯思想。它們都在根據(jù)訓(xùn)練數(shù)據(jù)生成先驗(yàn)概率,然后用這些先驗(yàn)概率預(yù)測(cè)未來的數(shù)據(jù)。

雖然貝葉斯定理不是萬物理論,但實(shí)際上也差不多了。一旦你開始站在貝葉斯定理的視角去看待問題,你就會(huì)發(fā)現(xiàn)貝葉斯定理真的是無處不在。

熱新聞