最近,我時常在社交媒體看到形形色色的“野史段子”。盡管這類內容早已是互聯網上的“固定節目”,但是,和許多傳來傳去、在歷史討論圈早已“包漿”的老梗相比,最近我看到的這類內容,明顯出現了大規模的“升級創新”,一方面出現了許多前所未見的新內容,另一方面在翔實程度、細節水平上也有很大“提高”。
從“明朝使臣質問帖木兒為何不進貢”,到“錢大鈞槍擊軍統湖北站副站長”……乍看之下,這些直戳網民“爽點”的說法既生動又有趣,配圖配字、煞有介事,有時還會附帶原始出處和參考文獻。然而,簡單查證之后不難發現,這些說法要么憑空編造,要么對史實有著嚴重曲解,而其列出的“出處”和“文獻”,同樣是子虛烏有的存在。更讓人吃驚的是,當我嘗試向某些AI工具問詢這些內容時,它們居然給出了一本正經的解釋,仿佛這些內容不是段子,而是信史的一部分。
當前,這種現象早已不是孤例,以至于引發了學界的關注。近日,知名歷史學者于賡哲便在微博上吐槽:“歷史粉圈就是善于曲解史料,自嗨,中文語料庫就這樣被污染了,AI搜到之后常把這類東西作為信史,這才是現在值得擔憂的。”在這條微博的轉發區,另一位研究者也提到:“最近聽朋友說,已經發生過幾次,‘聰明的’本科生用AI寫歷史類畢業論文,結果里面的史料是AI編的。”
問題的關鍵,不在于AI偶爾會編造或弄錯一些信息,而在于這一整套路徑正在形成一個令人擔憂的閉環:人編-AI潤色-網傳-AI吸收-AI輸出-人再信。編造者為吸引眼球而生發內容,平臺靠互動和流量放大傳播,AI模型將其納入語料,再輸出給用戶形成“答案”,最終被更多人采信、引用,甚至寫入正式文本。這個循環一旦建立,虛假信息便完成了“洗白”,很難再被非專業人士辨別出來。
更麻煩的是,AI生成內容的“可信感”來自其表述形式,而不是真實可靠的資料來源。很多人之所以會相信這些內容,是因為它語義連貫、語氣肯定、措辭準確,看上去“像是對的”。但AI的本質是模式識別與語料拼接,它并不具備對歷史真偽的判斷能力。如果訓練語料中摻雜了太多未經驗證乃至純屬杜撰的內容,那么輸出的文本再“合理”,也可能是在傳遞謬誤。正如計算機領域的那句名言:“Garbage in, garbage out”(輸入是垃圾,輸出就是垃圾)。
這一問題的長期影響,無疑值得正視。與現實新聞不同,歷史話題的可驗證性較差,普通大眾很難判斷這件事到底有沒有發生過。而當虛假內容一再重復,甚至出現在AI搜索結果或論文生成中,它所帶來的認知偏差也會更深更持久。
而相較于現實中的虛假信息,人們對“歷史段子”的警惕心理往往弱得多。很多人覺得,歷史本就久遠復雜,真假難辨;就算段子不是真的,只要有趣,未嘗不可。甚至有觀點認為,能激發大眾對歷史的興趣就行,不必太糾結于真實性。這種看法表面上輕松,實則忽視了此類亂象的長遠影響。
我們為什么必須對歷史語料污染保持警惕?因為歷史不是段子的素材庫。歷史是一種社會共同記憶,是國家敘事、文化認同、價值傳承的基礎。如果我們默認“野史娛樂”可以無限延伸、無須考證,甚至讓AI將這些誤導內容當成正史加以再生產,最終結果將是公共認知的系統性滑坡。一代人不查出處,下一代可能就找不到真正的出處了。今天當成笑話看,明天可能就成了“事實依據”被寫進演講稿、考試題、紀實類視頻,乃至AI生成的教輔書中。
更現實的問題是,當AI工具成為越來越多用戶獲取知識的第一入口時,它的語料污染就意味著認知污染。而這一污染不是單點式的,更像是系統性下沉:段子替代文獻,主觀代替證據,想象替代考證。這種趨勢一旦普遍化,不僅會影響學習者、寫作者的判斷力,也會挑戰史學研究與教育本身的權威性和信任度。
應對這一問題,既需要技術介入,又需要制度建設。平臺方和模型訓練者應建立明確的內容篩選標準,對歷史領域的語料設定更高的可信度門檻,避免流量導向主導內容輸入。同時,教育和研究機構也要主動介入AI語料體系的建設,而不能只是事后辟謠。
普通用戶在使用AI工具獲取歷史信息時,也要培養基本的判斷力。別輕易相信那些“聽起來很真”的內容,更不要把AI說的當作唯一答案。歷史不怕被討論,怕的是未經驗證的“復制-放大-再信任”。只有當我們意識到AI參與創建“知識閉環”的風險,才有可能打破這個“閉環”,重新找回自己獲取專業知識的“認知自主權”。
來源:中國青年報 作者:楊鑫宇