大學生不考試啦，那未來怎么評價？

經濟觀察報關注 2025-08-06 19:24

編者按

近期，多所“雙一流”高校紛紛啟動對績點制度的調整與改革。復旦大學已引入“P/NP”成績機制，允許部分課程不計入績點；南京大學、華中科技大學、上海財經大學、中國人民大學等高校，也在逐步弱化績點排名的權重，推動以“去量化”“去內卷”為導向的學業評價變革。2025年7月26日，北京大學宣布自2025級本科生起取消績點（GPA）制度，成為近年來改革力度最大的高校之一。

作為一個長期高度依賴績點的教育體系，這一系列變化不僅是對教學管理細節的微調，更標志著高校對“唯分數論”的反思正在從邊緣走向主流。績點制度的松動，不只是技術性的修修補補，它所觸及的，是教育預設的根基。

在本文中，胡泳追問：分數究竟是什么？我們為何如此依賴它？從“績點制改革潮”出發，他引導我們重新理解學習的意義，思考一種可能的“無分數”學習想象。

文/胡泳

評分制度是現代教育最突出的特點之一。在成千上萬間教室中，評分早已成為普遍接受的教育常規。這一制度的“自然性”，堪比教科書的使用、學生按課桌排列的方式，或教師的在場——它們都是“學校教學語法”（grammar of schooling）的一部分。從小學年級到高等研究生項目，教師每周要花大量時間批改作業和考試，學生為分數而焦慮，不斷比較彼此的成績，家長則以各種方式表達對孩子分數的關注乃至焦慮。

上過學的中國人幾乎都熟悉一句順口溜：“考考考，教師的法寶；分分分，學生的命根。”考試與分數，似乎在整個教育過程中都是天經地義的存在。那么，讓我們首先提出一個看似簡單的問題：“分數究竟是什么？”

一、分數是什么？

從最基本的層面來看，成績是教師用來評估和報告學生表現的一種方式。通常，它以分數（0到100分）和相應的字母等級（A至F，通常不包括E）的形式呈現。例如，考試得了89分，那么對應的成績就是B+。成績已成為青少年時期極為重要的一部分，以至于我們發明了“平均績點”（GPA）這樣的指標，用一個看似精確的數字來表達學生的學業表現，方便他人快速評判。

這種評分制度可追溯至1785年，當時耶魯大學校長埃茲拉·斯泰爾斯（Ezra Stiles）將畢業班學生分為四個等級：“最優者”（optimi）、“次優者”（second optimi）、“較差者”（inferiors）和“最差者”（pejores）。可以說，成績制度在美國教育體系中由來已久。

如今，成績已成為幾乎所有美國學校作出學生相關決策的主要依據。無論是升班還是留級，抑或是學生應進入何種課程層次（如大學預科課程、榮譽課程或大學先修課程AP），都取決于成績。很多高中通過成績計算GPA和學生排名，而高校在錄取過程中，也通常將成績作為篩選學生的重要標準之一。

與青少年時期許多轉瞬即逝的事物不同，成績具有持久而深遠的影響：一旦被記錄，便成為決定未來成功的關鍵機制。中學、大學，乃至雇主，都通過這一機制評估個體的學術成就。想要讓父母滿意、考上大學、獲得獎學金、找到好工作——無論目標是什么，你都需要拿到好成績和高分。

正因如此，人們很容易將“成績”視為一種既定且不可避免的存在——仿佛它自古如此，而對其歷史起源與演變過程缺乏認識。結果是，盡管成績本身存在諸多局限性，各相關方卻很少對其提出批判性反思與質疑。

然而，成績并非一直存在于美國的教育體系中，全球也不必照搬其做法。成績制度并不總是以相同的形式出現，也并非始終服務于同樣的目標或產生一致的影響。因此，重新探討“分數”究竟為何存在，有助于我們更批判性地理解當下評分制度的地位，并進一步思考：成績是否真的必要？它的功能與作用是什么？其效用與潛力又如何？

考慮到這些問題所能帶來的啟發，令人驚訝的是，歷史學界對這一主題卻鮮有關注。若要厘清成績的起源、設定目標以及其為何演變為今日模樣，有必要將其置于教育發展史的更廣闊背景中加以考察。

早期的美國評分系統深受歐洲模式影響——以持續競爭、獎勵機制和名次排序為核心，服務于教學目的。但隨著強制性大眾教育的引入，情況發生了根本性變化。大眾教育將學校置于一個日益受復雜官僚體制主導的社會中心，其中也包括教育體制本身。

那些原本偏向本地化、個性化、用于教師與學生家庭之間溝通的評分系統，開始承擔起外部溝通與系統組織的職能。教育從業者日益將成績視為構建教育體系的工具，而不僅僅是教學手段——評分制度逐漸被賦予了“學習成果的通用語言”這一功能。

隨著19世紀末美國教育改革者努力構建全國性教育體系，評分制度逐漸從教學工具轉變為組織管理工具，用于促進學生流動、學校溝通和系統協調。尤其是在1899年美國大學入學考試委員會（即今天的大學理事會）成立后，這一趨勢更為明顯。推動標準化評分的目的，是使各大學不僅重視班級排名，還能基于統一標準判斷成績：不同學校的A等成績應具有可比性。教育改革者強調，評分系統必須具備快速解讀的特性，具備抽象性與標準化形式的特性。評分制度由此成為教育官僚化進程中的關鍵技術之一，是教育量化的主要手段，也是學生分類的核心機制。簡而言之，評分制度可以被視為現代主義的一種重要體現。

當然，并非所有人都將成績制度視為無可指摘。事實上，許多教育者曾對成績帶來的影響表示擔憂，特別是它對課程設置與教學活動的干擾。一位名叫I.E.芬克爾斯坦（I.E. Finklestein）的教育者曾指出：“當我們考慮到幾乎所有教育機構都普遍使用某種分數系統——無論是數字還是字母——來表示學生的學業成就，并且當我們看到師生雙方都對這些分數作為真實成就的指標抱有極大信任時，我們不禁對這一評分系統可靠性的盲目信任感到驚訝。學校管理者一直自信地使用著一種完全沒有校準的工具……”

1918年，經濟學家托斯丹·凡勃倫（Thorstein Veblen）批評道：“學術評分和學分制度……不可抗拒地將越來越多的教學實踐扭曲為機械化的測試，同時不斷扼殺所有在其范圍內出現的個人主動性與抱負。”著名教育思想家約翰·杜威（John Dewey）在20世紀初的大量著作中也強調，學生應以主動探索與真實體驗為學習核心，而非被動接受標準化評分主導的教學模式。

盡管存在上述批評，教育政策制定者仍不斷推進其系統建構的目標，追求教育的客觀性與統一性。這一努力貫穿整個20世紀。隨著學校數量增加及多個國家引入義務教育，對標準化進步衡量方式的需求推動評分制度廣泛流行。

尤其是在大學，GPA制度作為量化學業評價機制，在全球高等教育中被廣泛采用。它具有顯著優勢，也存在結構性弊端。到了2025年，我們所處的世界早已不同于19世紀。那么，我們是否已經需要重新探索一種更全面、更包容、更契合當代需求的評估體系？

二、評分制掏空教育的靈魂

評分制度的設立有兩個主要目的：激勵學生，以及評估其理解程度。但實際上，它在這兩個方面都適得其反。評分制度不僅鼓勵無意義的任務，扭曲學生的學習動機，同時也無法有效評估其真實的理解水平。

如今，在大學課堂上，無論是什么學科，教師往往必須設計一系列“可評分”的作業來支撐課程的存在；而學生則將時間投入到那些可以快速獲取分數的任務上，而非那些真正蘊含“活的思想”的作業內容。我多年的教學經驗表明，學生對成績的關注程度越來越高。他們走進課堂，思考的已不再是這門課能帶來什么知識或思維方式，而是它是否容易通過、作業是否簡單、老師是否給分寬松。符合這些條件的課程往往成為學生爭搶的“香餑餑”。“水課”泛濫、刷績點成風，分數至上的心態引發激烈內卷。功利性的學習不僅令學生疲于奔命于機械任務之中，也悄然掏空了教育的靈魂。

評分制度還往往加劇學生之間不健康的競爭。“你考了多少分？我是不是比你高？”這類比較屢見不鮮。高GPA成了保研、出國、申請獎學金的通行證，也催生了越來越多的學術不誠實行為。圍繞成績的焦慮不斷累積，教學也被深刻裹挾：教師被動迎合評分標準，以考試為導向進行教學；學生則采取死記硬背、揣摩出題人思路、制定應試策略等方式進行學習。實際上，在這個根深蒂固的體系中，我們真正衡量的，往往不是“學習本身”，而是“考試成功的能力”——這兩者并不等同。

另一個令人擔憂的問題是，學生被簡化為一個單一的數字。教育系統日益忽視每位學生獨特的個性，因為每個人都被納入一個標準化的工業化框架，按照統一的變量加以篩選和評判。GPA這種量化機制難以準確反映學生的學習風格、興趣取向、潛在能力及成長軌跡。

成績單并不是引導學生走向知識盛宴的“胡蘿卜”，它本身反倒成了教育的全部焦點。分數讓學生誤以為，知識本身并不值得追求。于是，他們像驢子追著胡蘿卜一樣奔跑——奔向的不是知識，而是成績。唯有拆除這套虛假的腳手架，真正的學習動機才有可能生長出來。

一旦擺脫由分數驅動的激勵誤區，學生的注意力就將回到更有意義、也往往更具挑戰性的學習任務上。相應地，教師也必須設計出內容本身足夠有價值的作業，而不是依賴分數去驅動學習意愿。最終，教師以什么吸引學生，學生就會依托于什么。如果能打破從小被灌輸的“獎賞機制”，學生將獲得真正的學習自由，遵循內在的標準前行，而這種內在標準往往比獲得“A”等級所要求的更為嚴格。唯有好奇心與內在驅動力，才能真正培養出優秀的學習者，而不是靠操控與計分來塑造所謂“優等生”。

要真正討論評分的問題，必須區分“成績”和“評估”這兩個概念。評估應該是一種反饋機制，其目的是幫助學生了解自己當前所處的水平，并引導他們朝向更深的理解或更高的掌握水平前進。評分并不總能做到這一點，而評估應該做到。值得一提的是，“評估”（assessment）一詞源于拉丁語 assidere，意為“坐在旁邊”。這正是評估的本義：陪伴學生，觀察其理解程度——他們知道什么、不知道什么——并據此判斷他們需要什么。有時，成績也可以提供類似信息，但很多時候，學生根本不知道成績意味著什么。它只是一個相對于班級平均水平的數字，而非指引他們接近知識與真理的坐標。

同樣，我們也應區分“挑戰”與“壓力”這兩個概念，它們并不總是同步出現。學生在自愿接受的挑戰中，往往能夠超越自我；而在被迫接受的任務中，卻難以實現同樣的效果。在學生尚未發展出學習興趣之前，學業焦慮便已將他們推入被動的學習狀態。多數學生并非因為對未來的憧憬或對知識的熱愛而學習，而是出于一種對“差成績可能帶來災難”的模糊恐懼。從恐懼出發，固然在短期內可能有效，但它扼殺了真正的學習之源。

三、問題出在哪？

從歷史發展的軌跡來看，最終是“評分派”占據了上風。人們普遍接受“打分”作為常態，并轉而爭論“最有效的評分方法”應當是什么。教師不僅將分數視為有效的激勵工具，隨著教育體系的擴張和高校數量的增長，成績也逐漸成為最實用的交流語言。許多家長堅信，學校對兒童和青少年最重要的教育成果，體現在那張成績單上。

然而，批評聲音始終未曾消失，既有呼吁重建學生內在動機的傳統觀點，也有聚焦學生福祉的新興思潮——因為越來越多的年輕人因成績不佳而焦慮，甚至陷入沮喪與抑郁。

當學生成績優于同儕時，會不會感到自豪？當成績落后時，又是否會感到羞恥？這些感受絕非瑣事。在情緒層面，它們令人筋疲力盡，并可能在日常生活中帶來巨大的心理壓力；在現實層面，它們影響大學錄取、職業機會乃至財務穩定性。成績已成為影響學生身體與心理健康的重要變量。

隨著學生厭學情緒日益加重，我們仿佛回到了原點。教育正面臨一項根本性挑戰：是否要徹底取代評分制度？在過去一個多世紀里，人們始終在“主觀反饋”與“客觀評分”之間搖擺。然而，那些在歷史上試圖摒棄評分制度所暴露的問題至今仍未解決：我們該如何比較不同學生的學習水平？畢竟，大學錄取體系本身就是圍繞成績設計的。那么，教師呢？在班級人數龐大的情況下，教師又如何既評分又為每位學生提供充分反饋？

這正是圍繞評分制度辯論的核心所在：學生、教師、家長，甚至大學招生官，實際上根本無法確切理解一個字母成績——這個被我們視為學生學校生活核心指標的評估體系——究竟意味著什么。比如，一個“A”是否真能代表學生完全掌握了歷史課的內容？一個“C+”是表示學生“差不多”理解了數學知識，還是說他其實是個數學高手，只是未能按時提交作業？

困惑源于評分標準的缺乏統一。事實上，即使在同一所學校中，教授同一門課程、面對同一年級的教師之間，也往往沒有一致的評分標準。這就造成了所謂的“成績迷霧”——我們搞不清一個“A”或“C+”到底意味著什么，因為一個字母常常被賦予了太多彼此無關、甚至互相沖突的信息。

不同教師之間，評分方式的差異巨大。幾乎每位老師對作業、課堂表現、小測驗和考試的權重都有不同處理方式。一個學生可能在考試、小測驗和課堂討論中展現出對知識的扎實掌握，但仍然不及格，僅僅因為作業權重設定過高，而他在這方面總是遇到困難。這種情況顯然是不公平的，也揭示了加權評分體系之間存在的巨大差異——它直接影響一個學生是否被視為“成功”，哪怕他已掌握課程的核心內容。

有的老師將作業納入評分，有的則完全不計；有的為作業打分，有的只看是否完成；有的教師將大型測驗設為關鍵權重，有的則不然。學校難以統一教師的評分方式，而普通學生往往也無從理清這些差異。此外，是否應將“非學術因素”計入評分也一直存在爭議，比如最常見的“遲交作業”。將學生行為納入成績，其實是試圖強加一種狹隘的“成功學生”標準，這無疑扭曲并削弱了成績本應具有的客觀性。

對學生而言，這增加了他們的認知負擔。他們不僅要理解課程內容，并在學術上取得高分，還需應對一個并不總是透明的評分體系。對教師而言，評分同樣困難，尤其是在學生面臨升學與擇業壓力的情況下。例如，兩個分數之間的微小差距，往往難以真正體現學生在理解力或掌握程度上的本質區別。許多時候，打分不過是一種形式化操作，難以捕捉學習的真實狀態。

四、構建一種新系統

在21世紀，我們是否仍應接受“評分”作為衡量學生學習成果的主要方式，并努力讓其更加客觀？還是應該探索一種無需評分的知識表達與溝通機制？值得注意的是，根據前文的歷史溯源，評分系統其實并不“古老”，而是在相對較短的時間內迅速建立的。幾乎整個現代評估體系與大學錄取標準，都是在第二次工業革命期間構建起來的。

評分制度的“新鮮性”恰恰是我們必須重新審視它的重要原因之一。一個制度若建立得足夠久遠，往往容易被當作理所當然的慣例；反之，越是近代的制度，就越值得我們去拆解、質疑，并重新建構。

那么，如果取消成績，研究生院或雇主又該如何區分學生？事實上，成績在這方面的作用本就有限。在當下普遍存在的“成績膨脹”現象中，高分已難以有效區分學生差異。一些高校設置“課程優秀率不超30%”，迫使教師在評分時人為控制分布，進而影響評分公正性。同時，為了配合GPA體系及“優秀率”限制，教師往往傾向于打出“安全分”，這限制了教學的靈活性與個性化發展。正因如此，研究生院和企業早已將注意力轉向學校聲譽、課外經歷等更能體現學生綜合素質的因素。

總體而言，“打分”對孩子的影響并不積極：成績不佳者會因挫敗而失去動力，而成績優異者往往也只是為了追求一個與“學習”本身無關的外在目標。久而久之，習慣低分的學生開始懷疑學校的意義，進而放棄努力；而那些總拿“A”的學生，則可能因一次未能滿分而陷入焦慮。

這些現象與真正的“學習”毫無關系。學生不再關心自己哪里做得好、哪里需要改進，也不關心課程內容本身。他們只關心一個分數——這是典型的“外在動機”。而我們的目標，應是重建“內在動機”——那種出于好奇心與自我驅動的學習渴望，這是終身學習的源泉。

當外在動機被過度使用時，反而會造成傷害。入學之初，孩子們興趣廣泛，但不久后他們便學會只關注“考試會不會考”，因為考試之外的內容“不值分”。已有大量研究表明：分數削弱了學生對學習的興趣，至多只能以錯誤的理由激勵成績好的學生。

與分數掛鉤的外在動機還會增加學生的心理壓力，甚至引發不健康行為，如完美主義、焦慮乃至身心癱瘓。它還可能讓學生徹底放棄某個領域：“我數學考了C，所以我不擅長數學。我不是這方面的人，也就不需要再努力了。”

如果我們的目標是讓每一位學生都參與學習并獲得成長，那么給他們一個“你不夠好”的分數，無異于適得其反。這會摧毀學生自我提升的動機，反而拉大表現優異者與落后者之間的差距。成績差的學生因缺乏激勵而愈加掉隊，成績好的學生則繼續保持領先。

更關鍵的是，那些成績優秀的學生，也未必真正“做得好”。他們可能成績亮眼，卻同時面臨嚴重的焦慮、社交困難、身心健康問題，對課堂之外的事務漠不關心。典型的“全A”學生早已被這個系統吞沒：他們做被要求做的事，滿足被規定的標準，為了升學制定緊張的時間表，卻不再知道自己為何而學，結果是失去想象力，也失去了方向感。最重要的是：他們并不快樂。

今天的評分系統還面臨一個全新的挑戰——學生使用AI進行作弊，這暴露出教育制度與技術演進之間的摩擦。例如：用AI自動生成論文或作業，用AI潤色繞過語言評估，用AI解題完成編程作業，甚至通過“提示工程”偽裝原創內容以規避檢測。對此的回應不應僅限于“禁止”，而應從根本上重新設計評價機制與學習動機體系。比起問“如何阻止學生使用AI作弊”，更該追問：“他們為何要作弊？”而“追逐高分”正是答案的一部分。

我們亟須重新設計一個新的評價體系。這種體系應當涵蓋學習日志、課堂參與、團隊協作等多維要素，強調“過程性評價”而非結果導向；在評分方式上，推廣以“等級制”結合“敘述性評語”的模式，避免精細化的數值排名，轉而強調個性化反饋與成長性導向；同時，應構建動態更新的“能力畫像”，通過電子檔案記錄學生在不同情境中的真實表現與成長軌跡，從而更全面地反映其學習能力與潛力；此外，還應弱化甚至取消GPA的排名功能，正如北京大學的改革所體現的那樣，其核心目標在于打破“績點至上”的迷思，推動教育回歸“以學習者為中心”的本質。

在斯坦福大學，某些課程已嘗試以個性化反饋取代打分。每位學生每周與助教進行一次討論，針對作業進行修改，這類反饋以及教授的書面回應，才是真正促進學術成長的方式。教師也因此擺脫了“會計”或“警察”的角色，回歸教學本質。

大學改革勢在必行。只要高校招生仍以成績為中心，高中階段就難以擺脫其束縛。幸運的是，一些美國高中已開始系統探索新的模式。例如：允許低分學生重做作業，強調“學習”本應不是懲罰，而是掌握內容的過程，無論嘗試多少次。

有的學校甚至只設置兩個等級：“掌握”和“進行中”，給予學生無限次機會達到熟練程度。傳統評分系統是一種一次性定論，而更好的方式則允許反復嘗試，使學習成果與努力過程更加匹配。

歸根結底，問題不在于我們是否應廢除評分制度，而在于我們是否愿意重新思考它，并重新設計評價邏輯，使其更真實地回應當代社會和個體發展的實際需要。每所學校都應從自身語境出發，開啟這場反思；而那些深陷于數字與排名迷思的大學，也該重新理解“評分”的意義。唯有如此，評價才能真正以學習者為中心，服務于成長。

北京大學的績點改革具有重要象征意義。它不僅打破了一種制度慣性，更挑戰了一整套教育文化的預設。真正的改革，不止于取消某項指標，而在于重新提出：什么是學習的價值？什么是評價的正義？誰有權定義成功？未來的高等教育改革，應以此為契機，在制度、文化與實踐之間搭建橋梁，讓“多元評價”不僅是一種技術手段，更成為面向人的教育哲學。

免責聲明：本文觀點僅代表作者本人，供參考、交流，不構成任何建議。