2017年6月30日 星期五

新書面世:大數據的傲慢與偏見

2017630
原文書名:Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy
作者:凱西.歐尼爾(Cathy O’Neil
出版日期:2017629


這本書內容十分有趣,原書名直譯為「數學毀滅性武器」,是將大數據年代普遍應用的數學模型(演算法)比作是「大規模毀滅性武器」(weapons of mass destruction, WMDs)。
作者將本書獻給弱勢者。她顯然非常在意演算法加劇不平等的問題,這一點她在本書結語中講得很清楚:
//在這趟虛擬的人生旅程中,我們到訪了中小學和大學、法院和職場,甚至還有投票站。一路上我們看到了數學毀滅性武器造成的破壞。它們承諾促進效率和公平,但扭曲了高等教育、加重人們的債務負擔、促使國家囚禁大量人口、幾乎一有機會便打擊窮人,而且還損害民主。由此看來,合理的做法是逐一消除這些數學毀滅性武器的殺傷力。
問題是它們環環相扣,互相配合。窮人比較可能得到較低的信用分數,住在周遭都是窮人的高犯罪率社區。邪惡的數學毀滅性武器一旦掌握這些資料,便會向這些窮人不斷放送掠奪式廣告,誘使他們申請次級貸款或報讀營利至上的學店。這些系統也會派出更多警察去逮捕犯法的窮人,並在他們罪名成立時判處較長的刑期。這些資料會提供給其他數學毀滅性武器,而它們將斷定這些人風險較高(又或者是容易掠奪的目標),進而限制他們的就業機會,同時提高他們的房貸和汽車貸款利率,以及你想得到的每一種保險的保費。這會進一步壓低這些人的信用評等,製造出一種致命的惡性循環。在數學毀滅性武器的世界裡,當一名窮人正變得愈來愈危險,必須付出愈來愈高昂的代價。//
本書雖然是講數學模型的應用問題,但不涉及難懂的技術細節,所以一般讀者都看得懂。以下摘錄本書引言的一個案例,從中可以看到數學毀滅性武器的一些特質:
//2007年,華盛頓特區新市長芬提(Adrian Fenty)決心改善該市表現不佳的學校。他的計畫大有道理:當時在華盛頓特區,九年級之後每兩名高中生只有一名能順利畢業,而八年級學生數學成績達到該年級標準的只有8%
當時當局的想法是這樣的:學生學得不夠,是因為老師沒做好教學工作。因此在2009年,當局推行一個方案,目的是開除表現最差的一批教師。這是全美各地有問題的學區的一個趨勢,而站在系統工程的角度,這種想法極有道理:教師的表現必須接受考核,表現最差的教師必須離職,表現出色的老師則應放在他們可以發揮最大作用的位置。採用數據科學家的說法,這麼做可以「優化」學校系統,而這理應可以改善學生的成績。除了「壞」老師,誰會質疑這種做法呢?當局開發出一套名為IMPACT的教師評價系統,然後在2009-10學年結束時,華盛頓特區將表現最差的2%教師全部炒掉,翌年再炒掉5%的教師(206人)。
教五年級的韋索奇(Sarah Wysocki)看來完全不需要擔心。她在麥法蘭中學(MacFarland Middle School)只是教了兩年,但已經得到校長和學生家長非常好的評價。有人稱讚她很關心學生,還有人說她是「我見過的最佳教師之一」。
但是,2010-11學年結束時,IMPACT系統給韋索奇打了一個很差的分數。問題出在一個名為「增值模型」(value-added modeling)的新評分系統,該系統的目的是測量她教數學和語言技能的表現。增值模型由一種演算法產生分數,而該分數占她得到的總評價一半,結果完全抵銷了學校主管和學生家長對她的好評。因為韋索奇的IMPACT總分數達不到最低標準,華盛頓特區教育局只好炒掉她(另有205名教師因此失去教職)。
韋索奇看來不像是被迫害或遭報復。事實上,教育當局的做法有其道理。畢竟學校主管可能是壞老師的朋友,可能喜歡他們的作風或表面上的熱忱。壞老師確實可能裝得很像好老師。因此,一如許多其他地區,華盛頓特區決定盡可能防止人的偏見影響老師得到的評價,而辦法是倚重客觀數據:學生的數學和閱讀測驗分數。教育官員表示,數字將說明一切,而這是比較公平的做法。
韋索奇當然覺得她得到的分數極度不公平,而她希望知道分數是怎麼來的。她後來對我說:「我想沒有人明白那些數字。」一位好老師怎麼可能得到那麼差的分數呢?增值模型是在測量什麼?
嗯,韋索奇發現,事情相當複雜。華盛頓教育當局請了紐澤西州普林斯頓的數學政策研究(Mathematica Policy Research)當顧問,負責建立教師評價系統。該組織必須解決的難題,是測量華盛頓特區學生的學習進度,然後估算學生成績之進步或退步多大程度上是拜老師所賜。這當然不容易。學者知道,學生的成績受許多因素影響,包括學生的社經背景,以及學生是否有學習障礙。評價教師的演算法必須顧及這些差異,而這也是這些演算法變得非常複雜的原因之一。
估算一名教師一個學年下來對某些學生產生多大的影響,是相當複雜的事。韋索奇表示:「教與學的過程受很多因素影響,要一一測量是非常困難的。」此外,藉由分析25名或30名學生的測驗成績來替一名老師的教學表現評分,在統計學上是不可靠的,甚至是可笑的。因為出錯的可能性非常多,這樣的樣本規模實在太小了。
同樣重要的是,統計系統需要回饋:如果系統脫離了常軌,系統管理者必須藉由某種方式了解情況。統計學家利用失誤的情況調整他們的模型,力求模型變得更「聰明」。如果沒有回饋,統計系統可能持續產生錯誤而且有害的分析,而且一直無法從自身的錯誤中吸取教訓。
數學政策研究設計的評分系統認定韋索奇和另外205名教師為失敗者,教育當局便開除他們。但這個系統如何知道自己的判斷是否正確呢?它不會知道。系統本身認定這些人是失敗者,當局於是認定他們是失敗者。206名「壞」老師被開除了。光是這事實似乎便證明增值模型非常有效,因為這顯示華盛頓特區正在清除表現不佳的教師。系統不尋找真相,分數本身便代表真相。
韋索奇得到的評分低得驚人,但她找不到一個可以向她解釋原因的人,這件事本身很能說明問題。數學毀滅性武器產生的結論,有如演算法神祇發出的命令。模型本身是個黑箱,其內容是相關業者極力保護的商業機密。顧問公司如數學政策研究因此得以收取較高的費用,但這還有另一種作用:相關業者認為,如果被評價的人不知道自己得到的評價是如何產生的,他們比較不會試圖鑽系統的漏洞。他們將只能努力工作,遵守規矩,然後祈求系統懂得欣賞他們的努力,給予好評價。但是,如果細節不公開,人們也將較難質疑或抗議系統產生的評價。
儘管如此,韋索奇清楚知道,學生的標準測驗分數是評價系統考慮的一個關鍵因素,而她懷疑這當中有問題。她任教於麥法蘭中學的最後一年開始前,她很高興看到她將教的五年級生在上一學年的標準測驗中表現意外出色。她的許多學生來自巴納德小學(Barnard Elementary School),而該小學高達29%的學生閱讀成績被評為「高級」,是學區平均值的五倍。
但是,學期開始後,她發現許多學生連閱讀簡單的句子都有困難。頗久之後,《華盛頓郵報》和《美國今日報》的調查發現,該學區內41間學校(包括巴納德小學)的標準測驗答案卷擦改的比例相當高,而這意味著這些學校測驗作弊的可能性較大。在當中一些學校,高達70%的班級有作弊的嫌疑。
這與數學毀滅性武器有何關係?容我一一說明。首先,教師評價演算法是改變教師行為的有力工具。這正是這些演算法的目的,而在華盛頓特區的學校,它們既提供獎勵,也準備懲罰表現不佳的教師。教師知道,如果學生在標準測驗中表現太差,他們可能飯碗不保。教師因此有強烈的誘因確保學生在測驗中取得不錯的成績,尤其是在2008年金融危機後經濟大衰退打擊就業市場的情況下。在此同時,如果他們的學生表現出色,教師和學校主管有望獲得高達8,000美元的獎金。 如果你考慮這些強大的誘因和相關證據(許多學校的答案卷擦改比例相當高,學生測驗分數也異常高),你會有理由懷疑四年級的教師出於恐懼或貪婪,竄改了學生的答案卷。
我們因此有理由相信韋索奇所教的五年級生上一學年的測驗分數,因為有人做了手腳而被人為推高了。果真如此,他們本學年結束時的測驗成績將使他們看起來顯著退步了,而他們的老師將因此被視為表現不稱職。韋索奇確信這正是她遇到的情況。這理論符合家長、同事和校長對她的評價(也就是她確實是個好老師),也可以解開疑惑。韋索奇有很好的理由提出申訴。
但是,你無法向數學毀滅性武器申訴。這正是這種武器威力驚人的原因之一。它們不聽人講話,也不會屈服。它們不但不理會你的討好、威脅或誘騙,也不會聽你講道理──即使它們用來推出結論的資料顯然很有問題。沒錯,如果自動化系統顯然因為系統問題而不斷出錯,造成令人尷尬的情況,程式設計師確實會調整演算法。但在多數情況下,這些程式將產生堅定的判斷,而運用它們的人遇到有人抱怨時,只會聳聳肩,就像是說:「嘿,要不可以怎樣?」這恰恰是韋索奇最終從學區官員那裡得到的回應。
你看到這當中的矛盾了嗎?某個演算法處理了一些數據,估算出某個人不適合聘用、將會借錢不還、將參與恐怖活動或教學表現不稱職的機率,然後根據該機率算出一個分數,而該分數可能令當事人的生活天翻地覆。當事人試著反擊時,「很有意思的」反證無法證明自身清白,因為當局僅接受確鑿的證據。我們將一再看到,在證據標準這一點上,當局對數學毀滅性武器受害者的要求,遠高於對演算法的要求。
韋索奇對自己遭開除震驚不已,但她僅失業數天。 因為很多人(包括校長)願意替她的教學表現作證,她很快便在維吉尼亞州北部某富裕社區一間學校找到了教職。因此,拜一個非常可疑的模型所賜,貧窮社區的學校失去了一名好老師,富裕社區一間不會根據學生的分數開除教師的學校,則得到了一名好老師。//