"序言:漢密爾頓(Alexander Hamilton),麥迪遜(James Madison),還是杰伊(John Jay)?
《聯邦黨人文集》 為美國走向民主打下基礎,其中有十二篇文章的作者未明,歷史學家們?yōu)榇藸幷摿艘话傥迨嗄辍1M管這些文章在美國史的語匯中是世人皆知的標志性作品,但每一篇的作者究竟是誰卻一直是團疑云。哪一位開國元勛撰寫了這些篇章?這個問題激起了無盡的爭論,后來甚至成了歷史學家聚會時客廳里一個廣為流行的猜謎游戲。美國的治國框架建立在這些振奮人心的論述之上,可到底是誰寫下了這些文章呢?
答案隱藏在文章的詞語中,但要找到這些詞語,學者們無須精讀文本,只要細細地數一下數。他們所要看的只是數字。
疑云始于1787年末,當時紐約的報紙刊登了一系列鼓吹新憲法的文章,用的筆名是普布利烏斯(Publius,源自古羅馬執(zhí)政官Publius Valerius Publicola)。用一個具有愛國含義的筆名來隱藏自己的身份似乎有點可笑。實際上,在當時美國近四百萬居民中,只有三個人才有資格進入這場關于作者身份爭議的角逐。
漢密爾頓,麥迪遜和杰伊撰寫了這些文章這在當時是一個公開的秘密,但三個人都不想站出來承認寫過哪些特定文章。他們都有自己的政治抱負,后來分別升任財政部長、總統(tǒng)和最高法院首席大法官,所以他們有充足的理由隱藏自己的作者身份。但他們過分的謹慎留下了難以攻破的疑云,在之后的時日中,同時撩動著歷史教授和熱心的業(yè)余愛好者的神經。
你也許會以為,當時的學者和精明政客應能確定作者是誰。畢竟只有三個潛在的候選人,每人都有自己的政治傾向,交流表述的風格也各不相同。如果放在今天,這個問題可能相當于《紐約時報》刊登了一篇匿名社論,執(zhí)筆者可能是奧巴馬、希拉里或桑德斯,也可能是小布什、麥凱恩或特朗普,我們或許可以分辨出作者來自哪個陣營(前三人是民主黨,后三人是共和黨),但肯定無法準確落實到某個人身上。
時間來到1804年,答案似乎終于浮現。漢密爾頓給他的朋友本森(Egbert Benson)寫了一封信,信中列出每一篇文章的作者。當時漢密爾頓正準備與美國副總統(tǒng)伯爾(Aaron Burr)決斗 ,突然意識到了《聯邦黨人文集》的重要歷史意義,也明白自己可能無法從決斗中生還。最終,他決定不讓這些答案隨他一同逝去。
疑云本應就此告終,全國上下關注此事的人沒有理由懷疑漢密爾頓的第一手信息。但十三年后,麥迪遜在結束他的第二個總統(tǒng)任期后不久列出了他的著作清單,與漢密爾頓當年所說有出入。其中,漢密爾頓認領的十二篇,麥迪遜聲稱是他的作品。
此事點燃了群眾的新一波熱情,歷史學家們?yōu)榇擞譅幊沉艘粋多世紀。1892年,洛奇(Henry Cabot Lodge,后擔任參議員)為此問題著文,贊同漢密爾頓的說法,而著名歷史學家伯恩(E. G. Bourne)則認為那十二篇文章的作者是麥迪遜。
大多數歷史學家試圖根據每篇文章的政治理念進行梳理,確定作者麥迪遜真的會用那些措辭主張設立中央銀行?漢密爾頓會如此直接地支持針對國會的限制?也許這一篇是杰伊寫的?
直到兩個世紀以后的1963年,問題才最終得以解決。兩位受人尊敬的教授哈佛大學的莫斯特勒(Frederick Mosteller)和芝加哥大學的華萊士(David Wallace)給出了明確的答案。然而,與之前試圖解決這個問題的許多教授不同,兩人并非歷史學家,不以早期美國學術研究工作聞名,甚至從未發(fā)表過一篇關于歷史人物的論文。莫斯特勒和華萊士都是統(tǒng)計學家。
莫斯特勒最為人矚目的一篇論文是關于美國職業(yè)棒球大聯盟總冠軍賽的,他在論文中提出:從統(tǒng)計學的角度來看,七場比賽是否能夠決出最好的棒球隊。在著手研究十二篇文章著作權的前幾年,華萊士也發(fā)表過一篇論文,題目是《T分布和卡方分布的正態(tài)近似界限》。聽上去很難以置信吧?有人想用概率方程解決歷史難題,1963年的歷史學教授大概會認為這是一派胡言。
莫斯特勒和華萊士所用的方法與政治或意識形態(tài)無關,他們只是首批利用詞頻和概率展開研究的統(tǒng)計學家。
他們解決問題的過程在某些方面較為復雜,比如采用了含有階乘的方程、指數、求和、對數以及T分布,但核心方法卻是驚人的簡單:
根據確定是漢密爾頓或麥迪遜所寫的文章,分別統(tǒng)計某些常用詞出現的頻率。
在需要進行研究的文章里統(tǒng)計相同詞匯出現的頻率。
通過比較上述兩個頻率,確定爭議文章的作者。
事后回頭看,即便不使用那些玄妙的概率方程,兩位統(tǒng)計學家的研究結果似乎也是顯而易見的。《聯邦黨人文集》里麥迪遜的文章中,超過一半文章使用了whilst這個詞,但從未用過while。相反,漢密爾頓大約三分之一的文章中使用了while,但從未用過whilst。
莫斯特勒和華萊士并不是只依靠一個詞的分析,從統(tǒng)計學上來講那樣做是不充分的。他們選擇了幾十個基本單詞,然后在有爭議的文章中觀察每個詞的使用頻率。許多詞沒有任何政治含義,兩位不同作者的使用率竟然出現明顯的不同。比如,麥迪遜用also這個詞的頻率是漢密爾頓的兩倍,而漢密爾頓使用according的頻率則比麥迪遜高很多。
莫斯特勒和華萊士采用的方法具有可證偽性 。研究結果表明,如果在已知作者身份的文章中使用相同的方法,他們可以準確無誤地識別作者。而對于那些有爭議的文章,他們得出結論:麥迪遜是十二篇文章的實際作者 。
在總結研究結果時,也許擔心惹惱一代又一代苦惱不已的歷史學家,兩位數學家的立論和措辭十分謹慎,但展示的數字卻毫不含糊,兩人對自己的統(tǒng)計方法有十足的信心。所有已知作者身份的文章的測試分析都毫無瑕疵,作者未明的文章也與其一致。由此得出最終結論,漢密爾頓所言為虛,那十二篇文章的作者并不是他。
經過無數統(tǒng)計和非統(tǒng)計的研究后,莫斯特勒和華萊士的分析結果(麥迪遜是作者)已經成為目前統(tǒng)計學家和歷史學家們的共識。他們超前于所處的時代,他們的研究雖然涉及一些復雜公式,但本質上還是依靠的統(tǒng)計統(tǒng)計。如果是今天,通過計算機統(tǒng)計單詞和頻率是件簡單的小事,但在1963年,情形卻并非如此。
當時統(tǒng)計單詞是靠手工完成的。比如,要找出每一篇文章中upon出現的次數,他們得一頁頁、一個個地找出來。為了感受和理解莫斯特勒和華萊士(至少是他們的研究助理)都經歷了什么,我打印了一本完整的《聯邦黨人文集》,開始數upon這個詞出現的次數。三十分鐘后,我只進展到全文的八分之一,在大約四十頁里有三十七個upon。沒過多久,我的眼皮狂跳,腦子發(fā)木Upon在哪里?這種痛苦就像在漫漫人海中尋找某張人臉。
活在1963年實在有些辛苦,最后我放棄了,轉而采用二十一世紀的技術進行計數:我打開谷歌,搜索聯邦黨人文集完整文本,點進第一個搜索結果進行下載,再用Microsoft Word打開文件。兩分鐘后,我選定部分內容,再使用菜單里查找命令,隨后發(fā)現Upon出現了四十六次。借助電腦后,不僅在速度上快了二十八分鐘,而且結果遠比疲憊的肉眼來得準確。
再找一個詞匯結果也還是一樣,一個人瀏覽一遍《聯邦黨人文集》全文的時間在四小時左右,電腦所需時間幾乎可以忽略。不管是莎士比亞文集、《圣經》、《白鯨》,還是英語文學集,對當時的莫斯特勒和華萊士來說,進行類似的分析是無法想象的難題。現在情況就完全不一樣了,在電腦上統(tǒng)計某個單詞在大部頭文本里出現的次數,絕大多數十來歲的青少年皆可輕松完成。
莫斯特勒和華萊士公布研究結果的五十年后,電腦的文本輔助功能發(fā)展迅速。谷歌在其搜索結果中運用文本分析,以此決定對哪些用戶投放哪些廣告。目前還有研究人員試圖用文本分析進行判斷,是什么原因讓一條Twitter像病毒一樣傳播。媒體也經常對同類型的內容進行措辭上的細微調整,以期實現頁面瀏覽量的最大化。但是到目前為止,這些科技公司對文本分析的應用還比較單一,它還有更大的可能性。
莫斯特勒和華萊士使用的統(tǒng)計方法雖然比較簡單,但實驗獲得的成功卻產生了深遠的影響。作家們確實有各自的風格,而且是可以進行預測的。事實證明,留下個人風格印記的不僅僅是十八世紀的政客,所有書籍的作者無論廣受歡迎遠近聞名,還是晦澀難懂飽受批評都在數十年的寫作中不斷重復自己的遣詞造句,這便是他們留下的印記。
莫斯泰勒和華萊士提出的問題和作出的解答雖有一定局限性,但文本分析確實可以回答各種各樣的問題,那些讓一代代作家和讀者感到疑惑的問題:相比其他作家,海明威真的更少使用副詞嗎?書籍的閱讀難易程度對其受歡迎程度有什么樣的影響?男性和女性作家的寫作方式有何不同?作家提出的創(chuàng)作建議有用嗎?他們自己會遵循那些建議嗎?除了一些明顯不同的拼法問題,還有什么原則可以用來區(qū)分美國小說家和英國小說家?從納博科夫到E.L.詹姆斯(E. L. James) ,我們喜歡的作家喜歡用的詞是什么?
雖然學術界已經開始研究成功作家的寫作模式,但仍有許多問題有待探索。對普通讀者、主修文學的大學生以及野心勃勃的作家來說,這些問題既有趣又有用。你可能不關心泊松分布 ,也不在乎解讀語言的程序,但你也許想知道自己最喜愛的作家是如何寫作的,以及這對你來說可能意味著什么。
用數據分析來研究寫作不僅妙趣橫生,還能提供豐富的信息,有時也會非常搞笑。此外,我們也能借此了解平時閱讀的作家,思考我們自己寫作時使用的詞句,這一切正是本書要深入探討的。在這本書里,每一章都專注于一個文學新問題的研究。
這些研究并不會達到令人痛苦的復雜地步。實際上,只要具有真正價值,研究無須也不應那般復雜。關于經典文學或現代暢銷書的許多有趣問題是可以通過統(tǒng)計的透視鏡來觀察的,但針對這些問題的統(tǒng)計分析尚未形成體系。本書將用一種嶄新的方法來攻克這些簡單而獨特的問題。這是一本關于文字的書,但卻是用數字寫成的。
"