梁晨:從學生學籍卡到量化歷史研究
發(fā)布時間:2020-06-23 13:28:00
各位老師、同學,大家好!很榮幸受付老師邀請,來到華中師大與諸位相互交流學習。今天我想討論的主題是怎樣做量化歷史數(shù)據(jù)庫,以及怎樣開展相應(yīng)的研究。 大約三年前,付老師就和我們討論,考慮將量化歷史數(shù)據(jù)庫的建設(shè)與研究方法推廣到華中師大。當時,國內(nèi)學界剛剛開始注意量化數(shù)據(jù)庫研究,而現(xiàn)在,你們已經(jīng)開設(shè)了大數(shù)據(jù)歷史基地班,真正推動著大數(shù)據(jù)歷史研究人才的培養(yǎng),這是很有眼光的。我個人認為,在今天這個時代,歷史學家做研究,除了傳統(tǒng)的歷史學功底外,一些新技術(shù)方法的應(yīng)用也不應(yīng)忽略。實際上,技術(shù)應(yīng)用不僅對研究很重要,對人才培養(yǎng)也很關(guān)鍵。20世紀90年代中期以來,全球高等教育界都出現(xiàn)了一個現(xiàn)象,即人文學科的影響力明顯降低,很多學生不再對人文學科的學習有興趣。甚至像哈佛這樣的全球最頂尖高校,它的文理兩科,包括基礎(chǔ)人文學科,一直是引以為傲的資本,但50年來以人文學科為主業(yè)的學生比例從近40%下降到了20%。全美的這一比例則從14%下降到了7%。同樣,國內(nèi)也有類似現(xiàn)象。為什么社會對歷史學這樣的人文學科的認可度降低了?這里面當然有很多原因,但其中之一還是認為歷史學學習的內(nèi)容太過“空虛”,缺少足夠的技術(shù)內(nèi)涵,不利于學生在就業(yè)市場上的競爭??梢?,加強相關(guān)技術(shù)的教育與培訓,對歷史學科吸引和培養(yǎng)人才也很重要。
我們還注意到一個有趣的現(xiàn)象,即當選擇歷史專業(yè)的學生在普遍減少的同時,一種新的大規(guī)模歷史量化數(shù)據(jù)庫的構(gòu)建和研究卻蔚然成風,歷史材料對多學科發(fā)展的貢獻大為提升了。這種歷史大數(shù)據(jù)庫最早開始于人口學研究,主要是利用人口普查和大規(guī)模調(diào)查構(gòu)建起量化數(shù)據(jù)庫。比如美國人口中心創(chuàng)建的“公共微觀整合數(shù)據(jù)庫”(Integrated Public Use Microdata Series,IPUMS)。微觀數(shù)據(jù)(Microdata)指人口抽樣調(diào)查和人口普查等包含的個人層面(Individuallevel)信息。這些富有學術(shù)價值的個人基本信息,如性別、年齡、婚姻、家庭狀況、職業(yè)和出身等,廣泛存在于全世界各國,內(nèi)容和形式高度一致,適合連綴成超大數(shù)據(jù)庫,進行國際比較研究,是新社會史和經(jīng)濟史研究的關(guān)鍵。歷史學家是除統(tǒng)計機構(gòu)外最早使用微觀數(shù)據(jù)進行研究的學者。從1998年起,IPUMS首席科學家Robert McCaa先后說服了100多個國家的統(tǒng)計機構(gòu)與IPUMS合作,將彼此的數(shù)據(jù)庫連接起來并免費用于學術(shù)研究。目前,IPUMS包括19世紀以來多個國家,也包括中國第三次(1982年)、第四次(1990年)人口普查微觀數(shù)據(jù)。數(shù)據(jù)還在不斷增長,最明顯的是從18世紀開始到20世紀中期的以數(shù)字抄本為基礎(chǔ)的歷史人口微觀數(shù)據(jù)。2018年,IPUMS的數(shù)據(jù)總量擴展到了20億人次記錄。盡管建成初期,學界對這些數(shù)據(jù)庫的利用、研究甚少,但從20世紀90年代中期以后,研究與利用迅速增加,取得了許多重要成果。以包括IPUMS在內(nèi)的國際五大量化數(shù)據(jù)庫而言,在20世紀90年代之前的20年里,僅有零星的發(fā)表援引相關(guān)數(shù)據(jù)庫。這可能是因為這些數(shù)據(jù)庫本身還在建設(shè)初期甚至尚未開始,很多內(nèi)容和方法需要完善,其學術(shù)價值仍有待開發(fā)。進入90年代,尤其是1995年以后,情況發(fā)生了巨大轉(zhuǎn)變。2006—2010年的五年,索引五個數(shù)據(jù)庫的新增學術(shù)發(fā)表已經(jīng)達到2360余篇。盡管這些學術(shù)成果中有很大一部分都是來自IPUMS所包含的當代人口統(tǒng)計數(shù)據(jù),但是如果我們只統(tǒng)計三個純歷史微觀數(shù)據(jù)庫,即BALSAC、HSN和SEDD,其貢獻的新增學術(shù)發(fā)表在2006—2010年也達到117篇,且近20年的增速與五個數(shù)據(jù)庫總貢獻發(fā)表數(shù)的增速幾乎一致。受此影響,國際史學界正在興起構(gòu)建大型個人層面量化數(shù)據(jù)庫的風氣。最近十幾年里,一些側(cè)重東亞研究的歷史學者和研究團體也意識到,像西方學術(shù)界構(gòu)建與使用的這些與人口、社區(qū)等相關(guān)的量化史學數(shù)據(jù),其原始材料在中國或東亞地區(qū)存在的要早得多和廣泛得多。因此,一些東亞地區(qū)的歷史人口微觀數(shù)據(jù)庫陸續(xù)得以建立,如美國學者李中清(James Z. Lee)、康文林(Cameron Campbell)從20世紀80年代起,前后花費了20多年時間,建立了基于八旗戶口冊和清代皇室族譜資料的中國多代人口數(shù)據(jù)庫系列(China Multi-Generational Panel Data Series,CMGPD)。該系列數(shù)據(jù)庫包含遼寧、雙城和皇族三個子數(shù)據(jù)庫,其中前兩個已經(jīng)在ICPSR網(wǎng)站上對全球?qū)W界免費公開。遼寧數(shù)據(jù)庫涵蓋了1749—1909年遼東地區(qū)26萬人的150余萬條記錄。雙城數(shù)據(jù)庫涵蓋了1866—1913年黑龍江雙城縣10萬人的130余萬條記錄,并嘗試與不同時段的家戶地畝資料相連接。這些大規(guī)模、長時段的微觀歷史數(shù)據(jù)包含了豐富的人口和社會經(jīng)濟信息,且同時具有時間上的深度和空間上的廣度,對人口統(tǒng)計學、家與家族、親屬關(guān)系、社會分層與流動、衛(wèi)生健康等多個學術(shù)研究領(lǐng)域有重要價值。同時,以上介紹的這些量化數(shù)據(jù)庫基本都以歷史數(shù)據(jù)為主,但絕大部分研究并不集中在歷史學領(lǐng)域,反而在其他學科,比如經(jīng)濟學、健康醫(yī)學以及地質(zhì)學等學科。所以,在今天這個時代,歷史學本身的價值不僅沒有降低,反而是提升了,關(guān)鍵是我們要提升自我的研究方法。當然,量化歷史數(shù)據(jù)庫的構(gòu)建與研究,特別強調(diào)技術(shù)方法要適用于歷史材料,而不是相反。在目前的技術(shù)條件下,確實存在一些材料和問題更適合使用這種研究方法,而另一些材料或問題則還不能很好地用這種方法來展開研究。一般來說,系統(tǒng)化、結(jié)構(gòu)性的歷史材料更適合開展量化歷史數(shù)據(jù)庫的構(gòu)建與研究。就中國傳統(tǒng)官方文獻而言,至少有三類非常適合。第一,歷代戶籍材料。一般而言,中國自周朝就形成了國家性的戶籍制度,秦統(tǒng)一后逐漸形成規(guī)模,經(jīng)三國及南北朝時期的調(diào)整,隋唐后已經(jīng)非常完備。這個過程中,戶籍登記材料也逐漸完善與累積,明代以來的黃冊更是蔚為壯觀。這些連續(xù)長達2000多年的戶口材料是數(shù)據(jù)庫與定量研究的最好素材。第二,與戶籍材料相伴隨的歷史同樣悠久的土地及財產(chǎn)占有與分配登記材料。從戰(zhàn)國以來,中國土地制度經(jīng)歷了從井田制、屯田制、均田制、府兵制、均稅法、一條鞭法、攤丁入畝到現(xiàn)代“土改”的多次調(diào)整,但每個新制度下,對土地數(shù)量丈量、歸屬權(quán)益的明確以及相關(guān)賦稅的負擔都有龐大記錄,這一重要材料一樣非常適合數(shù)據(jù)庫化研究。第三,至少自隋唐以來,考試(考核)就成為中國社會選拔精英人才的重要方式,歷代皆有數(shù)量驚人的科考或官員銓選材料,這些材料歷時長,系統(tǒng)化程度高,是不可多得的量化數(shù)據(jù)庫素材。不過,隨著技術(shù)發(fā)展,尤其是海量史料的數(shù)字化處理和數(shù)字文獻內(nèi)容抓取技術(shù)的發(fā)展,非結(jié)構(gòu)、分散化史料的系統(tǒng)收集和數(shù)據(jù)構(gòu)建也在逐漸成為可能,這也是我們團隊最新研究項目試圖嘗試的方向。另外,一些傳統(tǒng)認為比較難以量化研究的領(lǐng)域,如思想史、文化概念史等研究,其實也早就有一些量化數(shù)據(jù)庫的開放和不錯的研究成果。例如原先任職于香港中文大學的金觀濤教授就建立了一個近代思想史數(shù)據(jù)庫。他主要是把大量報紙文獻上的文章輸入電腦,釋放海量的文獻,然后以詞頻的方式來做研究。這個方法,其實有點類似于大家使用計算機在圖書館檢索關(guān)鍵詞。他后來分析這個詞語在什么時候什么情況下出現(xiàn),什么時間段出現(xiàn)頻率比較高,這個詞的出現(xiàn)時間和頻次反映了怎樣的思想文化和意識形態(tài)的轉(zhuǎn)變。這種分析方法,建立在海量文獻已經(jīng)輸入和構(gòu)庫的基礎(chǔ)之上,一旦沒有了這個基礎(chǔ),很多問題的研究也就無從展開了。從這個意義上講,大數(shù)據(jù)歷史研究能幫助我們發(fā)現(xiàn)很多新問題,甚至解決很多僅靠傳統(tǒng)閱讀難以解決的問題。數(shù)據(jù)庫通常包含了某一范圍內(nèi)所有參與者或構(gòu)成者的狀況,能系統(tǒng)體現(xiàn)不同規(guī)模群體的多種信息。傳統(tǒng)歷史研究往往是基于歷史學者的直覺來考慮作用與因果。即使運用數(shù)據(jù),往往只是涉及較少維度的統(tǒng)計表格。然而,社會科學許多定量方法擅長多變量分析,可以同時比較多個因素與結(jié)果的相互關(guān)系,或者說在考慮到結(jié)果與其他因素相互關(guān)聯(lián)的情況下,估計特定因素與結(jié)果的統(tǒng)計相關(guān)性。這不僅能幫助研究者更深入理解各種因素的變化與彼此關(guān)系,還能兼顧所有個體的影響與權(quán)重,一定程度上避免了選料時的疏漏與偏廢。最近,我們團隊正在開發(fā)、利用清代的“縉紳錄”史料??N紳錄是記錄職官的職掌、姓名、出身、籍貫、字號等基本情況的專書,清代保留至今的縉紳錄文獻規(guī)模浩大,提供了連續(xù)性的官員記錄,是建立清代官員群體的大規(guī)模歷史量化數(shù)據(jù)庫的理想史料??N紳錄為學界提供了極為系統(tǒng)的個人層面微觀數(shù)據(jù),同時這些數(shù)據(jù)每季度出版,具有極好的歷史連續(xù)性,而且至少幾乎包含了1760—1911年所有清政府官員的信息。我們?yōu)榇藰?gòu)建起了10個人左右的專業(yè)輸入團隊,全職從事該材料的輸入工作,預(yù)計3年內(nèi)能夠完全輸入電腦,但一些前期的研究已經(jīng)開展了。與大多數(shù)制度史研究主要研究制度的文本相比,“縉紳錄”數(shù)據(jù)庫的構(gòu)建和研究,將能直接從全面、系統(tǒng)的實踐角度檢驗制度的操作與變異,對真正理解官員制度和社會運作會有極大幫助。但這種研究,顯然是不可能依靠傳統(tǒng)文獻閱讀方法實現(xiàn)的,它必須依靠數(shù)據(jù)庫和量化分析才能完成。量化歷史研究與傳統(tǒng)史學研究是不同的,一方面,它可以彌補一些傳統(tǒng)研究方法的不足,特別是在處理這種大規(guī)模的人口史料方面;另一方面,它是一項需要花費很多成本的工作,這里的成本既包括人力也包括資金,所以它更是一項集體的活動,需要團隊合作完成。不過,雖然數(shù)據(jù)庫建成的各方面要求會更高,但建成后即可向社會開放,而越來越多數(shù)據(jù)庫在開放后又能夠相互聯(lián)系,從而會大大提高研究的效率和研究的深度。像我剛剛講到的全球五大數(shù)據(jù)庫,它絕不只是為了滿足某個研究團隊自身研究封閉使用,而是向全球?qū)W界開放的。如利用IPUMS所做的各類研究已超過萬次,而其中絕大部分是由外部研究人員完成的。再比如李-康研究團隊原來做的有關(guān)東北人口的歷史數(shù)據(jù)庫,現(xiàn)在也是在網(wǎng)上公開的。我們發(fā)現(xiàn)數(shù)據(jù)庫最初公開的三年,用它來做研究的,要么是研究組成員,要么是合作過或指導(dǎo)過的學生。但最近幾年,用它做研究的都是外部研究人員,而不是李-康研究團隊的人員。接下來我想結(jié)合我個人的經(jīng)歷,介紹一下數(shù)據(jù)庫建設(shè)與研究的一些具體經(jīng)驗。我是2007年博士畢業(yè)后,才決定和李中清教授合作,從事量化歷史研究方面的博士后工作。之前我也沒有專門學習過量化歷史研究,但我本科的時候讀過經(jīng)濟學雙學位,也接觸過統(tǒng)計課程和初步使用過SPSS這樣的統(tǒng)計軟件。加入李-康研究團隊后,李中清教授、康文林教授對我們的統(tǒng)計分析,尤其是Stata軟件的使用進行了短期的進一步輔導(dǎo)。不過,對于歷史學者,這種輔導(dǎo)最關(guān)鍵的不是掌握最復(fù)雜的計算分析,而是理解統(tǒng)計軟件的基本原理,知道它能做什么,不能做什么,從而幫助你在處理歷史資料時,知道如何將技術(shù)運用在史料上是可行和合適的。李-康團隊一直遵循的一條重要原則是歷史材料是已然存在和無法改變的,任何技術(shù)和方法只能用來適應(yīng)材料,而不能讓材料來適應(yīng)技術(shù)和方法。實際上,在團隊合作中,很多具體分析是由熟悉史學研究的研究者提出的,而具體的操作則可以由專門的技術(shù)人員來完成,不過,作為研究者需要理解技術(shù)實現(xiàn)的過程并能夠判斷是否正確。實際上,構(gòu)建量化數(shù)據(jù)庫通常包括數(shù)據(jù)采集、數(shù)據(jù)分類、數(shù)據(jù)編碼、數(shù)據(jù)存儲、數(shù)據(jù)信息挖掘和定量分析等多個環(huán)節(jié),數(shù)據(jù)庫建成后還可能需要數(shù)據(jù)管理和維護等多種工作。且不說量化數(shù)據(jù)庫研究的技術(shù)與方法對大多數(shù)歷史學者來說是非常陌生的,即便是研究的組織與管理模式也大有不同。歷史學者從事研究時多是“單打獨斗”的,而構(gòu)建大規(guī)模、量化史學數(shù)據(jù)庫并對其進行分析與研究,需要多學科專業(yè)人員的合作,通常必須有一個研究團隊才能實現(xiàn)。這種研究的組織模式與傳統(tǒng)研究差異很大,無論對于經(jīng)費還是合作管理都有相當高的要求,與以往的人文研究方式差別很大。李中清-康文林教授研究團隊十多年來的經(jīng)驗、歷程是互聯(lián)網(wǎng)時代人文社會科學學科研究者相互連接,從獨立走向合作的典型例子。自2003年開始,當時尚在美國密歇根大學任教的李中清教授和在美國加州大學洛杉磯分校任教的康文林教授便決定與一些青年學者和博士生、博士后們合作,建立一個國際化的歷史學研究團隊。這十多年來,李中清、康文林兩位教授從美國安娜堡轉(zhuǎn)到北京再到香港,但團隊成員并沒有跟隨團隊領(lǐng)導(dǎo)的地點轉(zhuǎn)變而轉(zhuǎn)變,而是根據(jù)研究的材料、工作條件等需要,廣泛分散在包括美國、法國、荷蘭、日本、中國在內(nèi)的世界各地。團隊的整體研究工作不僅沒有因為分布越來越廣泛而停滯,反而越來越有效率。開始時,成員們只能利用電子郵件匯報每周的工作。此后,研究組能夠每周在固定時間,利用Skype召開網(wǎng)絡(luò)討論會,實時討論各自的工作。而現(xiàn)在,成員們不僅每周定期召開Skype會議,為了討論更深入,還會將各種研究數(shù)據(jù)與資料、寫作中的稿件等上傳到Dropbox、百度云盤等虛擬存儲空間,更立體、豐富地進行學術(shù)工作交流。除了召開Skype會議,成員們還會根據(jù)不同研究主題的需要,構(gòu)建起由不同成員參加的微信群,隨時進行互動交流。在這十年里,研究團隊完成了一些較有影響的研究項目,研究項目又大多與互聯(lián)網(wǎng)及其相關(guān)技術(shù)有關(guān)。李-康研究組的經(jīng)驗說明,在互聯(lián)網(wǎng)的支持下,距離給交流帶來的障礙大為降低,具有共同興趣的全球?qū)W者組建成團隊的可能性大為增加。全球化研究團隊的建立有許多重要意義,但其中比較特別的有兩方面。首先,這種互聯(lián)網(wǎng)化的研究團隊對學術(shù)后備軍的培養(yǎng)更有效率。團隊中的青年學者或研究生們不會因為選題、工作關(guān)系離開團隊核心學者,更不會因為在外地,甚至在外國工作而與其變得疏遠,在學術(shù)上逐漸不再交流、合作。相反地,因為在新地點總會有不同的新材料和新的研究問題需要探討,他們在研究組的每周例會討論中反而變得特別活躍,從老師、同事處得到的幫助也越來越多。其次,團隊成員的廣泛分散,必然會豐富集體的研究材料和研究成果,從而更有效地推動團隊研究產(chǎn)量的增加以貢獻學界。同樣以李-康研究組為例,隨著成員的分布范圍不斷擴大,團隊的研究材料逐漸從東北人口史料擴大到近現(xiàn)代大學生登記資料,再到山西地區(qū)近百個農(nóng)村的系統(tǒng)、長期記錄,以及清朝至民國官員記錄、海外中國傳教士資料和一些國外人口統(tǒng)計資料等,研究主題也越發(fā)多樣。最后,我還想強調(diào)的是,與傳統(tǒng)史學和其他社會科學的定性研究方法類似,定量方法的選擇和應(yīng)用,以及對分析結(jié)果的解讀,同樣會受到研究者的主觀性影響。進行以量化數(shù)據(jù)庫為基礎(chǔ)的研究分析,研究者需要思考的首要問題是選取構(gòu)建數(shù)據(jù)庫的史料是否存在選擇性偏誤,即這些材料能夠在多大程度上反映當時的社會現(xiàn)實,能夠反映哪些特定人群、特定條件下的具體情況。只有對數(shù)據(jù)來源的選擇性有充分認識,才可能避免錯誤解釋分析結(jié)果或過分夸大結(jié)論的代表性。而這些必要的歷史背景往往是通過傳統(tǒng)文本分析獲得的。因此,史學研究方法一方面可以深化對定量分析結(jié)果的理解和解釋,另一方面也可以對定量分析結(jié)果和定性研究結(jié)果進行經(jīng)驗比較,通過多種研究方法的結(jié)合減少主觀性風險的影響,提高對研究對象全面、深入的整體認識。“數(shù)量分析本身不是目的,只是認識的手段”,這些定性分析,對于以復(fù)雜的人類行為為研究主題的社會科學研究必不可少。對新一代歷史學者來說,要將科學方法融入傳統(tǒng)研究中去,既不能因固守舊,也不可以盲目推崇新方法而完全拋棄舊方法。對“大數(shù)據(jù)”時代量化研究的大趨勢,歷史學者絕非“赤手空拳”,只能消極被動接受轉(zhuǎn)變,而是有其獨到的比較優(yōu)勢。歷史學者掌握的眾多史料、豐富的歷史知識以及考據(jù)等研究方法對量化研究歷史資料來說都是必需的。量化數(shù)據(jù)庫方法要在歷史乃至社會科學研究領(lǐng)域發(fā)揮更大價值,歷史學者的作用不可或缺。實際上,盡管使用數(shù)據(jù)進行分析的多為非歷史學者,但前文介紹的社會科學最重要的公開數(shù)據(jù)整合中心之一ICPSR和幾個重要量化歷史數(shù)據(jù)庫IPUMS、HSN、SEDD、CMGPD的項目發(fā)起人或領(lǐng)導(dǎo)者都獲得歷史學博士學位。這說明歷史學者不僅能夠參與,而且對于這些國際主要量化數(shù)據(jù)庫項目的成功有不可替代的作用。(以上是中心教授梁晨在華中師大的演講,轉(zhuǎn)自微信公眾號“鳴沙”)