新聞資訊
站內(nèi)搜索 / download
地方歷史文獻的數(shù)字化、數(shù)據(jù)化與文本挖掘:以《中國地方歷史文獻數(shù)據(jù)庫》為例
摘 要
歷史文獻數(shù)據(jù)庫可區(qū)分為數(shù)字化、數(shù)據(jù)化、文本挖掘三種不同形態(tài),迄今多數(shù)中文歷史文獻數(shù)據(jù)庫實現(xiàn)了數(shù)字化功能,部分地實現(xiàn)數(shù)據(jù)化功能,而能夠?qū)崿F(xiàn)文本挖掘功能的則十分少見。數(shù)字化是將文獻的物理形態(tài)轉(zhuǎn)化為電子形態(tài),數(shù)據(jù)化是將文獻轉(zhuǎn)化為可量化分析的數(shù)據(jù),編制元數(shù)據(jù)是主要方法。文本發(fā)掘是在此基礎(chǔ)上開發(fā)文本分析工具?!吨袊胤綒v史文獻數(shù)據(jù)庫》以文獻學(xué)研究為基礎(chǔ),建立特定的元數(shù)據(jù)結(jié)構(gòu),提供交叉導(dǎo)航、數(shù)據(jù)統(tǒng)計等多種功能,這些功能不僅可以幫助研究者找到自己的所需文獻,更可能幫助研究者發(fā)現(xiàn)新的研究議題。史學(xué)研究中,數(shù)據(jù)庫有必要被視作一種新的文獻形態(tài),建立針對性的文獻學(xué)方法論。
1
引 言
數(shù)字化(digitalization)、數(shù)據(jù)化(datalization)、文本挖掘(text mining)是歷史文獻數(shù)據(jù)庫的三種不同形態(tài)。數(shù)字化是將文獻從物理形態(tài)轉(zhuǎn)化為電子形態(tài),數(shù)據(jù)化是將電子形態(tài)進一步轉(zhuǎn)換為可識別的文本與可分析的數(shù)據(jù),文本挖掘則是針對文本、數(shù)據(jù)做進一步的計量、相關(guān)性、GIS分析。本文將嘗試提出并解釋3種數(shù)據(jù)庫形態(tài)分類的依據(jù),并以《中國地方歷史文獻數(shù)據(jù)庫》為例說明如何實現(xiàn)數(shù)據(jù)化與文本挖掘。最后,本文將提出一個有待解決的問題,史學(xué)研究中,數(shù)據(jù)庫是否已經(jīng)有必要視作一種新的文獻形態(tài),并建立針對性的文獻學(xué)方法論?
2012年以來《中國地方歷史文獻數(shù)據(jù)庫》由上海交通大學(xué)出版社、圖書館、歷史系合作開發(fā)。該數(shù)據(jù)庫由上海交通大學(xué)歷史系收集資料,并提出數(shù)據(jù)庫建設(shè)構(gòu)想,于2012-2013年間由上海交大圖書館進行文獻整理與數(shù)據(jù)加工,2013年以來由上海交大出版社進行數(shù)據(jù)庫研發(fā)。該數(shù)據(jù)庫主要收錄上海交通大學(xué)2009年以來陸續(xù)收集的浙江、安徽、福建等地地方歷史文獻及2007年以來曹樹基收集、授權(quán)復(fù)制的《石倉契約》,總計近35萬件,目前已進入數(shù)據(jù)庫的有10萬余件。
2
從數(shù)據(jù)化到
文本挖掘:歷史文獻數(shù)據(jù)庫的演進
數(shù)字化并非一個新鮮概念,通常語境中,數(shù)字化是指將文獻的物理形態(tài)轉(zhuǎn)化為電子形態(tài),或者說將模擬數(shù)據(jù)轉(zhuǎn)換為二進制數(shù)據(jù)。但電子形態(tài)的文獻除了易于傳播外,并不能增強文獻的利用價值。如今天廣泛傳播于網(wǎng)絡(luò)的書籍掃描電子檔,對讀者來說,只是將閱讀載體從紙本書變成了電腦屏幕,并未真正改變使用者利用文獻的方式。如果將“大數(shù)據(jù)時代”理解為書籍電子檔橫行的時代,則遠(yuǎn)不能視為歷史學(xué)研究的重大變革。
真正能夠改變文獻利用方式的是數(shù)據(jù)化,也即將文獻轉(zhuǎn)化為可制表分析的量化形式。歷史文獻中包含的產(chǎn)量、價格等信息,可以被轉(zhuǎn)換為量化數(shù)據(jù),其他描述性的信息,也應(yīng)通過某種形式轉(zhuǎn)換為可量化分析的數(shù)據(jù),這是歷史文獻數(shù)據(jù)化的理想狀態(tài)。目前在針對歷史文獻的研究方法中,常用的是詞頻分析、GIS以及關(guān)系網(wǎng)絡(luò)分析等。
數(shù)據(jù)化的意義是將利用文獻的方式從“讀”轉(zhuǎn)變?yōu)椤胺治觥?,其核心方法是重組文獻內(nèi)容,置入使用者所建立的新的文本或數(shù)據(jù)結(jié)構(gòu)中,也即文獻的結(jié)構(gòu)化。歷史學(xué)研究中,這也并非新鮮事物。計算機出現(xiàn)之前,史學(xué)研究者已經(jīng)在制作史料編年、人物關(guān)系表,經(jīng)濟史與社會史研究中也早已整理了各種數(shù)據(jù)序列。如何炳棣研究科舉與中國社會流動性的關(guān)系,在朱卷基礎(chǔ)上建立的龐大數(shù)據(jù)表并未借助計算機技術(shù)。計算機技術(shù)帶來的革新使得研究者可以更高效率地建立并使用數(shù)據(jù)。如王業(yè)鍵主持建立的《清代糧價資料庫》,該數(shù)據(jù)庫建成于2008年,最初依靠代碼表查詢數(shù)據(jù),現(xiàn)在已可利用下拉列表查詢時間、地域、糧別,是中國經(jīng)濟史研究的基礎(chǔ)性數(shù)據(jù)。
給歷史學(xué)帶來真正深刻變革的是,計算機技術(shù)提供了分析數(shù)據(jù)化文獻的復(fù)雜工具。文本挖掘的理念,正是由此興起。從數(shù)據(jù)化到文本挖掘的演進,以“數(shù)字人文”(digital humanity)概念的興起為標(biāo)志。這一理念引導(dǎo)了數(shù)據(jù)庫建設(shè)、開發(fā)思路的轉(zhuǎn)變,人文學(xué)研究者不再是被動選擇既有的數(shù)據(jù)庫,而是參與數(shù)據(jù)庫建設(shè)過程,由其自身研究需要引導(dǎo)數(shù)據(jù)庫開發(fā),數(shù)據(jù)庫開發(fā)過程也就成為其研究的一部分。
“數(shù)字人文”概念在20世紀(jì)90年代興起,逐漸取代20世紀(jì)70年代以來的“人文電算”(humanity computing)概念,成為一個增長迅速的交叉研究領(lǐng)域。項潔、王曉光等已經(jīng)先后梳理了數(shù)字人文概念在西方學(xué)界的發(fā)展及其在中文人文研究中的適用性。筆者認(rèn)為數(shù)字人文研究還可細(xì)分為文獻數(shù)據(jù)庫、線上博物館、網(wǎng)絡(luò)文本(cyber born text)分析三個子領(lǐng)域。
總的來看,西方數(shù)字人文研究更多的力量集中于對網(wǎng)絡(luò)文本的分析?;ヂ?lián)網(wǎng)出現(xiàn)以來所積累的各類型線上數(shù)據(jù),數(shù)量已經(jīng)十分龐大,自然成為研究者們關(guān)注的焦點。而且這類研究直接與互聯(lián)網(wǎng)經(jīng)濟相關(guān),很多不同學(xué)科的學(xué)者都有興趣介入。線上博物館所關(guān)心的則是如何將傳統(tǒng)藝術(shù)領(lǐng)域的“展示”轉(zhuǎn)變?yōu)樵诰€的、可視化的、互動的。
相較而言,歷史文獻雖然留存數(shù)量龐大,但已經(jīng)電子化的規(guī)模仍遠(yuǎn)遠(yuǎn)少于網(wǎng)絡(luò)文本,并且歷史文獻數(shù)據(jù)庫研究的收益回報也顯然低于網(wǎng)絡(luò)文本研究。因此,針對歷史文獻的數(shù)字人文研究并沒有如網(wǎng)絡(luò)文本那樣活躍。雖然如此,如前所述,不論在西方學(xué)界或中文學(xué)界,都已經(jīng)有很多數(shù)字人文導(dǎo)向的歷史文獻數(shù)字化或數(shù)據(jù)分析研究。今后的歷史文獻數(shù)字化過程中,數(shù)字人文導(dǎo)向?qū)⑹且粋€總的趨勢。
近年歐洲史研究中已經(jīng)出現(xiàn)越來越多以文本挖掘為主要目的的數(shù)據(jù)庫或分析工具。如Tara Andrews開發(fā)的拜占庭文書校勘(critical editing)工具。此外,荷蘭、比利時等國家在2013年集中討論了“大數(shù)據(jù)”(big data)對歷史學(xué)研究的影響,他們所開發(fā)的Biland數(shù)據(jù)庫以及WAHSP數(shù)據(jù)庫可以對17—18世紀(jì)歐洲的媒體資料進行詞頻分析、語言比較分析,為人文學(xué)者提供幫助。
中國史研究中,21世紀(jì)初時已有不少學(xué)者開始考慮如何使用數(shù)據(jù)庫便利文獻檢索與研究。這些討論中,多數(shù)學(xué)者的關(guān)注點是如何使用數(shù)據(jù)庫,而較少涉及如何開發(fā)針對性的數(shù)據(jù)庫,研究者參與數(shù)據(jù)庫設(shè)計、開發(fā)者更少。這一時期代表性的中國史史料數(shù)據(jù)庫是《文淵閣四庫全書》電子版與《中國基本古籍庫》?!段臏Y閣四庫全書》電子版由上海人民出版社與香港迪志文化公司、香港中文大學(xué)共同開發(fā),于1999年投入市場?!吨袊竟偶畮臁酚?998年作為高校古委會項目立項,由北京大學(xué)領(lǐng)銜開發(fā),完成于2001年,此后陸續(xù)投入市場。
作為第一代中文史料數(shù)據(jù)庫,當(dāng)時的主要技術(shù)難點是文字錄入與標(biāo)準(zhǔn)化,實際也就是數(shù)據(jù)化問題?!端膸烊珪冯娮影嬖谘邪l(fā)中曾與清華大學(xué)計算機系合作,開發(fā)“多特定人準(zhǔn)規(guī)范手寫OCR引擎”,用于文字自動錄入。如何處理Unicode字符集之外的文字,以及如何利用XML語言建立文字標(biāo)引,在當(dāng)時都是有待解決的技術(shù)難題。傳統(tǒng)文獻學(xué)中的版本考辨,也是這類數(shù)據(jù)庫所面臨的困境,在當(dāng)時的開發(fā)條件下并沒有很好地解決。此外,《四庫全書》電子版與《中國基本古籍庫》最初都使用光盤版發(fā)行,這是由當(dāng)時的技術(shù)條件與網(wǎng)絡(luò)速度決定的。
因此,以上數(shù)據(jù)庫所體現(xiàn)的設(shè)計理念是將其視作檢索、獲得文獻文本的儲存平臺。盡管當(dāng)時的研究者已經(jīng)認(rèn)為“電子版不是紙版翻印”,應(yīng)當(dāng)具有豐富的研究功能與工具,但是他們所指的研究功能主要還是檢索功能。
2007年以來,歷史文獻數(shù)字化的范圍擴大到古籍以外。有越來越多學(xué)者討論民間歷史文獻、地方歷史文獻數(shù)據(jù)庫,除歷史學(xué)者外,也有圖書館學(xué)學(xué)者基于各圖書館的館藏情況,提出特色文獻數(shù)據(jù)庫建設(shè)構(gòu)想。但不論怎樣討論歷史文獻數(shù)據(jù)庫的使用或建設(shè),多數(shù)研究者構(gòu)想的主要是數(shù)據(jù)庫的資料儲存、文本檢索功能,而較少考慮如何使用數(shù)據(jù)庫中幫助研究者分析文本。
中文民間文書、地方文獻數(shù)據(jù)庫中,迄今文本分析、數(shù)據(jù)處理功能最為完備的是臺灣歷史數(shù)字圖書館(THDL),該數(shù)據(jù)庫由項潔領(lǐng)導(dǎo)的臺灣大學(xué)數(shù)字人文研究中心開發(fā),主要收錄臺灣地區(qū)契約文書及臺灣總督府檔案。THDL中提供詞頻分析、上下手契關(guān)聯(lián)分析、人物相關(guān)性分析等不同功能,還可以部分地實現(xiàn)契約空間分布的展示。THDL提出了數(shù)據(jù)庫建設(shè)的新理念,那就是數(shù)據(jù)庫的主要功能是為研究者提供研究環(huán)境并幫助研究者發(fā)現(xiàn)問題,而非僅僅是儲存與檢索。
由上可見,迄今流行于網(wǎng)絡(luò)中的中文歷史文獻電子資源中,數(shù)量最龐大的是掃描、錄文、影像等數(shù)字化資源,如大量的書籍掃描電子檔,以及部分全文檢索數(shù)據(jù)庫。此外借助計算機技術(shù)實現(xiàn)的文獻數(shù)據(jù)化成果正在逐步積累,如王業(yè)鍵主編的《清代糧價數(shù)據(jù)庫》。數(shù)據(jù)化基礎(chǔ)之上,文本挖掘的發(fā)展還比較有限,其代表是臺灣歷史數(shù)位圖書館。
數(shù)字人文導(dǎo)向,提供文本挖掘能力將是今后歷史文獻數(shù)據(jù)庫開發(fā)的大趨勢。但是,如何數(shù)據(jù)化?研發(fā)怎樣的工具能夠?qū)崿F(xiàn)文本挖掘?中文史料數(shù)字化的進程中,以上問題還尚在探索之中,成熟的案例并不多。因此,我們在開發(fā)《中國地方歷史文獻數(shù)據(jù)庫》時,將以上問題作為我們的研究焦點。
3
基于文獻性質(zhì)的
數(shù)據(jù)庫結(jié)構(gòu)與分析工具研發(fā)
我們在開發(fā)《中國地方歷史文獻數(shù)據(jù)庫》的過程中意識到,對文獻進行有效的數(shù)據(jù)化,并開發(fā)有效的分析工具,必須以對文獻性質(zhì)的深入研究為基礎(chǔ)。數(shù)據(jù)庫開發(fā)中,我們主要面臨兩個問題,第一,如何針對地方歷史文獻的文獻性質(zhì),進行有效的數(shù)據(jù)化。數(shù)據(jù)化不僅僅是文字錄入,更重要的是為文獻設(shè)計元數(shù)據(jù)(metadata)。利用元數(shù)據(jù)標(biāo)引并標(biāo)準(zhǔn)化文獻中的信息,才有可能將文獻中的描述內(nèi)容轉(zhuǎn)變?yōu)榭煞治龅臄?shù)據(jù)。
第二,如何從數(shù)字人文的理念出發(fā),開發(fā)更多有助于研究者的分析工具。今天計算機技術(shù)能夠提供的分析功能非常多,但不同的軟件、分析工具,都對數(shù)據(jù)類型有特定的要求,因此需要考慮特定的文獻類型可以被處理成怎樣的數(shù)據(jù)形態(tài),并據(jù)此做針對性的分析工具開發(fā)。為了解決這兩個問題,首先必須對地方歷史文獻的性質(zhì)做一分析。
本文所討論的地方歷史文獻,主要指兩類材料,一類文獻是留存于民間,產(chǎn)生于民間的日常生活,以手寫為主,未經(jīng)過出版暨知識再整理的過程,也可稱之為民間歷史文獻或民間文書。另一類文獻是由地方政府形成的各種檔案。這里所說的地方政府主要指作為“親民之官”的縣級或次縣級行政機構(gòu),對于明清時代來說,也可包含府(州、廳)級行政機構(gòu)。如民國時期江津縣保留了2萬余卷司法訴訟檔案,通過這些檔案,可對20世紀(jì)上半葉的江津地方社會做深入研究。
這類材料與一般意義上的“古籍”具有不同的文獻學(xué)特征。古籍是經(jīng)過有意識的書寫與知識再組織之后形成的,地方歷史文獻的文本形成之后,沒有經(jīng)過一個知識再組織的過程,這些文本經(jīng)歷了一個功能性使用的周期后,就被以其使用中的形態(tài)保存起來。這意味著,首先,這類文獻的每一件都是獨一無二的,幾乎沒有復(fù)本。進而,由于沒有復(fù)本并且未經(jīng)過知識再組織,這類文本并不形成版本,古籍則具有抽象概念的“書”與作為實體的“版本”之間的分離。這就意味著整理地方歷史文獻時,版本整理、??辈皇侵饕y點。
地方歷史文獻與古籍的另一個差異是,地方歷史文獻更多情況是碎片化的,單個文本的字?jǐn)?shù)少,古籍整理中所注重的文本內(nèi)關(guān)系,如篇章順序、自校等,在地方歷史文獻中雖然也存在,但不是非常顯著。整理地方歷史文獻時更注重文獻之間的關(guān)系,以明清史學(xué)界整理過程最久的徽州文書為例,以下學(xué)者們所提出的徽州文書特性,或可啟發(fā)我們理解地方歷史文獻的特性。
資料來源: 周紹泉: 《徽州文書與徽學(xué)》,《歷史研究》,2000 年第 1 期; 臼井佐知子: 《徽州文書と徽州研究》,載森正夫明清時代史の基本問題》,汲古書院,1997; 中島樂章著、郭萬平、高飛譯: 《明代鄉(xiāng)村糾紛與秩序: 以徽州文書為中心》,南京: 江蘇人民出版社,2006; 嚴(yán)桂夫、王國鍵: 《徽州文書檔案的特點與價值》,《檔案學(xué)研究》,2001 年第 1 期; 劉伯徽州文書的遺存及特點》,《歷史檔案》,2004 年第 1 期。
周紹泉認(rèn)為徽州文書具有真實性,因為徽州文書是從實際生活中直接形成的文件。他所說的典型性則是指利用徽州文書可以形成一個個具有代表性的個案研究。中島樂章所說的原始性,其含義接近與周紹泉所述的真實性,特別強調(diào)徽州文書來自實際生活。另外,中島樂章所說的豐富性是指:“徽州學(xué)研究的最大優(yōu)勢在于,以徽州文書為中心,大量地保存了長時期族譜等文獻史料和建筑等非文獻史料?!锌赡芑謴?fù)包括民眾文化、日常生活在內(nèi)的一個地方社會的全貌?!眹?yán)桂夫和王國鍵所說的系統(tǒng)完整,與劉伯山所述的連續(xù)性具有相近含義,均強調(diào)徽州文書的來源是可追溯的,文書之間的內(nèi)部聯(lián)系是有機的,可以復(fù)原的。
以上各位代表性學(xué)者所提出的徽州文書特性,可以歸納為以下共同點:第一,所有學(xué)者都認(rèn)為徽州文書存量之大,內(nèi)容之豐富,是同時代其他文獻群難以匹敵的。第二,相對于傳世文獻,徽州文書的特別之處是其保持了原始記錄,同時具有完整的、有機的文獻內(nèi)部聯(lián)系。
地方歷史文獻的單件當(dāng)然也具有研究價值。以契約文書為例,傅衣凌、章有義、楊國楨等前輩學(xué)者都曾依據(jù)一件件獨立的、經(jīng)過選擇的契約解釋明清鄉(xiāng)村的地權(quán)結(jié)構(gòu)。但隨著研究的深入,對單件文書的分析、考釋,常常不能滿足研究的需要,即使在傅衣凌開創(chuàng)契約文書研究的時期,當(dāng)他對契約文書內(nèi)容和類型進行了解釋和考釋之后,也轉(zhuǎn)入了以時間、地域等關(guān)系對多件契約做綜合分析的研究。可以說,地方歷史文獻碎片化的形態(tài)決定了其每一個單件的研究價值通常要置于一個整體中才能被發(fā)現(xiàn),即其研究應(yīng)當(dāng)以一個“文獻群”為單位展開。
以上差異決定了,地方歷史文獻不能使用既有的古籍?dāng)?shù)據(jù)化方法。多數(shù)古籍的數(shù)據(jù)編目,都可參照現(xiàn)代書籍標(biāo)準(zhǔn)。但在地方歷史文獻的文獻結(jié)構(gòu)中,著作人、出版方、出版地點等等都是不主要的,甚至是不存在的信息。因此,必須設(shè)計針對性的元數(shù)據(jù)方案。
數(shù)據(jù)庫開發(fā)實踐中,我們參照圖書館界通行的都柏林原則(Dublin Core)設(shè)計了事主、題名、時間、地域、文獻類型等元數(shù)據(jù)項目。數(shù)據(jù)庫中元數(shù)據(jù)格式主要實現(xiàn)兩種功能。其一是識別每一件文獻,并說明文獻的性質(zhì),如文獻編號、資源類型。其二是對文獻內(nèi)容的描述,地方歷史文獻所涉及的內(nèi)容千差萬別,設(shè)計能夠適用于全部文獻的元數(shù)據(jù)是非常困難的。因此元數(shù)據(jù)的設(shè)計必須具有高度的彈性,能夠涵納多數(shù)文獻,如文獻名稱、涉及人名(事主)、文獻歸戶、日期等,幾乎所有文獻中都具備。但另一方面,針對存量特別多的文獻,也需要針對性設(shè)計。從目前粗略的統(tǒng)計看,契約、賬簿占到文獻收藏的60%左右,因此也設(shè)計了如標(biāo)的、金額等此類材料所特有的元素。
從資料中提取元數(shù)據(jù)可以采用人工與半自動標(biāo)記(semi-automate tag)甚至全自動的方式。上海交通大學(xué)目前采取的是人工編目的方式,但是社會學(xué)界及數(shù)字人文領(lǐng)域已有一些可應(yīng)用于中文文獻的半自動標(biāo)記工具,可以預(yù)見,這將成為今后的一個趨勢。
4
歸戶:
制度史源流、整理方法、元數(shù)據(jù)
以上元數(shù)據(jù)格式中,歸戶是我們首創(chuàng)的元數(shù)據(jù)項目。這個元數(shù)據(jù)項能夠幫助使用者感受到文獻本來的特性,也是進一步開發(fā)分析工具的基礎(chǔ)。“歸戶”元數(shù)據(jù)項體現(xiàn)了我們提出的基于對文獻性質(zhì)的理解構(gòu)建元數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)庫開發(fā)理念。
之所以提出這項設(shè)計,是因為我們面臨一個困境:地方歷史文獻與書籍存在文獻性質(zhì)的差異,其研究價值必須以一個“文獻群”為單位,那么,如何確定一個文獻群的范圍?如何在數(shù)據(jù)化中體現(xiàn)一個文獻群的內(nèi)在聯(lián)系?
一個具有研究價值的文獻群,應(yīng)當(dāng)是一組具有內(nèi)在邏輯關(guān)系的文獻所組成的整體,特別是那些由生產(chǎn)自同一個來源的文獻所形成的整體,如出自同一個家族的全部文書,或同屬一個案卷(record)的全部檔案。凡是屬于同一個文獻群的文獻,即使是在研究者看來可能并無價值的殘件,整理時都應(yīng)當(dāng)全部收錄。在《石倉契約》的整理與研究過程中,以上方法被歸納為“有機”的研究方法。
進而我們發(fā)現(xiàn),檔案學(xué)中的全宗原則、來源原則對如何界定一個文獻群有直接的借鑒意義。如果參照全宗原則與來源原則,來自明清賦役制度以及徽州文書的“歸戶”概念則是最有效界定文獻群的方法。
全宗原則和來源原則是19、20世紀(jì)之交檔案學(xué)逐漸發(fā)展出的檔案管理理論。16至18世紀(jì)的歐洲國家,其檔案管理本來依據(jù)“事由原則”,即按照檔案內(nèi)容對檔案進行分類保管。19世紀(jì)之后,本來的王室檔案館與行政機關(guān)文件登記室逐漸轉(zhuǎn)變?yōu)閲覚n案館,并且從封閉保密轉(zhuǎn)為開放查閱,檔案來源與檔案查閱需求也隨之多元化,因而,本來封閉的、依照邏輯進行主題分類的檔案管理辦法不再能滿足需要。有的檔案可以歸入多個分類,或者有的檔案不能按照現(xiàn)有分類歸檔,這都給檔案管理造成困難。
1841年,法國內(nèi)政部第14號通令頒布省檔案館條理,規(guī)定:“來源于一個團體、一個機構(gòu)、一個家庭或者一個人的所有文件都要組成全宗;檔案管理人員不得把全宗拆散或?qū)⒉煌娜诨煸谝黄??!边@一條例規(guī)定提出了“尊重全宗原則”(the principle of respect pour les fonds),成為“來源原則”、“全宗原則”之濫觴。
繼法國之后,1881年德國國家檔案館發(fā)布《國家機密檔案館檔案整理條例》,其中提出“國家機密檔案館內(nèi)文件按其組成部分的來源進行整理”以及“每一機關(guān)一旦開始移交文件,就要立即指定一部分庫房專放該機關(guān)的文件,在這部分庫房內(nèi),官方文件要保持它在有關(guān)機關(guān)活動過程中獲得的順序和標(biāo)志?!奔础暗怯浭以瓌t”,這一原則之后發(fā)展為檔案學(xué)中通行“來源原則”。
地方歷史文獻中的每一個文獻群,正如同檔案學(xué)中所說的“來源”。近年民間文書整理中所提出的“歸戶”概念,與來源原則有相似之處。歸戶是一個來自明清賦役制度的概念,意指賦役過割至地權(quán)買入人戶,如清初陸隴其總結(jié)地方官的為政經(jīng)驗,“受業(yè)之家”即地權(quán)買入方應(yīng)當(dāng)“割稅歸戶”,這里的“歸戶”是一個動詞,為歸入買人戶之意。明清之際的賦役制度改革中,“歸戶”是一個總體性的原則。
夫有田則有賦,頑猾抵官者,誠所當(dāng)治,而善良樂輸者,要當(dāng)與之覆議。其大要,則于移割宜加意焉。產(chǎn)去稅存,不可不察,民又以出業(yè)報者,便當(dāng)關(guān)會受業(yè)之家,割稅歸戶,然后卻、與、除、退,庶幾無泛追、無濫罰、無推攤抵捱之弊。
“歸戶”在明末演變?yōu)橐粋€名詞,徽州文書中存在“歸戶親供冊”、“歸戶清冊”等賦役冊籍,通常是一個納稅戶所有應(yīng)納稅糧之土地的登記,與陸隴其所稱之“歸戶”涵義相通。根據(jù)目前學(xué)界對清代賦役制度的理解,這些納稅戶通常是一些虛擬戶名,其背后可以是個人、家庭、宗族、會社或其他社會團體。這些“戶”是納稅單位,同時也即經(jīng)濟活動的單位,進而也是產(chǎn)生契約、賬簿等民間文書的基本單位。
整理、研究民間文書的學(xué)術(shù)史中,劉伯山較早將“歸戶”作為一項原則,認(rèn)為徽州文書具有歸戶性。他在編輯《徽州文書》時將同屬一個家族的文書稱為歸戶文書。此后,越來越多學(xué)者將“歸戶性”視作民間文書的一項重要特性,研究者在整理清水江文書、太行山文書時,也開始重視歸戶整理的方法。
正如檔案學(xué)對“來源”的理解越趨復(fù)雜,隨著文獻收集越來越豐富,作為文獻收集、整理基本單位的“戶”、“歸戶”也應(yīng)當(dāng)具有更豐富的內(nèi)涵。事實上,早在1962年嚴(yán)中平已經(jīng)提出一項針對收集工作的建議,希望能夠“完整地”收集徽州文書。我們認(rèn)為嚴(yán)中平所說的“完整”已經(jīng)包含了“歸戶”的整理原則。正如檔案保管從事由分類轉(zhuǎn)向來源分類,保管、整理地方歷史文獻也應(yīng)當(dāng)以文獻群或“歸戶”作為基本單位,從而取代按照內(nèi)容、年代等進行整理的原則。因為這些文獻本來是以文“戶”為單位產(chǎn)生的,以“戶”或文獻群為單位進行保管、分類,最能夠保持文獻內(nèi)部的有機聯(lián)系。同時,“戶”的所指也應(yīng)更加豐富,舉凡家戶、家族、宗族、會社、寺廟等都可成為一“戶”。
因此在《中國地方歷史文獻數(shù)據(jù)庫》中,“歸戶”成為一個元數(shù)據(jù)項目,設(shè)計為“縣+姓氏”的形式,根據(jù)收集文獻時獲得的信息,標(biāo)注每件文獻所屬的縣份及姓氏,由此反映文獻與當(dāng)?shù)厝巳褐g可能存在的關(guān)系。在徽州及浙南等文獻脈絡(luò)更清晰的地方,文獻的歸戶信息還可細(xì)化到縣以下層級,也即其所屬的“都”、“圖”、村落等。但縣以下行政區(qū)劃層級幾乎每一縣均不相同,因此在按照“歸戶”信息檢索的界面中,省去了縣以下層級,而在元數(shù)據(jù)中,則以文字形式保留了這些信息。
為了彌補以上不足,元數(shù)據(jù)中又增加了“批次”信息,這是收錄于《中國地方歷史文獻數(shù)據(jù)庫》中每一個文獻群的編號,這個編號是根據(jù)每個文獻群入藏的時間制作的,文獻群中的每一件文獻則在批次號的基礎(chǔ)上流水編號。批次號是對文獻群物理保存形態(tài)的反映。
5
文本挖掘:拓展數(shù)據(jù)庫應(yīng)用的可能性
研發(fā)《中國地方歷史文獻數(shù)據(jù)庫》時,由于資金與技術(shù)的限制,并未設(shè)計嵌入數(shù)據(jù)庫的文本挖掘工具,但從數(shù)字人文的理念出發(fā),設(shè)計了兩種檢索方式以及兩組檢得文獻分析工具。研究者利用這些工具,就有可能進行進一步的文本挖掘與研究。
數(shù)據(jù)庫提供的基本檢索方法是輸入任意詞在整個數(shù)據(jù)庫中檢索,或者以下拉列表方式在題名、事主、歸戶、事由、分類中用任意詞檢索,也就是通常文獻數(shù)據(jù)庫都具備的普通檢索與高級檢索。另一種檢索方式是多維分類導(dǎo)航,也即利用時間、地域、歸戶、分類法等方法交叉瀏覽、檢索,尋找文獻。對于檢索所得文獻,數(shù)據(jù)庫提供兩種分析工具,一種可以統(tǒng)計檢得文獻的地域分布、年代排序、類型分布,以及事主統(tǒng)計。另一種工具則可顯示檢得文獻的關(guān)聯(lián)文獻,如屬于同一批次、同一地域、同一歸戶或同一事主的文獻及其數(shù)量。
建立以上檢索與分析工具的意義是為研究者提供更好的研究環(huán)境。通過檢索找到資料庫中的資料,是研究者使用數(shù)據(jù)庫的最基本需求,但是,歷史學(xué)研究不僅需要找到資料,更重要的是發(fā)現(xiàn)資料間的關(guān)系。歷史學(xué)研究中,文本記錄中的時間、空間、人物無疑是最重要的三組關(guān)系,我們試圖在數(shù)據(jù)庫中提供相應(yīng)的功能幫助研究者揭示資料群在這三個方面的關(guān)聯(lián)性。依據(jù)時間檢索,檢得資料時間分布統(tǒng)計正是為發(fā)現(xiàn)不同時間形成的資料間的關(guān)系而設(shè)計的。地域、歸戶等則是以不同形式分析、呈現(xiàn)資料的空間分布。文本中所有的人物信息則都被登記為事主。
以上功能設(shè)計還有可能進一步幫助研究者發(fā)現(xiàn)新的資料或新的研究議題。以我們最近的一項研究為例,本來的研究計劃中,只是準(zhǔn)備分析清代徽州契約中代筆人與買賣雙方的親屬關(guān)系,在利用事主相關(guān)功能檢索一批文書中代筆人的身份時,發(fā)現(xiàn)在一批契約中的代筆人江振玉同時還是當(dāng)?shù)鼐幹茪w戶冊的冊書,由此開始研究清代鄉(xiāng)村中同時擔(dān)任半職業(yè)代筆與稅收職役的人群。
并且,編制元數(shù)據(jù)時提取了文書中的全部人物,也就有可能分析文書所反映的社會網(wǎng)絡(luò)。仍以上述研究為例。根據(jù)歙縣枧橋江氏家族所保存的100余份契約,可以建立該家族清代、民國時期的土地交易記錄數(shù)據(jù)庫,圖1是根據(jù)數(shù)據(jù)庫繪制的當(dāng)?shù)赝恋亟灰咨鐣W(wǎng)絡(luò)。圖1中可以觀察到300余年間該家族有實力大宗購入土地的主要成員,以及該家族購買土地時主要使用的戶名。此外,利用分家書、家譜等其他資料,還可進一步分析圖1中與該家族頻繁交易的人物身份。研究者由此可以了解當(dāng)?shù)厣鐣P(guān)系網(wǎng)絡(luò)對土地交易的影響。
6
結(jié)論:建立史料數(shù)據(jù)庫的文獻學(xué)方法
數(shù)字人文是最近20年來新興的交叉學(xué)科概念,對歷史學(xué)研究而言,引入這一概念的意義是促進更多分析工具應(yīng)用于文獻整理與解讀。與古籍不同,地方歷史文獻未經(jīng)過知識重組,也相對碎片化,更注重文獻間的關(guān)聯(lián)性?!吨袊胤綒v史文獻數(shù)據(jù)庫》針對文獻特性設(shè)計元數(shù)據(jù)結(jié)構(gòu),從而實現(xiàn)對文獻的多維度檢索。尤其是我們根據(jù)文獻特性所提出的“歸戶”數(shù)據(jù)項,將幫助研究者發(fā)掘文獻的內(nèi)在關(guān)聯(lián)。我們不僅期望這些功能設(shè)計可以便利研究者尋找史料,更期望以此幫助研究者發(fā)現(xiàn)新的研究議題。
元數(shù)據(jù)是可以被計算機識別的文獻描述,制作元數(shù)據(jù),也就是將文獻資料轉(zhuǎn)化為可被檢索、分析的數(shù)據(jù)的過程,這是將物理形態(tài)的史料轉(zhuǎn)化為可分析的數(shù)字形態(tài)的關(guān)鍵。如何設(shè)計元數(shù)據(jù)結(jié)構(gòu),很大程度上決定了文獻資料可以被如何檢索、分析。另一方面,數(shù)據(jù)庫的使用者有必要了解元數(shù)據(jù)結(jié)構(gòu),從而判斷哪些因素可能影響了自己的分析結(jié)果。
資料來源:《中國地方歷史文獻數(shù)據(jù)庫》,http://www.datahistory.cn,批次號:0111120601。說明:圖中以箭頭表示土地權(quán)利轉(zhuǎn)讓的方向,如圖中箭頭從江四九指向江萬祥,表示土地權(quán)利從江四九轉(zhuǎn)讓至江萬祥。圖中每個點的顏色表示其在交易中購入地權(quán)的次數(shù),頻率越高,顏色越深。這里所說的獲得地權(quán),包括買入、典入、抵押等形式。
因此,歷史文獻數(shù)據(jù)庫不僅是傳統(tǒng)史料的載體或“倉庫”,其本身也將日漸形成一種獨立的文獻形態(tài)。歷史文獻學(xué)對傳統(tǒng)史料已經(jīng)形成了一套綿密、精細(xì)的處理方法,數(shù)據(jù)庫作為一種新的文獻形態(tài)也應(yīng)當(dāng)建立針對性的文獻學(xué)方法論。對元數(shù)據(jù)結(jié)構(gòu)的考辨可能應(yīng)當(dāng)是這種方法論的核心。史學(xué)理論對史實與史料關(guān)系的思考,也同樣適用于歷史文獻與數(shù)據(jù)庫。
參考文獻
(1)李芳、陳進、王昕:《上海交通大學(xué)新藏地方歷史文獻的數(shù)字化建設(shè)規(guī)劃與實踐》,《大學(xué)圖書館學(xué)報》2015年第2期。
(2)維克托·邁爾·舍恩伯格:《大數(shù)據(jù)時代:生活、工作與思維的大變革》,周濤譯,浙江人民出版社,第104頁。
(3)《清代糧價資料庫》,http://mhdb.mh.sinica.edu.tw/foodprice,發(fā)布日期:2014,訪問時間:2016-07-26。
(4)項潔、陳麗華:《數(shù)位人文--學(xué)科對話與融合的新領(lǐng)域》,項潔編:《數(shù)位人文研究與技藝》,臺灣大學(xué)出版中心,第9-23頁;王曉光:《“數(shù)字人文”的產(chǎn)生、發(fā)展與前沿》,《方法創(chuàng)新與哲學(xué)社會科學(xué)發(fā)展》,武漢大學(xué)出版社,2010年,第207-221頁。
(5)David M.Berry ed.,Understanding Digital Humanities,Palgrave Macmillan,2012,p.4.
(6)Tara Andrews,“The third way:philology and critical edition in the data age”,working paper,in Lectio Round Table Digital or critical/digital and critical?,Leuven,2011.
(7)Joris van Eijnatten,Toine Pieters,Jaap Verheul:“Big Data for Global History:The Transformative Promise of Digital Humanities”,Low Countries Historical Review,2013,128(4):pp.55-77.
(8)包偉民:《論當(dāng)前計算機信息技術(shù)對傳統(tǒng)歷史學(xué)的影響》,《杭州大學(xué)學(xué)報》1998年第2期;王文濤:《古籍?dāng)?shù)字資料應(yīng)用與史學(xué)研究》,《史學(xué)月刊》2009年第1期;陳鵬:《新世紀(jì)以來的史料型數(shù)據(jù)庫建設(shè)與中國近代史研究》,《國家圖書館學(xué)刊》2013年6期。
(9)程之:《香港推出〈文淵閣四庫全書電子版〉》,《出版參考》1999年第16期。
(10)《中國基本古籍庫光盤工程基本完成》,《圖書館理論與實踐》2001年第2期。
(11)張軸材:《〈四庫全書〉電子版工程與中文信息技術(shù)》,《電子出版》1999年第3期;朱巖:《談古籍?dāng)?shù)位化》,澳門圖書館編:《“兩岸三地古籍與地方文獻”會議論文集》,澳門圖書館,2002年,第143-150頁。
(12)涂豐恩、杜協(xié)昌、陳詩沛、何浩洋、項潔:《當(dāng)資訊科技遇到史料——臺灣歷史數(shù)位圖書館中的未解問題》,項潔編:《數(shù)位人文研究的新視野:基礎(chǔ)與想象》,臺灣大學(xué)出版中心,2011年,第21-44頁;項潔、翁稷安:《數(shù)位人文和歷史研究》,項潔編:《數(shù)位人文在歷史學(xué)研究的應(yīng)用》,臺灣大學(xué)出版中心,2011年,第11-20頁。
(13)鄭振滿:《民間歷史文獻與民間文化傳承研究》,《東南學(xué)術(shù)》2004年第1期;梁勇、鄭振滿、鄭莉:《新史料與新史學(xué)--鄭振滿教授訪談》,《學(xué)術(shù)月刊》2012年第4期。
(14)喬秀巖:《古籍整理的理論與實踐》,《版本目錄學(xué)研究》第1輯,國家圖書館出版社,2009年,第7頁。
(15)中島樂章:《明代鄉(xiāng)村糾紛與秩序:以徽州文書為中心》,郭萬平、高飛譯,江蘇人民出版社,2010年,第43頁。
(16)張潔、李芳、湯萌:《契約文書描述性元數(shù)據(jù)規(guī)范設(shè)計與應(yīng)用》,未刊稿。
(17)何浩洋(Hou Leong Ho):《MARKUS:中文古籍半自動標(biāo)記平臺》,www.academia.edu,發(fā)布:2014-12,訪問時間:2015-11-27。
(18)蔣勤:《清代石倉文書的“在地”與“有機”分析》,《上海交通大學(xué)學(xué)報》2014年第3期。
(19)馮惠玲:《論檔案整理理論的演變與發(fā)展》,載吳寶康、丁永奎:《當(dāng)代中國檔案學(xué)論》,中國檔案出版社,1988年,第115-167頁。
(20)黃霄羽:《魂系歷史主義——西方檔案學(xué)支柱理論發(fā)展研究》,中國人民大學(xué)出版社,2006年,第35頁。
(21)劉志偉:《在國家與社會之間:明清廣東地區(qū)里甲賦役制度與鄉(xiāng)村社會(修訂版)》,中國人民大學(xué)出版社,2010年,第201頁。
(22)陸隴其:《蒞政摘要》卷上第12頁,《官箴書集成》第2冊,黃山書社,1997年,第628頁。
(23)劉志偉:《在國家與社會之間——明清廣東地區(qū)里甲賦役制度與鄉(xiāng)村社會(修訂版)》,第197-204頁。
(24)劉伯山:《徽州文書的遺存及特點》,《歷史檔案》2004年第1期。
(25)嚴(yán)中平致中央檔案館函(1962年2月6日),安徽省檔案館藏,轉(zhuǎn)引自嚴(yán)桂夫、王國鍵:《徽州文書檔案》,安徽人民出版社,2003年,第11頁。
(26)民間歷史文獻整理方法演進的學(xué)術(shù)史,參見楊培娜、申斌:《走向民間歷史文獻學(xué)——20世紀(jì)民間文獻搜集整理方法的演進歷程》,《中山大學(xué)學(xué)報》2014年第5期;張侃:《20世紀(jì)以來民間文獻研究的學(xué)理述略》,“第七屆民間歷史文獻論壇”,廈門大學(xué),2015年。
(27)趙思淵:《19世紀(jì)徽州鄉(xiāng)村的土地市場、信用機制與關(guān)系網(wǎng)絡(luò)》,《近代史研究》2015年第3期。
作者簡介 / 轉(zhuǎn)載聲明
趙思淵,上海交通大學(xué)人文學(xué)院歷史系講師。
原文刊發(fā)于《清史研究》 2016年第4期,轉(zhuǎn)自微信公眾號“寫本文獻學(xué)微刊”,已獲得原作者授權(quán)。
