站內(nèi)搜索 / download
The Digitization of Local Historical Archives,Creation of Metadata,and Datamining
摘 要
歷史文獻(xiàn)數(shù)據(jù)庫(kù)可區(qū)分為數(shù)字化、數(shù)據(jù)化、文本挖掘三種不同形態(tài),迄今多數(shù)中文歷史文獻(xiàn)數(shù)據(jù)庫(kù)實(shí)現(xiàn)了數(shù)字化功能,部分地實(shí)現(xiàn)數(shù)據(jù)化功能,而能夠?qū)崿F(xiàn)文本挖掘功能的則十分少見(jiàn)。數(shù)字化是將文獻(xiàn)的物理形態(tài)轉(zhuǎn)化為電子形態(tài),數(shù)據(jù)化是將文獻(xiàn)轉(zhuǎn)化為可量化分析的數(shù)據(jù),編制元數(shù)據(jù)是主要方法。文本發(fā)掘是在此基礎(chǔ)上開(kāi)發(fā)文本分析工具?!吨袊?guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》以文獻(xiàn)學(xué)研究為基礎(chǔ),建立特定的元數(shù)據(jù)結(jié)構(gòu),提供交叉導(dǎo)航、數(shù)據(jù)統(tǒng)計(jì)等多種功能,這些功能不僅可以幫助研究者找到自己的所需文獻(xiàn),更可能幫助研究者發(fā)現(xiàn)新的研究議題。史學(xué)研究中,數(shù)據(jù)庫(kù)有必要被視作一種新的文獻(xiàn)形態(tài),建立針對(duì)性的文獻(xiàn)學(xué)方法論。
1
引 言
數(shù)字化(digitalization)、數(shù)據(jù)化(datalization)、文本挖掘(text mining)是歷史文獻(xiàn)數(shù)據(jù)庫(kù)的三種不同形態(tài)。數(shù)字化是將文獻(xiàn)從物理形態(tài)轉(zhuǎn)化為電子形態(tài),數(shù)據(jù)化是將電子形態(tài)進(jìn)一步轉(zhuǎn)換為可識(shí)別的文本與可分析的數(shù)據(jù),文本挖掘則是針對(duì)文本、數(shù)據(jù)做進(jìn)一步的計(jì)量、相關(guān)性、GIS分析。本文將嘗試提出并解釋3種數(shù)據(jù)庫(kù)形態(tài)分類的依據(jù),并以《中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》為例說(shuō)明如何實(shí)現(xiàn)數(shù)據(jù)化與文本挖掘。最后,本文將提出一個(gè)有待解決的問(wèn)題,史學(xué)研究中,數(shù)據(jù)庫(kù)是否已經(jīng)有必要視作一種新的文獻(xiàn)形態(tài),并建立針對(duì)性的文獻(xiàn)學(xué)方法論?
2012年以來(lái)《中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》由上海交通大學(xué)出版社、圖書館、歷史系合作開(kāi)發(fā)。該數(shù)據(jù)庫(kù)由上海交通大學(xué)歷史系收集資料,并提出數(shù)據(jù)庫(kù)建設(shè)構(gòu)想,于2012-2013年間由上海交大圖書館進(jìn)行文獻(xiàn)整理與數(shù)據(jù)加工,2013年以來(lái)由上海交大出版社進(jìn)行數(shù)據(jù)庫(kù)研發(fā)。該數(shù)據(jù)庫(kù)主要收錄上海交通大學(xué)2009年以來(lái)陸續(xù)收集的浙江、安徽、福建等地地方歷史文獻(xiàn)及2007年以來(lái)曹樹(shù)基收集、授權(quán)復(fù)制的《石倉(cāng)契約》,總計(jì)近35萬(wàn)件,目前已進(jìn)入數(shù)據(jù)庫(kù)的有10萬(wàn)余件。
2
從數(shù)據(jù)化到
文本挖掘:歷史文獻(xiàn)數(shù)據(jù)庫(kù)的演進(jìn)
數(shù)字化并非一個(gè)新鮮概念,通常語(yǔ)境中,數(shù)字化是指將文獻(xiàn)的物理形態(tài)轉(zhuǎn)化為電子形態(tài),或者說(shuō)將模擬數(shù)據(jù)轉(zhuǎn)換為二進(jìn)制數(shù)據(jù)。但電子形態(tài)的文獻(xiàn)除了易于傳播外,并不能增強(qiáng)文獻(xiàn)的利用價(jià)值。如今天廣泛傳播于網(wǎng)絡(luò)的書籍掃描電子檔,對(duì)讀者來(lái)說(shuō),只是將閱讀載體從紙本書變成了電腦屏幕,并未真正改變使用者利用文獻(xiàn)的方式。如果將“大數(shù)據(jù)時(shí)代”理解為書籍電子檔橫行的時(shí)代,則遠(yuǎn)不能視為歷史學(xué)研究的重大變革。
真正能夠改變文獻(xiàn)利用方式的是數(shù)據(jù)化,也即將文獻(xiàn)轉(zhuǎn)化為可制表分析的量化形式。歷史文獻(xiàn)中包含的產(chǎn)量、價(jià)格等信息,可以被轉(zhuǎn)換為量化數(shù)據(jù),其他描述性的信息,也應(yīng)通過(guò)某種形式轉(zhuǎn)換為可量化分析的數(shù)據(jù),這是歷史文獻(xiàn)數(shù)據(jù)化的理想狀態(tài)。目前在針對(duì)歷史文獻(xiàn)的研究方法中,常用的是詞頻分析、GIS以及關(guān)系網(wǎng)絡(luò)分析等。
數(shù)據(jù)化的意義是將利用文獻(xiàn)的方式從“讀”轉(zhuǎn)變?yōu)椤胺治觥?,其核心方法是重組文獻(xiàn)內(nèi)容,置入使用者所建立的新的文本或數(shù)據(jù)結(jié)構(gòu)中,也即文獻(xiàn)的結(jié)構(gòu)化。歷史學(xué)研究中,這也并非新鮮事物。計(jì)算機(jī)出現(xiàn)之前,史學(xué)研究者已經(jīng)在制作史料編年、人物關(guān)系表,經(jīng)濟(jì)史與社會(huì)史研究中也早已整理了各種數(shù)據(jù)序列。如何炳棣研究科舉與中國(guó)社會(huì)流動(dòng)性的關(guān)系,在朱卷基礎(chǔ)上建立的龐大數(shù)據(jù)表并未借助計(jì)算機(jī)技術(shù)。計(jì)算機(jī)技術(shù)帶來(lái)的革新使得研究者可以更高效率地建立并使用數(shù)據(jù)。如王業(yè)鍵主持建立的《清代糧價(jià)資料庫(kù)》,該數(shù)據(jù)庫(kù)建成于2008年,最初依靠代碼表查詢數(shù)據(jù),現(xiàn)在已可利用下拉列表查詢時(shí)間、地域、糧別,是中國(guó)經(jīng)濟(jì)史研究的基礎(chǔ)性數(shù)據(jù)。
給歷史學(xué)帶來(lái)真正深刻變革的是,計(jì)算機(jī)技術(shù)提供了分析數(shù)據(jù)化文獻(xiàn)的復(fù)雜工具。文本挖掘的理念,正是由此興起。從數(shù)據(jù)化到文本挖掘的演進(jìn),以“數(shù)字人文”(digital humanity)概念的興起為標(biāo)志。這一理念引導(dǎo)了數(shù)據(jù)庫(kù)建設(shè)、開(kāi)發(fā)思路的轉(zhuǎn)變,人文學(xué)研究者不再是被動(dòng)選擇既有的數(shù)據(jù)庫(kù),而是參與數(shù)據(jù)庫(kù)建設(shè)過(guò)程,由其自身研究需要引導(dǎo)數(shù)據(jù)庫(kù)開(kāi)發(fā),數(shù)據(jù)庫(kù)開(kāi)發(fā)過(guò)程也就成為其研究的一部分。
“數(shù)字人文”概念在20世紀(jì)90年代興起,逐漸取代20世紀(jì)70年代以來(lái)的“人文電算”(humanity computing)概念,成為一個(gè)增長(zhǎng)迅速的交叉研究領(lǐng)域。項(xiàng)潔、王曉光等已經(jīng)先后梳理了數(shù)字人文概念在西方學(xué)界的發(fā)展及其在中文人文研究中的適用性。筆者認(rèn)為數(shù)字人文研究還可細(xì)分為文獻(xiàn)數(shù)據(jù)庫(kù)、線上博物館、網(wǎng)絡(luò)文本(cyber born text)分析三個(gè)子領(lǐng)域。
總的來(lái)看,西方數(shù)字人文研究更多的力量集中于對(duì)網(wǎng)絡(luò)文本的分析?;ヂ?lián)網(wǎng)出現(xiàn)以來(lái)所積累的各類型線上數(shù)據(jù),數(shù)量已經(jīng)十分龐大,自然成為研究者們關(guān)注的焦點(diǎn)。而且這類研究直接與互聯(lián)網(wǎng)經(jīng)濟(jì)相關(guān),很多不同學(xué)科的學(xué)者都有興趣介入。線上博物館所關(guān)心的則是如何將傳統(tǒng)藝術(shù)領(lǐng)域的“展示”轉(zhuǎn)變?yōu)樵诰€的、可視化的、互動(dòng)的。
相較而言,歷史文獻(xiàn)雖然留存數(shù)量龐大,但已經(jīng)電子化的規(guī)模仍遠(yuǎn)遠(yuǎn)少于網(wǎng)絡(luò)文本,并且歷史文獻(xiàn)數(shù)據(jù)庫(kù)研究的收益回報(bào)也顯然低于網(wǎng)絡(luò)文本研究。因此,針對(duì)歷史文獻(xiàn)的數(shù)字人文研究并沒(méi)有如網(wǎng)絡(luò)文本那樣活躍。雖然如此,如前所述,不論在西方學(xué)界或中文學(xué)界,都已經(jīng)有很多數(shù)字人文導(dǎo)向的歷史文獻(xiàn)數(shù)字化或數(shù)據(jù)分析研究。今后的歷史文獻(xiàn)數(shù)字化過(guò)程中,數(shù)字人文導(dǎo)向?qū)⑹且粋€(gè)總的趨勢(shì)。
近年歐洲史研究中已經(jīng)出現(xiàn)越來(lái)越多以文本挖掘?yàn)橹饕康牡臄?shù)據(jù)庫(kù)或分析工具。如Tara Andrews開(kāi)發(fā)的拜占庭文書???critical editing)工具。此外,荷蘭、比利時(shí)等國(guó)家在2013年集中討論了“大數(shù)據(jù)”(big data)對(duì)歷史學(xué)研究的影響,他們所開(kāi)發(fā)的Biland數(shù)據(jù)庫(kù)以及WAHSP數(shù)據(jù)庫(kù)可以對(duì)17—18世紀(jì)歐洲的媒體資料進(jìn)行詞頻分析、語(yǔ)言比較分析,為人文學(xué)者提供幫助。
中國(guó)史研究中,21世紀(jì)初時(shí)已有不少學(xué)者開(kāi)始考慮如何使用數(shù)據(jù)庫(kù)便利文獻(xiàn)檢索與研究。這些討論中,多數(shù)學(xué)者的關(guān)注點(diǎn)是如何使用數(shù)據(jù)庫(kù),而較少涉及如何開(kāi)發(fā)針對(duì)性的數(shù)據(jù)庫(kù),研究者參與數(shù)據(jù)庫(kù)設(shè)計(jì)、開(kāi)發(fā)者更少。這一時(shí)期代表性的中國(guó)史史料數(shù)據(jù)庫(kù)是《文淵閣四庫(kù)全書》電子版與《中國(guó)基本古籍庫(kù)》?!段臏Y閣四庫(kù)全書》電子版由上海人民出版社與香港迪志文化公司、香港中文大學(xué)共同開(kāi)發(fā),于1999年投入市場(chǎng)。《中國(guó)基本古籍庫(kù)》于1998年作為高校古委會(huì)項(xiàng)目立項(xiàng),由北京大學(xué)領(lǐng)銜開(kāi)發(fā),完成于2001年,此后陸續(xù)投入市場(chǎng)。
作為第一代中文史料數(shù)據(jù)庫(kù),當(dāng)時(shí)的主要技術(shù)難點(diǎn)是文字錄入與標(biāo)準(zhǔn)化,實(shí)際也就是數(shù)據(jù)化問(wèn)題。《四庫(kù)全書》電子版在研發(fā)中曾與清華大學(xué)計(jì)算機(jī)系合作,開(kāi)發(fā)“多特定人準(zhǔn)規(guī)范手寫OCR引擎”,用于文字自動(dòng)錄入。如何處理Unicode字符集之外的文字,以及如何利用XML語(yǔ)言建立文字標(biāo)引,在當(dāng)時(shí)都是有待解決的技術(shù)難題。傳統(tǒng)文獻(xiàn)學(xué)中的版本考辨,也是這類數(shù)據(jù)庫(kù)所面臨的困境,在當(dāng)時(shí)的開(kāi)發(fā)條件下并沒(méi)有很好地解決。此外,《四庫(kù)全書》電子版與《中國(guó)基本古籍庫(kù)》最初都使用光盤版發(fā)行,這是由當(dāng)時(shí)的技術(shù)條件與網(wǎng)絡(luò)速度決定的。
因此,以上數(shù)據(jù)庫(kù)所體現(xiàn)的設(shè)計(jì)理念是將其視作檢索、獲得文獻(xiàn)文本的儲(chǔ)存平臺(tái)。盡管當(dāng)時(shí)的研究者已經(jīng)認(rèn)為“電子版不是紙版翻印”,應(yīng)當(dāng)具有豐富的研究功能與工具,但是他們所指的研究功能主要還是檢索功能。
2007年以來(lái),歷史文獻(xiàn)數(shù)字化的范圍擴(kuò)大到古籍以外。有越來(lái)越多學(xué)者討論民間歷史文獻(xiàn)、地方歷史文獻(xiàn)數(shù)據(jù)庫(kù),除歷史學(xué)者外,也有圖書館學(xué)學(xué)者基于各圖書館的館藏情況,提出特色文獻(xiàn)數(shù)據(jù)庫(kù)建設(shè)構(gòu)想。但不論怎樣討論歷史文獻(xiàn)數(shù)據(jù)庫(kù)的使用或建設(shè),多數(shù)研究者構(gòu)想的主要是數(shù)據(jù)庫(kù)的資料儲(chǔ)存、文本檢索功能,而較少考慮如何使用數(shù)據(jù)庫(kù)中幫助研究者分析文本。
中文民間文書、地方文獻(xiàn)數(shù)據(jù)庫(kù)中,迄今文本分析、數(shù)據(jù)處理功能最為完備的是臺(tái)灣歷史數(shù)字圖書館(THDL),該數(shù)據(jù)庫(kù)由項(xiàng)潔領(lǐng)導(dǎo)的臺(tái)灣大學(xué)數(shù)字人文研究中心開(kāi)發(fā),主要收錄臺(tái)灣地區(qū)契約文書及臺(tái)灣總督府檔案。THDL中提供詞頻分析、上下手契關(guān)聯(lián)分析、人物相關(guān)性分析等不同功能,還可以部分地實(shí)現(xiàn)契約空間分布的展示。THDL提出了數(shù)據(jù)庫(kù)建設(shè)的新理念,那就是數(shù)據(jù)庫(kù)的主要功能是為研究者提供研究環(huán)境并幫助研究者發(fā)現(xiàn)問(wèn)題,而非僅僅是儲(chǔ)存與檢索。
由上可見(jiàn),迄今流行于網(wǎng)絡(luò)中的中文歷史文獻(xiàn)電子資源中,數(shù)量最龐大的是掃描、錄文、影像等數(shù)字化資源,如大量的書籍掃描電子檔,以及部分全文檢索數(shù)據(jù)庫(kù)。此外借助計(jì)算機(jī)技術(shù)實(shí)現(xiàn)的文獻(xiàn)數(shù)據(jù)化成果正在逐步積累,如王業(yè)鍵主編的《清代糧價(jià)數(shù)據(jù)庫(kù)》。數(shù)據(jù)化基礎(chǔ)之上,文本挖掘的發(fā)展還比較有限,其代表是臺(tái)灣歷史數(shù)位圖書館。
數(shù)字人文導(dǎo)向,提供文本挖掘能力將是今后歷史文獻(xiàn)數(shù)據(jù)庫(kù)開(kāi)發(fā)的大趨勢(shì)。但是,如何數(shù)據(jù)化?研發(fā)怎樣的工具能夠?qū)崿F(xiàn)文本挖掘?中文史料數(shù)字化的進(jìn)程中,以上問(wèn)題還尚在探索之中,成熟的案例并不多。因此,我們?cè)陂_(kāi)發(fā)《中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》時(shí),將以上問(wèn)題作為我們的研究焦點(diǎn)。
3
基于文獻(xiàn)性質(zhì)的
數(shù)據(jù)庫(kù)結(jié)構(gòu)與分析工具研發(fā)
我們?cè)陂_(kāi)發(fā)《中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》的過(guò)程中意識(shí)到,對(duì)文獻(xiàn)進(jìn)行有效的數(shù)據(jù)化,并開(kāi)發(fā)有效的分析工具,必須以對(duì)文獻(xiàn)性質(zhì)的深入研究為基礎(chǔ)。數(shù)據(jù)庫(kù)開(kāi)發(fā)中,我們主要面臨兩個(gè)問(wèn)題,第一,如何針對(duì)地方歷史文獻(xiàn)的文獻(xiàn)性質(zhì),進(jìn)行有效的數(shù)據(jù)化。數(shù)據(jù)化不僅僅是文字錄入,更重要的是為文獻(xiàn)設(shè)計(jì)元數(shù)據(jù)(metadata)。利用元數(shù)據(jù)標(biāo)引并標(biāo)準(zhǔn)化文獻(xiàn)中的信息,才有可能將文獻(xiàn)中的描述內(nèi)容轉(zhuǎn)變?yōu)榭煞治龅臄?shù)據(jù)。
第二,如何從數(shù)字人文的理念出發(fā),開(kāi)發(fā)更多有助于研究者的分析工具。今天計(jì)算機(jī)技術(shù)能夠提供的分析功能非常多,但不同的軟件、分析工具,都對(duì)數(shù)據(jù)類型有特定的要求,因此需要考慮特定的文獻(xiàn)類型可以被處理成怎樣的數(shù)據(jù)形態(tài),并據(jù)此做針對(duì)性的分析工具開(kāi)發(fā)。為了解決這兩個(gè)問(wèn)題,首先必須對(duì)地方歷史文獻(xiàn)的性質(zhì)做一分析。
本文所討論的地方歷史文獻(xiàn),主要指兩類材料,一類文獻(xiàn)是留存于民間,產(chǎn)生于民間的日常生活,以手寫為主,未經(jīng)過(guò)出版暨知識(shí)再整理的過(guò)程,也可稱之為民間歷史文獻(xiàn)或民間文書。另一類文獻(xiàn)是由地方政府形成的各種檔案。這里所說(shuō)的地方政府主要指作為“親民之官”的縣級(jí)或次縣級(jí)行政機(jī)構(gòu),對(duì)于明清時(shí)代來(lái)說(shuō),也可包含府(州、廳)級(jí)行政機(jī)構(gòu)。如民國(guó)時(shí)期江津縣保留了2萬(wàn)余卷司法訴訟檔案,通過(guò)這些檔案,可對(duì)20世紀(jì)上半葉的江津地方社會(huì)做深入研究。
這類材料與一般意義上的“古籍”具有不同的文獻(xiàn)學(xué)特征。古籍是經(jīng)過(guò)有意識(shí)的書寫與知識(shí)再組織之后形成的,地方歷史文獻(xiàn)的文本形成之后,沒(méi)有經(jīng)過(guò)一個(gè)知識(shí)再組織的過(guò)程,這些文本經(jīng)歷了一個(gè)功能性使用的周期后,就被以其使用中的形態(tài)保存起來(lái)。這意味著,首先,這類文獻(xiàn)的每一件都是獨(dú)一無(wú)二的,幾乎沒(méi)有復(fù)本。進(jìn)而,由于沒(méi)有復(fù)本并且未經(jīng)過(guò)知識(shí)再組織,這類文本并不形成版本,古籍則具有抽象概念的“書”與作為實(shí)體的“版本”之間的分離。這就意味著整理地方歷史文獻(xiàn)時(shí),版本整理、??辈皇侵饕y點(diǎn)。
地方歷史文獻(xiàn)與古籍的另一個(gè)差異是,地方歷史文獻(xiàn)更多情況是碎片化的,單個(gè)文本的字?jǐn)?shù)少,古籍整理中所注重的文本內(nèi)關(guān)系,如篇章順序、自校等,在地方歷史文獻(xiàn)中雖然也存在,但不是非常顯著。整理地方歷史文獻(xiàn)時(shí)更注重文獻(xiàn)之間的關(guān)系,以明清史學(xué)界整理過(guò)程最久的徽州文書為例,以下學(xué)者們所提出的徽州文書特性,或可啟發(fā)我們理解地方歷史文獻(xiàn)的特性。
資料來(lái)源: 周紹泉: 《徽州文書與徽學(xué)》,《歷史研究》,2000 年第 1 期; 臼井佐知子: 《徽州文書と徽州研究》,載森正夫明清時(shí)代史の基本問(wèn)題》,汲古書院,1997; 中島樂(lè)章著、郭萬(wàn)平、高飛譯: 《明代鄉(xiāng)村糾紛與秩序: 以徽州文書為中心》,南京: 江蘇人民出版社,2006; 嚴(yán)桂夫、王國(guó)鍵: 《徽州文書檔案的特點(diǎn)與價(jià)值》,《檔案學(xué)研究》,2001 年第 1 期; 劉伯徽州文書的遺存及特點(diǎn)》,《歷史檔案》,2004 年第 1 期。
周紹泉認(rèn)為徽州文書具有真實(shí)性,因?yàn)榛罩菸臅菑膶?shí)際生活中直接形成的文件。他所說(shuō)的典型性則是指利用徽州文書可以形成一個(gè)個(gè)具有代表性的個(gè)案研究。中島樂(lè)章所說(shuō)的原始性,其含義接近與周紹泉所述的真實(shí)性,特別強(qiáng)調(diào)徽州文書來(lái)自實(shí)際生活。另外,中島樂(lè)章所說(shuō)的豐富性是指:“徽州學(xué)研究的最大優(yōu)勢(shì)在于,以徽州文書為中心,大量地保存了長(zhǎng)時(shí)期族譜等文獻(xiàn)史料和建筑等非文獻(xiàn)史料?!锌赡芑謴?fù)包括民眾文化、日常生活在內(nèi)的一個(gè)地方社會(huì)的全貌?!眹?yán)桂夫和王國(guó)鍵所說(shuō)的系統(tǒng)完整,與劉伯山所述的連續(xù)性具有相近含義,均強(qiáng)調(diào)徽州文書的來(lái)源是可追溯的,文書之間的內(nèi)部聯(lián)系是有機(jī)的,可以復(fù)原的。
以上各位代表性學(xué)者所提出的徽州文書特性,可以歸納為以下共同點(diǎn):第一,所有學(xué)者都認(rèn)為徽州文書存量之大,內(nèi)容之豐富,是同時(shí)代其他文獻(xiàn)群難以匹敵的。第二,相對(duì)于傳世文獻(xiàn),徽州文書的特別之處是其保持了原始記錄,同時(shí)具有完整的、有機(jī)的文獻(xiàn)內(nèi)部聯(lián)系。
地方歷史文獻(xiàn)的單件當(dāng)然也具有研究?jī)r(jià)值。以契約文書為例,傅衣凌、章有義、楊國(guó)楨等前輩學(xué)者都曾依據(jù)一件件獨(dú)立的、經(jīng)過(guò)選擇的契約解釋明清鄉(xiāng)村的地權(quán)結(jié)構(gòu)。但隨著研究的深入,對(duì)單件文書的分析、考釋,常常不能滿足研究的需要,即使在傅衣凌開(kāi)創(chuàng)契約文書研究的時(shí)期,當(dāng)他對(duì)契約文書內(nèi)容和類型進(jìn)行了解釋和考釋之后,也轉(zhuǎn)入了以時(shí)間、地域等關(guān)系對(duì)多件契約做綜合分析的研究??梢哉f(shuō),地方歷史文獻(xiàn)碎片化的形態(tài)決定了其每一個(gè)單件的研究?jī)r(jià)值通常要置于一個(gè)整體中才能被發(fā)現(xiàn),即其研究應(yīng)當(dāng)以一個(gè)“文獻(xiàn)群”為單位展開(kāi)。
以上差異決定了,地方歷史文獻(xiàn)不能使用既有的古籍?dāng)?shù)據(jù)化方法。多數(shù)古籍的數(shù)據(jù)編目,都可參照現(xiàn)代書籍標(biāo)準(zhǔn)。但在地方歷史文獻(xiàn)的文獻(xiàn)結(jié)構(gòu)中,著作人、出版方、出版地點(diǎn)等等都是不主要的,甚至是不存在的信息。因此,必須設(shè)計(jì)針對(duì)性的元數(shù)據(jù)方案。
數(shù)據(jù)庫(kù)開(kāi)發(fā)實(shí)踐中,我們參照?qǐng)D書館界通行的都柏林原則(Dublin Core)設(shè)計(jì)了事主、題名、時(shí)間、地域、文獻(xiàn)類型等元數(shù)據(jù)項(xiàng)目。數(shù)據(jù)庫(kù)中元數(shù)據(jù)格式主要實(shí)現(xiàn)兩種功能。其一是識(shí)別每一件文獻(xiàn),并說(shuō)明文獻(xiàn)的性質(zhì),如文獻(xiàn)編號(hào)、資源類型。其二是對(duì)文獻(xiàn)內(nèi)容的描述,地方歷史文獻(xiàn)所涉及的內(nèi)容千差萬(wàn)別,設(shè)計(jì)能夠適用于全部文獻(xiàn)的元數(shù)據(jù)是非常困難的。因此元數(shù)據(jù)的設(shè)計(jì)必須具有高度的彈性,能夠涵納多數(shù)文獻(xiàn),如文獻(xiàn)名稱、涉及人名(事主)、文獻(xiàn)歸戶、日期等,幾乎所有文獻(xiàn)中都具備。但另一方面,針對(duì)存量特別多的文獻(xiàn),也需要針對(duì)性設(shè)計(jì)。從目前粗略的統(tǒng)計(jì)看,契約、賬簿占到文獻(xiàn)收藏的60%左右,因此也設(shè)計(jì)了如標(biāo)的、金額等此類材料所特有的元素。
從資料中提取元數(shù)據(jù)可以采用人工與半自動(dòng)標(biāo)記(semi-automate tag)甚至全自動(dòng)的方式。上海交通大學(xué)目前采取的是人工編目的方式,但是社會(huì)學(xué)界及數(shù)字人文領(lǐng)域已有一些可應(yīng)用于中文文獻(xiàn)的半自動(dòng)標(biāo)記工具,可以預(yù)見(jiàn),這將成為今后的一個(gè)趨勢(shì)。
4
歸戶:
制度史源流、整理方法、元數(shù)據(jù)
以上元數(shù)據(jù)格式中,歸戶是我們首創(chuàng)的元數(shù)據(jù)項(xiàng)目。這個(gè)元數(shù)據(jù)項(xiàng)能夠幫助使用者感受到文獻(xiàn)本來(lái)的特性,也是進(jìn)一步開(kāi)發(fā)分析工具的基礎(chǔ)。“歸戶”元數(shù)據(jù)項(xiàng)體現(xiàn)了我們提出的基于對(duì)文獻(xiàn)性質(zhì)的理解構(gòu)建元數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)庫(kù)開(kāi)發(fā)理念。
之所以提出這項(xiàng)設(shè)計(jì),是因?yàn)槲覀兠媾R一個(gè)困境:地方歷史文獻(xiàn)與書籍存在文獻(xiàn)性質(zhì)的差異,其研究?jī)r(jià)值必須以一個(gè)“文獻(xiàn)群”為單位,那么,如何確定一個(gè)文獻(xiàn)群的范圍?如何在數(shù)據(jù)化中體現(xiàn)一個(gè)文獻(xiàn)群的內(nèi)在聯(lián)系?
一個(gè)具有研究?jī)r(jià)值的文獻(xiàn)群,應(yīng)當(dāng)是一組具有內(nèi)在邏輯關(guān)系的文獻(xiàn)所組成的整體,特別是那些由生產(chǎn)自同一個(gè)來(lái)源的文獻(xiàn)所形成的整體,如出自同一個(gè)家族的全部文書,或同屬一個(gè)案卷(record)的全部檔案。凡是屬于同一個(gè)文獻(xiàn)群的文獻(xiàn),即使是在研究者看來(lái)可能并無(wú)價(jià)值的殘件,整理時(shí)都應(yīng)當(dāng)全部收錄。在《石倉(cāng)契約》的整理與研究過(guò)程中,以上方法被歸納為“有機(jī)”的研究方法。
進(jìn)而我們發(fā)現(xiàn),檔案學(xué)中的全宗原則、來(lái)源原則對(duì)如何界定一個(gè)文獻(xiàn)群有直接的借鑒意義。如果參照全宗原則與來(lái)源原則,來(lái)自明清賦役制度以及徽州文書的“歸戶”概念則是最有效界定文獻(xiàn)群的方法。
全宗原則和來(lái)源原則是19、20世紀(jì)之交檔案學(xué)逐漸發(fā)展出的檔案管理理論。16至18世紀(jì)的歐洲國(guó)家,其檔案管理本來(lái)依據(jù)“事由原則”,即按照檔案內(nèi)容對(duì)檔案進(jìn)行分類保管。19世紀(jì)之后,本來(lái)的王室檔案館與行政機(jī)關(guān)文件登記室逐漸轉(zhuǎn)變?yōu)閲?guó)家檔案館,并且從封閉保密轉(zhuǎn)為開(kāi)放查閱,檔案來(lái)源與檔案查閱需求也隨之多元化,因而,本來(lái)封閉的、依照邏輯進(jìn)行主題分類的檔案管理辦法不再能滿足需要。有的檔案可以歸入多個(gè)分類,或者有的檔案不能按照現(xiàn)有分類歸檔,這都給檔案管理造成困難。
1841年,法國(guó)內(nèi)政部第14號(hào)通令頒布省檔案館條理,規(guī)定:“來(lái)源于一個(gè)團(tuán)體、一個(gè)機(jī)構(gòu)、一個(gè)家庭或者一個(gè)人的所有文件都要組成全宗;檔案管理人員不得把全宗拆散或?qū)⒉煌娜诨煸谝黄??!边@一條例規(guī)定提出了“尊重全宗原則”(the principle of respect pour les fonds),成為“來(lái)源原則”、“全宗原則”之濫觴。
繼法國(guó)之后,1881年德國(guó)國(guó)家檔案館發(fā)布《國(guó)家機(jī)密檔案館檔案整理?xiàng)l例》,其中提出“國(guó)家機(jī)密檔案館內(nèi)文件按其組成部分的來(lái)源進(jìn)行整理”以及“每一機(jī)關(guān)一旦開(kāi)始移交文件,就要立即指定一部分庫(kù)房專放該機(jī)關(guān)的文件,在這部分庫(kù)房?jī)?nèi),官方文件要保持它在有關(guān)機(jī)關(guān)活動(dòng)過(guò)程中獲得的順序和標(biāo)志。”即“登記室原則”,這一原則之后發(fā)展為檔案學(xué)中通行“來(lái)源原則”。
地方歷史文獻(xiàn)中的每一個(gè)文獻(xiàn)群,正如同檔案學(xué)中所說(shuō)的“來(lái)源”。近年民間文書整理中所提出的“歸戶”概念,與來(lái)源原則有相似之處。歸戶是一個(gè)來(lái)自明清賦役制度的概念,意指賦役過(guò)割至地權(quán)買入人戶,如清初陸隴其總結(jié)地方官的為政經(jīng)驗(yàn),“受業(yè)之家”即地權(quán)買入方應(yīng)當(dāng)“割稅歸戶”,這里的“歸戶”是一個(gè)動(dòng)詞,為歸入買人戶之意。明清之際的賦役制度改革中,“歸戶”是一個(gè)總體性的原則。
夫有田則有賦,頑猾抵官者,誠(chéng)所當(dāng)治,而善良樂(lè)輸者,要當(dāng)與之覆議。其大要,則于移割宜加意焉。產(chǎn)去稅存,不可不察,民又以出業(yè)報(bào)者,便當(dāng)關(guān)會(huì)受業(yè)之家,割稅歸戶,然后卻、與、除、退,庶幾無(wú)泛追、無(wú)濫罰、無(wú)推攤抵捱之弊。
“歸戶”在明末演變?yōu)橐粋€(gè)名詞,徽州文書中存在“歸戶親供冊(cè)”、“歸戶清冊(cè)”等賦役冊(cè)籍,通常是一個(gè)納稅戶所有應(yīng)納稅糧之土地的登記,與陸隴其所稱之“歸戶”涵義相通。根據(jù)目前學(xué)界對(duì)清代賦役制度的理解,這些納稅戶通常是一些虛擬戶名,其背后可以是個(gè)人、家庭、宗族、會(huì)社或其他社會(huì)團(tuán)體。這些“戶”是納稅單位,同時(shí)也即經(jīng)濟(jì)活動(dòng)的單位,進(jìn)而也是產(chǎn)生契約、賬簿等民間文書的基本單位。
整理、研究民間文書的學(xué)術(shù)史中,劉伯山較早將“歸戶”作為一項(xiàng)原則,認(rèn)為徽州文書具有歸戶性。他在編輯《徽州文書》時(shí)將同屬一個(gè)家族的文書稱為歸戶文書。此后,越來(lái)越多學(xué)者將“歸戶性”視作民間文書的一項(xiàng)重要特性,研究者在整理清水江文書、太行山文書時(shí),也開(kāi)始重視歸戶整理的方法。
正如檔案學(xué)對(duì)“來(lái)源”的理解越趨復(fù)雜,隨著文獻(xiàn)收集越來(lái)越豐富,作為文獻(xiàn)收集、整理基本單位的“戶”、“歸戶”也應(yīng)當(dāng)具有更豐富的內(nèi)涵。事實(shí)上,早在1962年嚴(yán)中平已經(jīng)提出一項(xiàng)針對(duì)收集工作的建議,希望能夠“完整地”收集徽州文書。我們認(rèn)為嚴(yán)中平所說(shuō)的“完整”已經(jīng)包含了“歸戶”的整理原則。正如檔案保管從事由分類轉(zhuǎn)向來(lái)源分類,保管、整理地方歷史文獻(xiàn)也應(yīng)當(dāng)以文獻(xiàn)群或“歸戶”作為基本單位,從而取代按照內(nèi)容、年代等進(jìn)行整理的原則。因?yàn)檫@些文獻(xiàn)本來(lái)是以文“戶”為單位產(chǎn)生的,以“戶”或文獻(xiàn)群為單位進(jìn)行保管、分類,最能夠保持文獻(xiàn)內(nèi)部的有機(jī)聯(lián)系。同時(shí),“戶”的所指也應(yīng)更加豐富,舉凡家戶、家族、宗族、會(huì)社、寺廟等都可成為一“戶”。
因此在《中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》中,“歸戶”成為一個(gè)元數(shù)據(jù)項(xiàng)目,設(shè)計(jì)為“縣+姓氏”的形式,根據(jù)收集文獻(xiàn)時(shí)獲得的信息,標(biāo)注每件文獻(xiàn)所屬的縣份及姓氏,由此反映文獻(xiàn)與當(dāng)?shù)厝巳褐g可能存在的關(guān)系。在徽州及浙南等文獻(xiàn)脈絡(luò)更清晰的地方,文獻(xiàn)的歸戶信息還可細(xì)化到縣以下層級(jí),也即其所屬的“都”、“圖”、村落等。但縣以下行政區(qū)劃層級(jí)幾乎每一縣均不相同,因此在按照“歸戶”信息檢索的界面中,省去了縣以下層級(jí),而在元數(shù)據(jù)中,則以文字形式保留了這些信息。
為了彌補(bǔ)以上不足,元數(shù)據(jù)中又增加了“批次”信息,這是收錄于《中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》中每一個(gè)文獻(xiàn)群的編號(hào),這個(gè)編號(hào)是根據(jù)每個(gè)文獻(xiàn)群入藏的時(shí)間制作的,文獻(xiàn)群中的每一件文獻(xiàn)則在批次號(hào)的基礎(chǔ)上流水編號(hào)。批次號(hào)是對(duì)文獻(xiàn)群物理保存形態(tài)的反映。
5
文本挖掘:拓展數(shù)據(jù)庫(kù)應(yīng)用的可能性
研發(fā)《中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》時(shí),由于資金與技術(shù)的限制,并未設(shè)計(jì)嵌入數(shù)據(jù)庫(kù)的文本挖掘工具,但從數(shù)字人文的理念出發(fā),設(shè)計(jì)了兩種檢索方式以及兩組檢得文獻(xiàn)分析工具。研究者利用這些工具,就有可能進(jìn)行進(jìn)一步的文本挖掘與研究。
數(shù)據(jù)庫(kù)提供的基本檢索方法是輸入任意詞在整個(gè)數(shù)據(jù)庫(kù)中檢索,或者以下拉列表方式在題名、事主、歸戶、事由、分類中用任意詞檢索,也就是通常文獻(xiàn)數(shù)據(jù)庫(kù)都具備的普通檢索與高級(jí)檢索。另一種檢索方式是多維分類導(dǎo)航,也即利用時(shí)間、地域、歸戶、分類法等方法交叉瀏覽、檢索,尋找文獻(xiàn)。對(duì)于檢索所得文獻(xiàn),數(shù)據(jù)庫(kù)提供兩種分析工具,一種可以統(tǒng)計(jì)檢得文獻(xiàn)的地域分布、年代排序、類型分布,以及事主統(tǒng)計(jì)。另一種工具則可顯示檢得文獻(xiàn)的關(guān)聯(lián)文獻(xiàn),如屬于同一批次、同一地域、同一歸戶或同一事主的文獻(xiàn)及其數(shù)量。
建立以上檢索與分析工具的意義是為研究者提供更好的研究環(huán)境。通過(guò)檢索找到資料庫(kù)中的資料,是研究者使用數(shù)據(jù)庫(kù)的最基本需求,但是,歷史學(xué)研究不僅需要找到資料,更重要的是發(fā)現(xiàn)資料間的關(guān)系。歷史學(xué)研究中,文本記錄中的時(shí)間、空間、人物無(wú)疑是最重要的三組關(guān)系,我們?cè)噲D在數(shù)據(jù)庫(kù)中提供相應(yīng)的功能幫助研究者揭示資料群在這三個(gè)方面的關(guān)聯(lián)性。依據(jù)時(shí)間檢索,檢得資料時(shí)間分布統(tǒng)計(jì)正是為發(fā)現(xiàn)不同時(shí)間形成的資料間的關(guān)系而設(shè)計(jì)的。地域、歸戶等則是以不同形式分析、呈現(xiàn)資料的空間分布。文本中所有的人物信息則都被登記為事主。
以上功能設(shè)計(jì)還有可能進(jìn)一步幫助研究者發(fā)現(xiàn)新的資料或新的研究議題。以我們最近的一項(xiàng)研究為例,本來(lái)的研究計(jì)劃中,只是準(zhǔn)備分析清代徽州契約中代筆人與買賣雙方的親屬關(guān)系,在利用事主相關(guān)功能檢索一批文書中代筆人的身份時(shí),發(fā)現(xiàn)在一批契約中的代筆人江振玉同時(shí)還是當(dāng)?shù)鼐幹茪w戶冊(cè)的冊(cè)書,由此開(kāi)始研究清代鄉(xiāng)村中同時(shí)擔(dān)任半職業(yè)代筆與稅收職役的人群。
并且,編制元數(shù)據(jù)時(shí)提取了文書中的全部人物,也就有可能分析文書所反映的社會(huì)網(wǎng)絡(luò)。仍以上述研究為例。根據(jù)歙縣枧橋江氏家族所保存的100余份契約,可以建立該家族清代、民國(guó)時(shí)期的土地交易記錄數(shù)據(jù)庫(kù),圖1是根據(jù)數(shù)據(jù)庫(kù)繪制的當(dāng)?shù)赝恋亟灰咨鐣?huì)網(wǎng)絡(luò)。圖1中可以觀察到300余年間該家族有實(shí)力大宗購(gòu)入土地的主要成員,以及該家族購(gòu)買土地時(shí)主要使用的戶名。此外,利用分家書、家譜等其他資料,還可進(jìn)一步分析圖1中與該家族頻繁交易的人物身份。研究者由此可以了解當(dāng)?shù)厣鐣?huì)關(guān)系網(wǎng)絡(luò)對(duì)土地交易的影響。
6
結(jié)論:建立史料數(shù)據(jù)庫(kù)的文獻(xiàn)學(xué)方法
數(shù)字人文是最近20年來(lái)新興的交叉學(xué)科概念,對(duì)歷史學(xué)研究而言,引入這一概念的意義是促進(jìn)更多分析工具應(yīng)用于文獻(xiàn)整理與解讀。與古籍不同,地方歷史文獻(xiàn)未經(jīng)過(guò)知識(shí)重組,也相對(duì)碎片化,更注重文獻(xiàn)間的關(guān)聯(lián)性?!吨袊?guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》針對(duì)文獻(xiàn)特性設(shè)計(jì)元數(shù)據(jù)結(jié)構(gòu),從而實(shí)現(xiàn)對(duì)文獻(xiàn)的多維度檢索。尤其是我們根據(jù)文獻(xiàn)特性所提出的“歸戶”數(shù)據(jù)項(xiàng),將幫助研究者發(fā)掘文獻(xiàn)的內(nèi)在關(guān)聯(lián)。我們不僅期望這些功能設(shè)計(jì)可以便利研究者尋找史料,更期望以此幫助研究者發(fā)現(xiàn)新的研究議題。
元數(shù)據(jù)是可以被計(jì)算機(jī)識(shí)別的文獻(xiàn)描述,制作元數(shù)據(jù),也就是將文獻(xiàn)資料轉(zhuǎn)化為可被檢索、分析的數(shù)據(jù)的過(guò)程,這是將物理形態(tài)的史料轉(zhuǎn)化為可分析的數(shù)字形態(tài)的關(guān)鍵。如何設(shè)計(jì)元數(shù)據(jù)結(jié)構(gòu),很大程度上決定了文獻(xiàn)資料可以被如何檢索、分析。另一方面,數(shù)據(jù)庫(kù)的使用者有必要了解元數(shù)據(jù)結(jié)構(gòu),從而判斷哪些因素可能影響了自己的分析結(jié)果。
資料來(lái)源:《中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》,http://www.datahistory.cn,批次號(hào):0111120601。說(shuō)明:圖中以箭頭表示土地權(quán)利轉(zhuǎn)讓的方向,如圖中箭頭從江四九指向江萬(wàn)祥,表示土地權(quán)利從江四九轉(zhuǎn)讓至江萬(wàn)祥。圖中每個(gè)點(diǎn)的顏色表示其在交易中購(gòu)入地權(quán)的次數(shù),頻率越高,顏色越深。這里所說(shuō)的獲得地權(quán),包括買入、典入、抵押等形式。
因此,歷史文獻(xiàn)數(shù)據(jù)庫(kù)不僅是傳統(tǒng)史料的載體或“倉(cāng)庫(kù)”,其本身也將日漸形成一種獨(dú)立的文獻(xiàn)形態(tài)。歷史文獻(xiàn)學(xué)對(duì)傳統(tǒng)史料已經(jīng)形成了一套綿密、精細(xì)的處理方法,數(shù)據(jù)庫(kù)作為一種新的文獻(xiàn)形態(tài)也應(yīng)當(dāng)建立針對(duì)性的文獻(xiàn)學(xué)方法論。對(duì)元數(shù)據(jù)結(jié)構(gòu)的考辨可能應(yīng)當(dāng)是這種方法論的核心。史學(xué)理論對(duì)史實(shí)與史料關(guān)系的思考,也同樣適用于歷史文獻(xiàn)與數(shù)據(jù)庫(kù)。
參考文獻(xiàn)
(1)李芳、陳進(jìn)、王昕:《上海交通大學(xué)新藏地方歷史文獻(xiàn)的數(shù)字化建設(shè)規(guī)劃與實(shí)踐》,《大學(xué)圖書館學(xué)報(bào)》2015年第2期。
(2)維克托·邁爾·舍恩伯格:《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》,周濤譯,浙江人民出版社,第104頁(yè)。
(3)《清代糧價(jià)資料庫(kù)》,http://mhdb.mh.sinica.edu.tw/foodprice,發(fā)布日期:2014,訪問(wèn)時(shí)間:2016-07-26。
(4)項(xiàng)潔、陳麗華:《數(shù)位人文--學(xué)科對(duì)話與融合的新領(lǐng)域》,項(xiàng)潔編:《數(shù)位人文研究與技藝》,臺(tái)灣大學(xué)出版中心,第9-23頁(yè);王曉光:《“數(shù)字人文”的產(chǎn)生、發(fā)展與前沿》,《方法創(chuàng)新與哲學(xué)社會(huì)科學(xué)發(fā)展》,武漢大學(xué)出版社,2010年,第207-221頁(yè)。
(5)David M.Berry ed.,Understanding Digital Humanities,Palgrave Macmillan,2012,p.4.
(6)Tara Andrews,“The third way:philology and critical edition in the data age”,working paper,in Lectio Round Table Digital or critical/digital and critical?,Leuven,2011.
(7)Joris van Eijnatten,Toine Pieters,Jaap Verheul:“Big Data for Global History:The Transformative Promise of Digital Humanities”,Low Countries Historical Review,2013,128(4):pp.55-77.
(8)包偉民:《論當(dāng)前計(jì)算機(jī)信息技術(shù)對(duì)傳統(tǒng)歷史學(xué)的影響》,《杭州大學(xué)學(xué)報(bào)》1998年第2期;王文濤:《古籍?dāng)?shù)字資料應(yīng)用與史學(xué)研究》,《史學(xué)月刊》2009年第1期;陳鵬:《新世紀(jì)以來(lái)的史料型數(shù)據(jù)庫(kù)建設(shè)與中國(guó)近代史研究》,《國(guó)家圖書館學(xué)刊》2013年6期。
(9)程之:《香港推出〈文淵閣四庫(kù)全書電子版〉》,《出版參考》1999年第16期。
(10)《中國(guó)基本古籍庫(kù)光盤工程基本完成》,《圖書館理論與實(shí)踐》2001年第2期。
(11)張軸材:《〈四庫(kù)全書〉電子版工程與中文信息技術(shù)》,《電子出版》1999年第3期;朱巖:《談古籍?dāng)?shù)位化》,澳門圖書館編:《“兩岸三地古籍與地方文獻(xiàn)”會(huì)議論文集》,澳門圖書館,2002年,第143-150頁(yè)。
(12)涂豐恩、杜協(xié)昌、陳詩(shī)沛、何浩洋、項(xiàng)潔:《當(dāng)資訊科技遇到史料——臺(tái)灣歷史數(shù)位圖書館中的未解問(wèn)題》,項(xiàng)潔編:《數(shù)位人文研究的新視野:基礎(chǔ)與想象》,臺(tái)灣大學(xué)出版中心,2011年,第21-44頁(yè);項(xiàng)潔、翁稷安:《數(shù)位人文和歷史研究》,項(xiàng)潔編:《數(shù)位人文在歷史學(xué)研究的應(yīng)用》,臺(tái)灣大學(xué)出版中心,2011年,第11-20頁(yè)。
(13)鄭振滿:《民間歷史文獻(xiàn)與民間文化傳承研究》,《東南學(xué)術(shù)》2004年第1期;梁勇、鄭振滿、鄭莉:《新史料與新史學(xué)--鄭振滿教授訪談》,《學(xué)術(shù)月刊》2012年第4期。
(14)喬秀巖:《古籍整理的理論與實(shí)踐》,《版本目錄學(xué)研究》第1輯,國(guó)家圖書館出版社,2009年,第7頁(yè)。
(15)中島樂(lè)章:《明代鄉(xiāng)村糾紛與秩序:以徽州文書為中心》,郭萬(wàn)平、高飛譯,江蘇人民出版社,2010年,第43頁(yè)。
(16)張潔、李芳、湯萌:《契約文書描述性元數(shù)據(jù)規(guī)范設(shè)計(jì)與應(yīng)用》,未刊稿。
(17)何浩洋(Hou Leong Ho):《MARKUS:中文古籍半自動(dòng)標(biāo)記平臺(tái)》,www.academia.edu,發(fā)布:2014-12,訪問(wèn)時(shí)間:2015-11-27。
(18)蔣勤:《清代石倉(cāng)文書的“在地”與“有機(jī)”分析》,《上海交通大學(xué)學(xué)報(bào)》2014年第3期。
(19)馮惠玲:《論檔案整理理論的演變與發(fā)展》,載吳寶康、丁永奎:《當(dāng)代中國(guó)檔案學(xué)論》,中國(guó)檔案出版社,1988年,第115-167頁(yè)。
(20)黃霄羽:《魂系歷史主義——西方檔案學(xué)支柱理論發(fā)展研究》,中國(guó)人民大學(xué)出版社,2006年,第35頁(yè)。
(21)劉志偉:《在國(guó)家與社會(huì)之間:明清廣東地區(qū)里甲賦役制度與鄉(xiāng)村社會(huì)(修訂版)》,中國(guó)人民大學(xué)出版社,2010年,第201頁(yè)。
(22)陸隴其:《蒞政摘要》卷上第12頁(yè),《官箴書集成》第2冊(cè),黃山書社,1997年,第628頁(yè)。
(23)劉志偉:《在國(guó)家與社會(huì)之間——明清廣東地區(qū)里甲賦役制度與鄉(xiāng)村社會(huì)(修訂版)》,第197-204頁(yè)。
(24)劉伯山:《徽州文書的遺存及特點(diǎn)》,《歷史檔案》2004年第1期。
(25)嚴(yán)中平致中央檔案館函(1962年2月6日),安徽省檔案館藏,轉(zhuǎn)引自嚴(yán)桂夫、王國(guó)鍵:《徽州文書檔案》,安徽人民出版社,2003年,第11頁(yè)。
(26)民間歷史文獻(xiàn)整理方法演進(jìn)的學(xué)術(shù)史,參見(jiàn)楊培娜、申斌:《走向民間歷史文獻(xiàn)學(xué)——20世紀(jì)民間文獻(xiàn)搜集整理方法的演進(jìn)歷程》,《中山大學(xué)學(xué)報(bào)》2014年第5期;張侃:《20世紀(jì)以來(lái)民間文獻(xiàn)研究的學(xué)理述略》,“第七屆民間歷史文獻(xiàn)論壇”,廈門大學(xué),2015年。
(27)趙思淵:《19世紀(jì)徽州鄉(xiāng)村的土地市場(chǎng)、信用機(jī)制與關(guān)系網(wǎng)絡(luò)》,《近代史研究》2015年第3期。
作者簡(jiǎn)介 / 轉(zhuǎn)載聲明
趙思淵,上海交通大學(xué)人文學(xué)院歷史系講師。
原文刊發(fā)于《清史研究》 2016年第4期,轉(zhuǎn)自微信公眾號(hào)“寫本文獻(xiàn)學(xué)微刊”,已獲得原作者授權(quán)。
