共生與共構(gòu):人工智能與歷史學(xué)結(jié)合的新探索
文章來(lái)源:光明科技發(fā)布日期:2025-02-10瀏覽次數(shù):14 當(dāng)前AI(人工智能)正在逐漸改變世界,成為政府決策、醫(yī)療干預(yù)、金融交易、司法審議、環(huán)境保護(hù)、科學(xué)研究等領(lǐng)域的重要“參與者”。歷史學(xué)者將要面對(duì)的是一個(gè)前所未有的與AI共生的時(shí)代。不過(guò),到目前為止,大多數(shù)學(xué)者并不認(rèn)為AI會(huì)從根本上改變歷史學(xué),或者歷史學(xué)會(huì)對(duì)AI發(fā)揮關(guān)鍵性的作用。 這種態(tài)度部分源自于人文學(xué)者將AI理解為機(jī)器能力的進(jìn)展,從而把接受AI視為純粹的技術(shù)問(wèn)題。1956年,美國(guó)科學(xué)家約翰·麥卡錫提出了“Artificial Intelligence(人工智能,簡(jiǎn)稱AI)”這一術(shù)語(yǔ),指代能展示人類智能行為的計(jì)算機(jī)系統(tǒng)。數(shù)十年后,隨著計(jì)算能力提高、有了可用的大規(guī)模數(shù)據(jù)集,在2010年代中期,出現(xiàn)了基于深度學(xué)習(xí)技術(shù)的算法決策系統(tǒng)與預(yù)測(cè)性的機(jī)器學(xué)習(xí),“人工智能”的涵義不斷擴(kuò)展,代表了IT系統(tǒng)(包括機(jī)器或軟件系統(tǒng))通過(guò)學(xué)習(xí)和解釋龐大的人類記錄數(shù)據(jù),實(shí)現(xiàn)模擬人類認(rèn)知能力的一系列技術(shù)、方法和流程。機(jī)器學(xué)習(xí)的算法和模型走出了學(xué)術(shù)研究與科學(xué)實(shí)驗(yàn),開(kāi)始應(yīng)用于商業(yè)、醫(yī)療、教育以及國(guó)家戰(zhàn)略等層面。戲劇性的轉(zhuǎn)變發(fā)生在2022年底,生成式AI的應(yīng)用ChatGPT問(wèn)世,上線兩個(gè)月,活躍用戶達(dá)到1億人,在引起廣泛關(guān)注的同時(shí),也促進(jìn)中國(guó)開(kāi)發(fā)的諸多大語(yǔ)言模型(LLM)投放市場(chǎng)。2024年底,DeepSeek上線并同步開(kāi)源的V3模型,以其創(chuàng)新的模型構(gòu)架和高性價(jià)比點(diǎn)燃了民眾以中文使用AI的極大熱情。通過(guò)ChatGPT、DeepSeek、Kimi、豆包這些國(guó)內(nèi)外聊天機(jī)器人,AI對(duì)于普通人變得觸手可及。人們能運(yùn)用自己熟悉的語(yǔ)言指示機(jī)器執(zhí)行任務(wù),個(gè)人的決策、行動(dòng)隨時(shí)可以參考、調(diào)用算法和模型,機(jī)器的回應(yīng)不僅符合人類表達(dá)的邏輯,順暢自然,還能針對(duì)個(gè)人的輸入進(jìn)行調(diào)整,如同一個(gè)適應(yīng)性強(qiáng)、情緒穩(wěn)定的同伴,使人感到親近。在與人類的互動(dòng)關(guān)系上,這是人工智能一次革命性的飛躍,大語(yǔ)言模型不僅是一項(xiàng)在語(yǔ)義空間里應(yīng)用生成式人工智能的典型技術(shù),還下沉到日常生活,拉近了人類歷史與現(xiàn)實(shí)之間的互動(dòng)關(guān)系。 雖然到目前為止,人們還無(wú)法解釋人工智能算法在內(nèi)部運(yùn)行的機(jī)制細(xì)節(jié),但通過(guò)其訓(xùn)練過(guò)程,可以看到它正在為人類歷史與現(xiàn)實(shí)的關(guān)系提供一種從未有過(guò)的數(shù)字交互模式。以生成式AI為例,開(kāi)發(fā)者為了讓AI理解人類語(yǔ)言的指令,實(shí)現(xiàn)人機(jī)連貫對(duì)話,主要讓機(jī)器學(xué)習(xí)大量的文本數(shù)據(jù)。近兩年來(lái),現(xiàn)有的基礎(chǔ)大語(yǔ)言模型幾乎使用了絕大部分的可用高質(zhì)量文本數(shù)據(jù)源,其中公開(kāi)的、數(shù)字化的歷史記錄、檔案、書(shū)籍論文雖然數(shù)量占比不大,對(duì)AI的訓(xùn)練影響卻很重要。通過(guò)理解這些訓(xùn)練文本背后的結(jié)構(gòu),AI實(shí)現(xiàn)了與人類語(yǔ)言的“對(duì)齊”,也表征了這些歷史文獻(xiàn)與歷史認(rèn)識(shí)當(dāng)中反映出來(lái)的偏好、價(jià)值觀與意識(shí)形態(tài)。主流的機(jī)器學(xué)習(xí)算法目前都近似于一種優(yōu)化多數(shù)的策略,擅長(zhǎng)從歷史數(shù)據(jù)中識(shí)別模式與類型,如果用于訓(xùn)練的歷史文本和圖片里含有明顯的偏見(jiàn)、歧視與局限性,數(shù)量又多的話,就會(huì)被AI當(dāng)作重要的參數(shù),帶入判斷當(dāng)下、影響未來(lái)的決策和預(yù)測(cè)當(dāng)中,威脅到人類社會(huì)的安全、倫理、道德等基本需求。換言之,訓(xùn)練AI的過(guò)程,是在使AI歷史化,從數(shù)據(jù)中獲得定義過(guò)去的方法;運(yùn)用AI的過(guò)程,則極大加速了從認(rèn)識(shí)過(guò)去到付諸當(dāng)下行動(dòng)的轉(zhuǎn)化,使人類歷史與現(xiàn)實(shí)活動(dòng)之間的關(guān)系在數(shù)字層面上呈現(xiàn)為一種持續(xù)相遇、頃刻相通、實(shí)時(shí)作用的互動(dòng)形態(tài)。從一開(kāi)始,AI系統(tǒng)的研究與應(yīng)用,可以說(shuō)就是賦予AI歷史性與社會(huì)性的過(guò)程。 為了確保這項(xiàng)新信息技術(shù)的發(fā)明能服務(wù)于人類共同的福祉,除了技術(shù)開(kāi)發(fā)者外,還需要人文社會(huì)科學(xué)工作者的深入理解與廣泛參與。對(duì)歷史學(xué)者來(lái)說(shuō),這會(huì)是一個(gè)與AI共同建構(gòu)學(xué)科、學(xué)理與學(xué)識(shí)的過(guò)程。一方面,AI會(huì)促成重大的歷史變革,它能自行決策、提出想法,將來(lái)還會(huì)使大量的非人類智能加入對(duì)歷史的研究當(dāng)中,它們擅長(zhǎng)高速處理多模態(tài)的歷史資源,通過(guò)智能體模擬進(jìn)行“虛擬歷史實(shí)驗(yàn)”,可能提出對(duì)復(fù)雜社會(huì)的解釋系統(tǒng),挑戰(zhàn)人類學(xué)者的主體性,重新界定歷史學(xué)的存在邊界與獨(dú)特領(lǐng)域。另一方面,歷史學(xué)者如果能理解并掌握AI,可以增強(qiáng)歷史學(xué)的技藝,作為領(lǐng)域?qū)<覅⑴c審查AI訓(xùn)練的歷史數(shù)據(jù)集,從長(zhǎng)期的歷史脈絡(luò)中揭示AI系統(tǒng)的價(jià)值內(nèi)嵌與認(rèn)識(shí)機(jī)制,評(píng)估AI的預(yù)測(cè)、決策,并將歷史學(xué)提供的對(duì)過(guò)去記憶與事實(shí)的選擇書(shū)寫,對(duì)人類活動(dòng)價(jià)值與意義的總結(jié)反思,通過(guò)數(shù)據(jù)構(gòu)建與算法改進(jìn),貫注作用于AI系統(tǒng),影響AI的走向。 以古代歷史研究為例,可以看到AI與歷史學(xué)者之間這種正在探索中的共同建構(gòu)。對(duì)于歷史研究工作的核心要素與基礎(chǔ)工作,AI能發(fā)揮積極作用,同時(shí)歷史學(xué)也有力量推動(dòng)AI從數(shù)據(jù)與算法兩方面改變現(xiàn)狀、提升性能。 為了理解古代社會(huì)、探究人群生活,歷史研究需要的史料搜集與處理技藝非常復(fù)雜,比如泥板、紙草、甲骨、金石、寫本這些載體的文獻(xiàn)修復(fù),古漢語(yǔ)、古希臘文等多種文字的識(shí)別與釋讀,圖像、雕塑、考古遺址的辨識(shí)、分類等。近年來(lái),學(xué)者運(yùn)用深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)技術(shù),結(jié)合遷移學(xué)習(xí)等策略,貢獻(xiàn)出了前沿成果。中國(guó)科學(xué)院團(tuán)隊(duì)提高了甲骨文字符的自動(dòng)識(shí)別率;谷歌的模型Ithaca,能合理推斷古希臘銘文的時(shí)間與地理歸屬范圍;浙江大學(xué)團(tuán)隊(duì)實(shí)現(xiàn)了綴合敦煌寫本的自動(dòng)化流程;中國(guó)礦業(yè)大學(xué)團(tuán)隊(duì)發(fā)布敦煌壁畫的MuralDH圖像數(shù)據(jù)集,進(jìn)行分類、修復(fù)。2024年初,機(jī)器學(xué)習(xí)從碳化的意大利赫庫(kù)蘭尼姆卷軸里,識(shí)別出了莎草紙符,提供了古希臘哲學(xué)的新史料。像這類具有原創(chuàng)性和影響力的工作,都是由包括歷史學(xué)在內(nèi)的領(lǐng)域?qū)<遗c計(jì)算機(jī)科學(xué)家組成的跨學(xué)科團(tuán)隊(duì)完成,顯示出AI對(duì)歷史研究的來(lái)源,尤其是在多模態(tài)史料發(fā)掘、解析方面的效能。由于目前大多數(shù)的AI算法依賴英語(yǔ)等主流語(yǔ)種,偏重近現(xiàn)代的歷史訓(xùn)練集,在將AI運(yùn)用于古代語(yǔ)言的文本、圖像與考古對(duì)象時(shí),需要明顯擴(kuò)大數(shù)據(jù)的多樣性和包容性,在使AI處理古代歷史中非標(biāo)準(zhǔn)化的、異質(zhì)的、不完整的資料時(shí),也要同時(shí)推進(jìn)算法的批判性創(chuàng)新,這都顯示出歷史學(xué)研究將是助力AI突破結(jié)構(gòu)性限制的重要領(lǐng)域。 研究古代的學(xué)者,也可能遇到史料數(shù)量龐大或者類型復(fù)雜得難以把握,此時(shí)找尋到合適的AI技術(shù),不僅使研究得以展開(kāi),還能發(fā)現(xiàn)隱藏的事實(shí),提出有解釋價(jià)值的新問(wèn)題。在一項(xiàng)針對(duì)15至17世紀(jì)歐洲史的研究中,學(xué)者需要考察359本天文學(xué)教科書(shū),其中含有76000頁(yè)文本、數(shù)萬(wàn)幅科學(xué)插圖與天文表格。德國(guó)馬普所的研究人員通過(guò)機(jī)器學(xué)習(xí)來(lái)識(shí)別文本間的聯(lián)系,檢測(cè)、分類與聚類這些插圖和表格,歷史學(xué)者則從數(shù)據(jù)中看到了以前不被注意的事實(shí),即歐洲的科學(xué)知識(shí)傳播并不受宗教改革的分裂影響,而是呈現(xiàn)出凝聚與同質(zhì)化的形態(tài)。這一時(shí)段對(duì)應(yīng)著中國(guó)歷史上的明清時(shí)期,研究者們同樣也面臨著史料復(fù)雜煩瑣、文獻(xiàn)汗牛充棟的問(wèn)題,對(duì)于在整理、分析與思考中如何運(yùn)用AI系統(tǒng)有著迫切的需求。比如對(duì)于明清檔案文獻(xiàn),中國(guó)人民大學(xué)團(tuán)隊(duì)提出了深度學(xué)習(xí)、人機(jī)協(xié)同的智能著錄標(biāo)引流程;對(duì)于地方志研究,中國(guó)社科院大學(xué)團(tuán)隊(duì)開(kāi)發(fā)了專有工具,通過(guò)調(diào)用大語(yǔ)言模型的API端口,批量實(shí)現(xiàn)方志數(shù)據(jù)的多層次、多義性標(biāo)注,以知識(shí)圖譜進(jìn)行可視化呈現(xiàn)與分析。這些嘗試都希望能從明確的問(wèn)題出發(fā),探索以數(shù)據(jù)建設(shè)為核心、以算法呈現(xiàn)歷史語(yǔ)境、具有透明性與可解釋性的研究工作流程,以一種符合職業(yè)與專業(yè)的要求,來(lái)推進(jìn)與AI的共構(gòu),使研究者把更多的時(shí)間和精力解放出來(lái),真正用于歷史學(xué)的創(chuàng)造性思考、深度解釋以及價(jià)值反思。 在積極擁抱AI變化的歷史學(xué)者中,很多人從數(shù)字人文、數(shù)字史學(xué)的興起之時(shí)已經(jīng)在討論史學(xué)與AI的共生之道。在AI迅速發(fā)展、推理思考能力不斷迭代的當(dāng)下,相信還會(huì)有更多的歷史學(xué)家主動(dòng)了解AI運(yùn)作的機(jī)制,視其為學(xué)術(shù)助手、影子同行,共同建構(gòu)一種從思考、寫作到交流、教育的史學(xué)工作新生態(tài),這將是一場(chǎng)引人注目、面向未來(lái)的探索之旅。