科技日?qǐng)?bào)記者 代小佩
11月15日,最高人民法院正式發(fā)布“法信法律基座大模型”,這是國(guó)內(nèi)首個(gè)法律行業(yè)AI基座大模型,也是國(guó)家級(jí)法律人工智能基礎(chǔ)設(shè)施。
據(jù)人民法院出版社總編輯余茂玉介紹,“法信法律基座大模型”是在清華大學(xué)千億參數(shù)通用大模型基座上,投入3.2億篇共計(jì)3.67萬(wàn)億字的法律文獻(xiàn)、裁判、案例、觀點(diǎn)等數(shù)據(jù)語(yǔ)料,融入包含18萬(wàn)法律知識(shí)體系編碼的“法信大綱”,經(jīng)過(guò)為期數(shù)月的預(yù)訓(xùn)練、優(yōu)化訓(xùn)練、監(jiān)督微調(diào)和多輪測(cè)評(píng)后最終建成。
該模型有哪些技術(shù)創(chuàng)新點(diǎn)和應(yīng)用前景?研發(fā)的最大技術(shù)難題是什么?未來(lái)將如何發(fā)展?對(duì)此,包括研發(fā)團(tuán)隊(duì)成員在內(nèi)的多位專家學(xué)者回答了記者相關(guān)提問(wèn)。
1、“法信法律基座大模型”有什么技術(shù)創(chuàng)新點(diǎn)?
清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授劉知遠(yuǎn):其技術(shù)創(chuàng)新主要體現(xiàn)在探索如何遵循司法規(guī)律,將我國(guó)司法審判業(yè)務(wù)需求與大模型技術(shù)相結(jié)合,讓大模型“先通后專,通專結(jié)合”,最終實(shí)現(xiàn)對(duì)法律業(yè)務(wù)的可靠支撐。
服務(wù)法律業(yè)務(wù)的大模型不僅需要理解社會(huì)常識(shí)、了解行業(yè)慣例、精通法律知識(shí),更要具備人類的價(jià)值觀,并與中國(guó)特色社會(huì)主義核心價(jià)值觀保持一致,這樣的模型才能更好地服務(wù)于司法業(yè)務(wù)實(shí)踐。模型從“通才”到“專才”的轉(zhuǎn)變,類似于人類知識(shí)學(xué)習(xí)過(guò)程,即先接受廣泛的基礎(chǔ)教育,再接受法律專業(yè)培訓(xùn),最后獲取特定任務(wù)的實(shí)踐經(jīng)驗(yàn)。
2、如何看待“法信法律基座大模型”的應(yīng)用前景?
清華大學(xué)科研院院長(zhǎng)、互聯(lián)網(wǎng)司法研究院院長(zhǎng)劉奕群:這是未來(lái)數(shù)字法院建設(shè)的重要基礎(chǔ)設(shè)施,具有賦能并重塑審判業(yè)務(wù)流程的巨大潛力。
其對(duì)法院系統(tǒng)之外的政法系統(tǒng)乃至各行業(yè)的人工智能賦能推廣都具有重要的示范意義。通過(guò)對(duì)業(yè)務(wù)流程進(jìn)行細(xì)致拆解和重構(gòu),可以采用不同方式將法律基座大模型的能力與法官的專業(yè)經(jīng)驗(yàn)、技能相結(jié)合,實(shí)現(xiàn)“以人為主、人機(jī)協(xié)同”的創(chuàng)新賦能模式,為一線法官的各項(xiàng)實(shí)務(wù)工作有效賦能,使其獲得切實(shí)的獲得感。
3、研發(fā)過(guò)程中遇到的最大技術(shù)難題是什么?
人民法院電子音像出版社副社長(zhǎng)石鵬:最大的難題就是大模型的通用訓(xùn)練技術(shù)方法如何與法律行業(yè)相匹配和適應(yīng)。比如法律數(shù)據(jù)的專業(yè)性、結(jié)構(gòu)性、時(shí)效性等特點(diǎn)如何體現(xiàn),如何提升法律知識(shí)理解應(yīng)用和邏輯思維能力的問(wèn)題,如何利用已有的法律知識(shí)體系和圖譜來(lái)增強(qiáng)訓(xùn)練的問(wèn)題,如何進(jìn)行法律專業(yè)性和內(nèi)容安全性評(píng)測(cè)的問(wèn)題等等。
我們?cè)谘邪l(fā)過(guò)程中采用各種路徑和方法,逐一攻克難題。一是組織法律專業(yè)人員構(gòu)建高質(zhì)量的訓(xùn)練數(shù)據(jù)和指令集,并進(jìn)行體系化模型迭代。二是通過(guò)引入最高法院“法信”平臺(tái)全流程法律資源標(biāo)注機(jī)制和歷時(shí)十余年搭建的18萬(wàn)法律知識(shí)體系編碼“法信大綱”,來(lái)增強(qiáng)模型的知識(shí)理解和應(yīng)用能力,采用法律知識(shí)體系結(jié)構(gòu)建模并記錄關(guān)聯(lián)關(guān)系和知識(shí),提高模型在法律領(lǐng)域的專業(yè)性和準(zhǔn)確性。三是在構(gòu)建微調(diào)數(shù)據(jù)時(shí),精心設(shè)計(jì)了法律領(lǐng)域的數(shù)據(jù)集,并實(shí)施了大量的知識(shí)工程。四是構(gòu)建了法律大模型的評(píng)測(cè)方法和評(píng)價(jià)標(biāo)準(zhǔn)。
4、國(guó)際上類似的法律人工智能技術(shù)發(fā)展情況如何?
清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授劉知遠(yuǎn):實(shí)際上,我們走在法律大模型研發(fā)的前列。清華自然語(yǔ)言實(shí)驗(yàn)室一直專注于法律人工智能領(lǐng)域,2021年就開(kāi)源了首個(gè)中文法律大語(yǔ)言模型 Lawformer。同時(shí),我國(guó)擁有最為先進(jìn)的司法信息化系統(tǒng)以及系統(tǒng)化的數(shù)據(jù)儲(chǔ)備,例如“法信”法律大數(shù)據(jù)平臺(tái)。通過(guò)法律知識(shí)體系編碼“法信大綱”,對(duì)萬(wàn)億字量級(jí)的法律專業(yè)語(yǔ)料進(jìn)行了高質(zhì)量專業(yè)標(biāo)注,為模型研發(fā)提供了寶貴的“燃料”。
近年來(lái),國(guó)際前沿研究中以快慢系統(tǒng)(GPT-o1)、思維鏈為代表的關(guān)于模型推理能力的相關(guān)工作值得我們進(jìn)一步探索。
中國(guó)政法大學(xué)數(shù)據(jù)法治研究院教授張凌寒:目前,我國(guó)的法律基座大模型主要面向國(guó)內(nèi)市場(chǎng),國(guó)際化程度較低,對(duì)國(guó)際市場(chǎng)的需求和法律法規(guī)的理解還不夠深入。同時(shí),在一些關(guān)鍵技術(shù)標(biāo)準(zhǔn)和國(guó)際規(guī)則制定方面,與發(fā)達(dá)國(guó)家相比仍存在一定差距。
我們需要加強(qiáng)國(guó)際合作,與國(guó)際組織、外國(guó)政府和企業(yè)建立合作關(guān)系,積極參與技術(shù)標(biāo)準(zhǔn)制定,提高模型的國(guó)際認(rèn)可度。同時(shí),培養(yǎng)熟悉國(guó)際法律環(huán)境的專業(yè)人才,推動(dòng)國(guó)際交流,樹(shù)立國(guó)際品牌。
5、對(duì)我國(guó)法律基座大模型的未來(lái)有哪些展望?
清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授劉知遠(yuǎn):未來(lái),法律基座大模型應(yīng)在極大提升法律工作者工作效率的同時(shí),更好地實(shí)現(xiàn)工作的規(guī)范化以及統(tǒng)一法律適用。
此外,隨著大模型智能體技術(shù)的發(fā)展,每一位法律工作者都可以擁有專屬的智能體助理,承擔(dān)機(jī)械的重復(fù)性勞動(dòng)以及簡(jiǎn)單的創(chuàng)造性工作。
在不久的將來(lái),法律智能體還會(huì)呈現(xiàn)多角色分工與多智能體協(xié)同。當(dāng)事人、律師、法官、法律學(xué)者都能夠通過(guò)專屬自身角色的智能體助手,構(gòu)建出一個(gè)更高質(zhì)量、更高效的群體智能工作協(xié)同網(wǎng)絡(luò)。