2025-04-08 10:31:58 來源 : 今日熱點(diǎn)網(wǎng)
隨著大模型在社會(huì)應(yīng)用中的日益普及,其在帶來便捷的同時(shí),也伴隨著“AI幻覺”的風(fēng)險(xiǎn)。為了從數(shù)據(jù)源頭降低這一風(fēng)險(xiǎn),合合信息近日正式上線了TextIn“大模型加速器2.0”版本。這一新版本基于領(lǐng)先的智能文檔處理技術(shù),對(duì)復(fù)雜文檔的版式、布局和元素進(jìn)行精準(zhǔn)解析及結(jié)構(gòu)化處理,旨在讓大模型在與人類的溝通中更加可靠。
據(jù)悉,“大模型加速器2.0”在復(fù)雜版面理解、表格及圖表處理、內(nèi)容溯源等方面實(shí)現(xiàn)了新的突破。該版本能夠精準(zhǔn)識(shí)別上千種文檔中的各類復(fù)雜表格、手寫字符及公式,解析穩(wěn)定率高達(dá)99.99%,且單頁處理耗時(shí)較行業(yè)可比產(chǎn)品降低了超過30%。此外,它還能“逆還原”十余種專業(yè)圖表數(shù)據(jù),將其轉(zhuǎn)化為大模型可理解的結(jié)構(gòu)化數(shù)據(jù),為大模型的深入應(yīng)用提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
(“大模型加速器 2.0”文檔解析引擎助力知識(shí)庫理解手寫筆記示意圖)
在教育行業(yè),大模型的建設(shè)尤為依賴高質(zhì)量的數(shù)據(jù)。賽爾教育科技發(fā)展有限公司作為教育國際化、教育信息化、數(shù)字化教育方案的提供商,深知文檔處理的重要性。賽爾教育CTO、教育數(shù)字化事業(yè)部總經(jīng)理?xiàng)盍直硎?,教育行業(yè)所涉及的文檔格式多樣,內(nèi)容復(fù)雜,如何高效準(zhǔn)確地提取文本信息一直是個(gè)難題。而合合信息的文檔解析技術(shù)為賽爾教育提供了專業(yè)的技術(shù)支持,有效解決了這一問題。
在“大模型加速器”的支持下,合合信息與賽爾教育共同協(xié)作,提升了大模型對(duì)復(fù)雜版面和元素的“理解力”。這使得大模型能夠按照人類正常的閱讀順序識(shí)別文檔結(jié)構(gòu),智能劃分標(biāo)題、段落、表格和圖表等內(nèi)容塊,從而幫助大模型更好地理解版面和內(nèi)容間的對(duì)應(yīng)關(guān)系,減少AI“幻覺”現(xiàn)象。
除了復(fù)雜的版面布局,圖表的解析也是一大難點(diǎn)?!按竽P图铀倨?.0”的圖表解析模塊能夠智能提取多種圖表中的關(guān)鍵數(shù)據(jù)點(diǎn)、坐標(biāo)軸信息、圖例說明等,并將其還原為一組完整的Excel表格數(shù)據(jù)。這一功能對(duì)于教育行業(yè)的大模型微調(diào)、學(xué)科知識(shí)庫建設(shè)、智能審閱等環(huán)節(jié)具有重要意義。
(圖表解析模塊將圖表還原為表格數(shù)據(jù))
此外,“大模型加速器2.0”還上線了知識(shí)庫產(chǎn)品組件,支持復(fù)雜文檔的智能問答、總結(jié)與檢索。其中的溯源功能更是為用戶提供了一個(gè)快速檢驗(yàn)的路徑,確保了大模型使用的準(zhǔn)確性和可靠性。
合合信息表示,未來“大模型加速器”將持續(xù)優(yōu)化迭代,助力大模型在各行各業(yè)中“百花齊放”,為社會(huì)的智能化發(fā)展貢獻(xiàn)更多力量。