2020-09-16 17:13:26 來源 : 中國新聞網(wǎng)
圖為“云藏”大數(shù)據(jù)中心?!∑钤鲚怼z
“我們正處于云藏大數(shù)據(jù)語料庫的開發(fā)階段,主要有分詞語料庫和漢藏雙語平行語料庫的開發(fā),目的是提高信息檢索系統(tǒng)的查全率和查重率,保證搜索結(jié)果的準(zhǔn)確性。”15日,青海省海南州藏文信息技術(shù)研究中心自然語言處理研究所副所長航尖才讓告訴記者。
云藏大數(shù)據(jù)中心相關(guān)工作人員介紹,云藏搜索是一個(gè)集新聞、網(wǎng)頁、圖片、視頻、音樂、百科、文庫、知道等搜索于數(shù)據(jù)庫相結(jié)合的大型藏文綜合網(wǎng)絡(luò)平臺(tái),是國內(nèi)各大藏文網(wǎng)站的統(tǒng)一入口,以及互聯(lián)網(wǎng)藏文信息的主要來源和資源共享中心。
圖為“云藏”大數(shù)據(jù)中心工作人員正在編寫語料庫?!●R銘言 攝
云藏搜索采用當(dāng)下最主流的算法,研制藏文自動(dòng)分詞與語言分析系統(tǒng),建設(shè)大規(guī)模訓(xùn)練語料庫,開發(fā)網(wǎng)頁采集、全文搜索、內(nèi)容管理模塊、搜索網(wǎng)站前臺(tái)、網(wǎng)絡(luò)爬蟲等系統(tǒng)架構(gòu)建設(shè),完成了網(wǎng)頁搜索等多個(gè)應(yīng)用系統(tǒng)的建設(shè)工作,全面實(shí)現(xiàn)了一個(gè)搜索引擎應(yīng)具備的基本功能。
此外,云藏大數(shù)據(jù)中心聯(lián)合業(yè)內(nèi)人士共同研究,成功研發(fā)了藏文自動(dòng)分詞與語言智能分析系統(tǒng),實(shí)現(xiàn)了藏文同義詞搜索、藏文拉丁轉(zhuǎn)寫搜索、藏文拼寫檢查系統(tǒng)、藏文語義檢索、藏文不同編碼自動(dòng)轉(zhuǎn)換等功能,攻克了藏文智能信息處理的核心技術(shù),并成功實(shí)現(xiàn)與搜索引擎系統(tǒng)的集成,使云藏搜索引擎有了本土化或藏語化的人工智能特點(diǎn)。
圖為“云藏”大數(shù)據(jù)中心工作人員講解“云藏”使用方法。 祁增蓓 攝
“下一步,云藏大數(shù)據(jù)中心將搭建藏文互聯(lián)網(wǎng)輿情監(jiān)控分析系統(tǒng),開展藏文信息的匯集整理和分析,把握網(wǎng)上信息輿論動(dòng)向,全面了解社情民意,能夠?yàn)橛行Ы鉀Q藏文網(wǎng)絡(luò)輿情信息監(jiān)測難、掌控難、研判難的瓶頸問題提供可靠的參數(shù)與依據(jù)。”航尖才讓說,他認(rèn)為將來“區(qū)塊鏈”技術(shù)將來也會(huì)在其中發(fā)揮很大的作用。
據(jù)悉,云藏大數(shù)據(jù)中心已申請(qǐng)獲得《中國著名品牌》《網(wǎng)絡(luò)文化經(jīng)營許可證》,以及《云藏百科》《云藏文庫》《云藏知道》《云藏視頻》等6項(xiàng)計(jì)算機(jī)軟件著作權(quán),并向國家知識(shí)產(chǎn)權(quán)局申報(bào)了云藏搜索引擎系統(tǒng)、藏文詞性標(biāo)注系統(tǒng)和藏文分詞系統(tǒng)三項(xiàng)發(fā)明專利且已通過初審,如今處于最終實(shí)質(zhì)審查階段。(祁增蓓)“