av国产japan在线播放|av人人干|黄网站国产|日韩日韩日韩日韩日韩日韩日韩,先锋资源在线播放,嗯嗯啊啊网站,尤物一区

數(shù)字報(bào)
小程序
公眾號(hào)
“青海省最美科技工作者”多拉:讓古老藏語借AI出圈
2026-05-30 16:50:31
來源:科技日?qǐng)?bào)  作者: 張?zhí)砀?通訊員 范旭光

“請(qǐng)講述格薩爾王的故事?!庇脩舭l(fā)出指令,手機(jī)即刻生成對(duì)應(yīng)內(nèi)容,同步完成漢語、藏語與英語互譯,響應(yīng)精準(zhǔn)流暢。這便是近期備受關(guān)注的智達(dá)藏語大模型。憑借高效的響應(yīng)速度、強(qiáng)大的多語言處理能力,智達(dá)為用戶帶來便捷精準(zhǔn)的跨語言交互體驗(yàn)。

這款于4月22日在北京正式發(fā)布的智能產(chǎn)品,上線一個(gè)月時(shí)間,人機(jī)互動(dòng)量超1000萬次,被業(yè)內(nèi)稱作藏文版“豆包”。而在產(chǎn)品火熱出圈之際,其研發(fā)帶頭人——青海師范大學(xué)教授多拉,已帶領(lǐng)團(tuán)隊(duì)規(guī)劃新的工作任務(wù):“我們計(jì)劃完成121個(gè)藏語次方言數(shù)字化的全覆蓋?!?/p>

5月29日,在2026年全國科技工作者日青海主場活動(dòng)暨“青海省最美科技工作者”發(fā)布儀式上,多拉獲得2026年“青海省最美科技工作者”稱號(hào)。

初心如磐,扛起藏語智能研發(fā)重任

多拉大半輩子在計(jì)算語言學(xué)與藏文信息處理領(lǐng)域摸爬滾打。

藏語屬于典型小語種,方言體系繁雜、口語差異大、書寫系統(tǒng)特殊,語料儲(chǔ)備不足、識(shí)別難度極高,國內(nèi)尚無成熟技術(shù)可借鑒,藏語人工智能研發(fā)近乎一片空白。

“藏語包含安多、康巴、衛(wèi)藏三大方言,還有上百種次方言與地方土語,是全球小語種AI研發(fā)最難攻克的領(lǐng)域之一?!倍嗬寡?,因工程量浩大,國內(nèi)鮮有機(jī)構(gòu)愿意涉足藏語大模型研發(fā)。多拉團(tuán)隊(duì)人員緊張,卻要覆蓋基礎(chǔ)研究、標(biāo)準(zhǔn)研制、數(shù)據(jù)構(gòu)建、算法設(shè)計(jì)、模型訓(xùn)練、成果轉(zhuǎn)化等全鏈條工作,攻堅(jiān)難度不言而喻。

面對(duì)重重挑戰(zhàn),多拉迎難而上。針對(duì)專業(yè)人才短缺的難題,他依托省內(nèi)唯一的計(jì)算機(jī)科學(xué)與技術(shù)博士點(diǎn),自主培育人工智能領(lǐng)域?qū)I(yè)人才,帶領(lǐng)團(tuán)隊(duì)從零起步,開啟藏語人工智能領(lǐng)域的艱苦攻堅(jiān)之路。

高質(zhì)量語料是大模型研發(fā)的核心根基。為補(bǔ)齊藏語語料短板,2023年7月,多拉將團(tuán)隊(duì)分為四組,奔赴青海六個(gè)自治州及甘肅甘南、四川阿壩等一線實(shí)地調(diào)研,采集方言語音、地方文獻(xiàn)、縣域史料;同時(shí)合規(guī)梳理網(wǎng)絡(luò)公開語料,規(guī)避知識(shí)產(chǎn)權(quán)風(fēng)險(xiǎn)。

歷時(shí)一年半,團(tuán)隊(duì)建成規(guī)模達(dá)2萬小時(shí)的藏語語音語料庫,藏語口語識(shí)別準(zhǔn)確率突破92%。

“500小時(shí)語音,就需要47萬個(gè)句子來支撐,高峰時(shí)期有97名數(shù)據(jù)標(biāo)注人員同步開展語音標(biāo)注工作?!倍嗬榻B,團(tuán)隊(duì)前兩年的核心工作,就是夯實(shí)藏語智能大模型的數(shù)據(jù)底座。

2024年9月,智達(dá)藏語大模型進(jìn)入核心研發(fā)階段。面對(duì)任務(wù)繁重、技術(shù)路徑復(fù)雜的多重壓力,多拉身兼科研、教學(xué)、管理多重職責(zé):白天授課育人、統(tǒng)籌實(shí)驗(yàn)室日常運(yùn)行,夜晚伏案鉆研技術(shù),常年無休、加班攻堅(jiān),成為實(shí)驗(yàn)室最忙碌的人。

他帶領(lǐng)團(tuán)隊(duì)聚焦藏語語音轉(zhuǎn)寫、語音合成、多語種翻譯、OCR文字識(shí)別、AI人機(jī)交互五大核心技術(shù),逐個(gè)破解技術(shù)壁壘。

“在這些技術(shù)中,機(jī)器翻譯的語種從2種拓展至20多種,翻譯領(lǐng)域擴(kuò)至新聞、法律、文獻(xiàn)、古籍、文學(xué)、醫(yī)療、教育、農(nóng)牧等14個(gè),翻譯準(zhǔn)確率超94%。”多拉說,在OCR文字識(shí)別技術(shù)中,團(tuán)隊(duì)攻克漢藏英混合場景、混合圖表、復(fù)雜版面的文字等識(shí)別難題,進(jìn)一步完善了藏語智能數(shù)據(jù)體系。

成果落地,打造國家級(jí)備案大模型

歷經(jīng)日日夜夜的潛心打磨,2026年2月,智達(dá)藏語大模型順利通過國家相關(guān)部門的生成式AI產(chǎn)品備案,成為青海省首個(gè)民族語言智能領(lǐng)域國家級(jí)備案大模型產(chǎn)品。該產(chǎn)品實(shí)現(xiàn)藏語“聽、說、讀、寫、譯”多模態(tài)智能處理,基于大模型底座,適配了安多、衛(wèi)藏、康巴三大方言識(shí)別,開發(fā)了多語混排文檔識(shí)別、語音翻譯、文字翻譯、古籍檢索、有聲聽書及藏語數(shù)字人播報(bào)與字幕轉(zhuǎn)寫軟件應(yīng)用矩陣。

“智達(dá)采用國產(chǎn)自主技術(shù)架構(gòu),打通文字、語音、圖像多模態(tài)交互壁壘,搭建‘1+8’全場景產(chǎn)品矩陣,構(gòu)建了體系化、集群化的智能服務(wù)體系?!倍嗬榻B,產(chǎn)品貼合牧區(qū)群眾使用習(xí)慣,實(shí)現(xiàn)無障礙人機(jī)交互,讓前沿人工智能技術(shù)落地民生,真正做到群眾能用、好用、常用。

在過去,藏語信息化、智能化處理長期面臨理論方法缺失、技術(shù)探索滯后、數(shù)據(jù)資源匱乏等難題,這是數(shù)字化發(fā)展的核心瓶頸。

近年來,多拉潛心鉆研,聚焦藏文智能處理領(lǐng)域,攻克一道道技術(shù)難關(guān),取得一系列原創(chuàng)性科研成果。他牽頭推進(jìn)民族語言資源建設(shè)與標(biāo)準(zhǔn)化工作,主導(dǎo)制定《信息處理用藏文分詞規(guī)范》《信息處理用藏語詞類標(biāo)記集》等5項(xiàng)國家標(biāo)準(zhǔn),填補(bǔ)藏文信息處理無統(tǒng)一規(guī)范的空白,為全國少數(shù)民族語言數(shù)字化標(biāo)準(zhǔn)化建設(shè)提供重要范本。

他還牽頭實(shí)施藏文典籍?dāng)?shù)字化保護(hù)工程,聚焦藏醫(yī)藥古籍、歷史文獻(xiàn)等珍貴文化遺產(chǎn),攻克古籍?dāng)?shù)字化整理、智能檢索、深度解析及機(jī)器翻譯等關(guān)鍵技術(shù),搭建大規(guī)模藏文文獻(xiàn)數(shù)字資源庫,讓千年古籍實(shí)現(xiàn)永久保存、高效利用,以科技守護(hù)民族文脈。

此外,多拉作為技術(shù)主導(dǎo)研發(fā)的“云藏”搜索引擎,打造了國內(nèi)權(quán)威藏文信息綜合服務(wù)平臺(tái),服務(wù)全球90多個(gè)國家和地區(qū)的用戶,被譽(yù)為藏文版“百度”,讓古老璀璨的藏文化搭乘數(shù)字科技的快車,走向世界舞臺(tái)。

多拉的腳步還在繼續(xù)?!拔磥?,藏語智能科技的持續(xù)迭代升級(jí)、古老藏語在數(shù)字時(shí)代的傳承新生,還有很多課題等著我們深耕篤行?!彼f。

編輯:韓夢晨
相關(guān)閱讀:
高新視頻 更多
高新熱榜 全部本月
編輯推薦 更多

友情鏈接: 政府 高新園區(qū)合作媒體

Copyright 1999-2026 中國高新網(wǎng)chinahightech.com All Rights Reserved.京ICP備14033264號(hào)-5

電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證060344號(hào)主辦單位:《中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)》社有限責(zé)任公司