国产精品亚洲日韩欧美色窝窝色欲_欧洲欧美人成视频在线_天天5g天天爽永久免费看欧美_国产欧美一区二区精品性色99

網站無障礙 關懷版 無障礙客戶端 @isc.org.cn

當前位置

首頁> 新聞動態> 協會動態

藍海沙龍|第272期:“我國大模型中文語料庫的發展現狀與高質量發展路徑”研討會在京召開

2024年04月07日 17:00

4月3日,由中國互聯網協會主辦,中國互聯網協會人工智能工作委員會協辦的第272期藍海沙龍——“我國大模型中文語料庫的發展現狀與高質量發展路徑”研討會在京召開。北京師范大學新聞傳播學院教授、媒體融合與數字出版研究中心主任秦艷華,北京師范大學互聯網發展研究院院長助理吳沈括,北京外國語大學信息科學技術學院副教授徐月梅,中國信息通信研究院人工智能研究中心研究員燕江依,首都版權協會副秘書長、動漫與游戲工作委員會秘書長楊志勇,中電信人工智能科技有限公司AI研發中心資深算法工程師趙宇,中國電信集團數據發展中心生態合作總監李鵬飛,中國聯通研究院研究員趙燦,古聯(北京)數字傳媒科技有限公司總經理洪濤,阿里研究院高級行業研究專家王崢,抖音集團數據及隱私法務總監高震等參加會議并發言。會議由中國互聯網協會副秘書長裴瑋和北京智源人工智能研究院數據研究組負責人張正主持。


upfile

裴瑋表示,2022年全球大模型迎來了爆發增長,總體看我國在大模型領域取得了一定的成就,但仍面臨著一些挑戰,其中最顯著的問題之一就是高質量中文語料資源的短缺。以ChatGPT為例,訓練數據中文資料比重不足千分之一。高質量中文語料庫的不足,導致國內許多從事大模型開發的研究機構和企業在進行模型訓練時,不得不依賴于外文標注數據集、開源數據集或是爬取網絡數據。鑒于此,探索我國大模型中文語料庫的高質量發展路徑,對于大模型行業的未來發展具有重要意義和價值。本次研討會主要就我國大模型中文語料庫的發展現狀、面臨的形式、任務及其高質量發展路徑等進行探討。


upfile

張正表示,在過去幾年時間內,模型的參數規模增長給性能帶來了一定提升,但訓練數據的質量和組織形式對模型性能的提升帶來了更大的幫助。數據工作已經成為大模型行業中最受關注的一個任務,在模型規模不變的前提下,數據的變化能夠讓模型效果得到非常大的提升。模型參數量越大,數量越多,能力越強。一些科學家提出,大模型的本質是對數據做無損壓縮,目前各家大模型公司的一個核心任務就是,如何對數據做有效清洗,以及如何更進一步人工合成一些高價值數據,從數據層面提升模型的性能。

王崢表示,大模型訓練所需要的語料具有“廣”“齊”“專”的特點,訓練過程并不依賴個人信息。模型語料需要政府和社會力量更好地協同。在政府側進一步加強應用于訓練的公共數據開放,特別是具有科研屬性的公共數據,同時鼓勵社會力量參訓練公共數據集的開發建設,通過多方參與機制提高訓練數據質量和安全性。對于受財政支持的科研和文化單位所有的知識產權類數據,鼓勵通過開放、共享等方式向社會公開,基于非營利性成本補償原則明確合理收費標準。低質量的語料可以用數據治理的標準來去劣,而高質量語料很難有統一的客觀標準去衡量,應該交給市場機制去嘗試和探索,不要預設前置標準。

高震表示,語料數據的權利清潔性是語料庫建設、流通和使用的重要合規前提,個人信息、知識產權等法律規則的因應完善,安全合規技術的配套發展,以及協會引導下的行業自律和標準化建設三管齊下,預期能夠更好地解決相關難題。

洪濤表示,關于古籍文獻和語料庫的基本情況,我國現存古籍大概20萬種,50萬版本。整個古籍數字化的用字量大,普及難度大,中文古籍語料庫內容多,但是高質量古籍數據稀缺。古籍領域大模型垂直應用場景包括古文應用場景和傳統文化的場景。古文應用場景更多地用于古籍整理和學術研究,傳統文化的場景應用于文化普及。要想對這兩個場景更好的服務,要綜合訓練古籍和現代文獻才能實現傳統文化內容創新性應用。

趙燦表示,我國大模型及中文語料庫建設上雖有成果但面臨總量不足、分布不均、垂直覆蓋有限、質量參差不齊等挑戰,尤其是優質、專業、多元的中文數據供給存在明顯短板。建議在國家相關政策引導下,建設數據流動和交易特區,推動跨行業數據資產入表,強化跨域數據服務的深度融合,同時不斷完善數據撮合交易機制與基礎設施建設,示范引領數據資產產業發展,為構建高質量的大模型中文語料庫提供有力支撐。

李鵬飛表示,隨著人工智能大模型在各領域各場景加速落地,大模型訓練數據語料的價值日益凸顯,正成為影響大模型應用效果的關鍵因素。當前,大模型訓練語料在數據獲取、數據質量、數據處理、數據隱私和安全等方面還有諸多問題有待解決。需要行業伙伴共同探索數據合作機制與商業模式,推動數據資源在合規前提下的開放共享,構建大模型語料質量評價體系,打造安全可信的數據處理基礎設施,共同推動人工智能行業高質量發展。

趙宇表示,大模型語料庫的建設離不開高質量的數據解析和清洗,需要大量的人力和算力投入。如何更好地評估數據價值和數據成本,是建設數據共享生態的關鍵。因此,建議發揮國家宏觀調配優勢,從國家層面建立統一的數據機關、數據平臺,完善法律法規,設置激勵政策,統一數據質量標準,從而促進數據市場繁榮。

楊志勇表示,隨著人工智能時代的來臨,建設好中文語料庫尤為重要,應突出“兩量”和“一護”。“兩量”一是可信的中文文本數量,二是文本內容的質量;“一護”是版權護航,才能行穩致遠。

燕江依表示,在大模型時代,海量、高質量、多樣化的訓練數據集,成為拉開能力差距的關鍵要素。通過添加數據標記、清洗和轉換數據、數據縮減、增加數據多樣性、持續監測和維護數據等手段,形成優質的標準化數據集和完備的數據全生命周期管理體系。人工智能高質量數據集應滿足為可靠性、準確性、完整性、多樣性、標注精確性、安全性、均衡性、及時性等八大特征。建議聯動各方生態力量,完善人工智能數據生態服務,推動人工智能高質量數據集建設發展。

徐月梅表示,大語言模型的多語言能力參差不齊,迫切需要提升大語言模型的中文語言能力。訓練語料的清洗程度、多樣性、規模大小對模型的性能有重要影響。建設高質量中文訓練語料是關鍵,如何評價語料的高質量,值得探究。

吳沈括表示,作為全球業內共識,語料數據的質量,決定了人工智能算法的水平以及大模型的水準。在當下國際數據治理時代背景下,各個國家和地區都十分重視語料生態的培育建設,包括通過制定出臺相關的政策法規作出系統的正向促動。就現實而言,中文語料的建設具有顯著的現實意義和緊迫性,其過程需要注重考慮數據質量、權益保護以及行業生態等多重價值。一方面,要提高數據等要素資源的供給水平,包括深度挖掘公共數據的價值潛力。另一方面,要持續提高語料數據的質量要求,包括必要的基礎設施支撐和技術標準指引。同時,也要培育壯大行業生態水準,通過推動千行百業的融合與交互,憑借全面、有效的激勵機制,提升中文語料建設工作的可持續發展能力。

秦艷華表示,高質量中文語料庫建設勢在必行,希望由相關部門或協會或公益組織籌集人力、物力、財力,集中搭建全國最具影響力的中文語料庫平臺,構建通用大語言模型,并開源,免費供大家使用。

upfile

通過各界專家的研討發現,在大模型時代,數據成為新一輪人工智能競爭的壁壘與制高點,我國大模型及中文語料庫建設上雖有成果,但仍面臨總量不足、分布不均、垂直覆蓋有限、質量參差不齊等挑戰。建議從國家層面建立統一的數據機關、數據平臺,完善法律法規,設置激勵政策,鼓勵社會力量參與訓練公共數據集的開發。行業協會主動引導行業自律,開展相關標準化建設,提高行業生態水準,共同推動高質量中文語料庫的建設。

2011-2019 Copyrights reserved 京ICP備05006316號 版權所有:中國互聯網協會
技術支持:北京圣明慧力科技有限公司

国产精品亚洲日韩欧美色窝窝色欲_欧洲欧美人成视频在线_天天5g天天爽永久免费看欧美_国产欧美一区二区精品性色99
<dl id="ieuwe"><acronym id="ieuwe"></acronym></dl>
<code id="ieuwe"></code>

  • 
    
  • <bdo id="ieuwe"></bdo>
    色噜噜夜夜夜综合网| 国产亚洲精品aa| 亚洲一区中文日韩| 91在线视频官网| 久久中文免费视频| 久久精品一区二区三区不卡 | 国产亚洲综合色| 精品伊人久久久久7777人| 久久国产精品无码一级毛片| 91精品国产综合久久国产大片| 亚洲电影在线播放| 亚洲精品久久一区二区三区777| 色婷婷一区二区| 曰韩精品一区二区| 欧美老女人bb| 欧美老女人第四色| 日韩精品一级二级 | 久久精品国产精品亚洲红杏| 一区二区不卡免费视频| 精品国产电影一区二区| 极品少妇xxxx精品少妇偷拍| 亚洲精品视频网址| 日本一区二区三区电影| 国产99精品视频| 色8久久精品久久久久久蜜| 亚洲激情中文1区| 成人做爰69片免费| 91精品视频网| 美国十次综合导航| 国产成人在线网址| 亚洲伦在线观看| 亚洲图片综合网| 久久午夜电影网| 成人性生交大片| 欧美日韩一区在线| 日本成人在线视频网站| 萌白酱视频在线| 亚洲欧美另类久久久精品| 国产女人18毛片水真多18| 精品三级在线观看| 国产馆精品极品| 色偷偷成人一区二区三区91| 偷拍一区二区三区四区| 亚洲女优在线观看| ㊣最新国产の精品bt伙计久久| 人妻av一区二区三区| 精品奇米国产一区二区三区| 国产精品综合在线视频| 色狠狠一区二区三区香蕉| 五月婷婷激情综合| 任你操精品视频| 一区二区三区精品| 免费在线观看你懂的| 国产精品色呦呦| 国产精品扒开腿做爽爽爽a片唱戏 亚洲av成人精品一区二区三区 | 国产精品一区二区免费不卡 | 91电影在线观看| 日本视频在线一区| 黄色录像一级片| 亚洲国产成人va在线观看天堂 | 日日夜夜精品视频天天综合网| 国产精品免费无码| 亚洲天堂中文字幕| av在线网站观看| 亚洲日本欧美天堂| 一级片视频免费看| 一区二区在线观看视频| 一级片视频免费看| 一区二区欧美在线观看| 久久婷婷五月综合| 亚洲午夜激情av| 国产一二三四区| 蜜桃精品视频在线观看| 日本福利一区二区| 精品一区二区三区视频| 欧美日韩在线三级| 国v精品久久久网| 日韩视频中午一区| 91网站最新地址| 久久理论电影网| 中国特级黄色大片| 国产精品乱人伦中文| 野花社区视频在线观看| 亚洲九九爱视频| 999福利视频| 久久激情五月婷婷| 欧美日韩国产影片| kk眼镜猥琐国模调教系列一区二区| 精品国产一区二区三区四区四| 99热这里只有精品2| 国产精品狼人久久影院观看方式| 国产又爽又黄无码无遮挡在线观看| 亚洲欧美日韩国产综合在线| 在线观看天堂av| 久久成人18免费观看| 91精品国产综合久久久蜜臀粉嫩 | 国产三级精品三级在线专区| 50一60岁老妇女毛片| 亚洲老司机在线| 国产午夜精品理论片在线| 日本一区中文字幕| 欧美卡1卡2卡| 99re这里都是精品| 欧美极品少妇xxxxⅹ高跟鞋 | 午夜精品久久久久影视| 色天天综合久久久久综合片| 国产精品中文字幕一区二区三区| 日韩欧美另类在线| 亚洲视频在线播放免费| 一片黄亚洲嫩模| 日本高清不卡视频| av不卡免费电影| 中文字幕一区二区三区四区不卡| 手机av在线不卡| 国产一区二区三区高清播放| www久久精品| 91精品人妻一区二区三区| 国产成人亚洲综合a∨猫咪| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 欧美日韩精品欧美日韩精品一 | 免费xxxx性欧美18vr| 欧美一区二区视频网站| 在线观看免费视频黄| 午夜精品福利在线| 91精品免费在线观看| 影音先锋黄色资源| 日韩av成人高清| 日韩欧美国产成人一区二区| 在线免费观看日韩av| 美国欧美日韩国产在线播放| 精品国产123| 日韩福利在线视频| 国产乱人伦偷精品视频不卡| 久久久国产精品麻豆| 国产日韩精品中文字无码| 国产精品影音先锋| 亚洲国产精品99久久久久久久久| 三上悠亚在线观看视频| 成人综合在线网站| 一区二区三区在线观看欧美| 欧美探花视频资源| 艳妇乳肉豪妇荡乳xxx| 青娱乐精品视频在线| 精品欧美一区二区三区精品久久| 国产精品久久久久久久av| 福利91精品一区二区三区| 亚洲天堂av一区| 欧美三级电影网| 日本japanese极品少妇| 精品一区二区精品| 中文子幕无线码一区tr| 色欧美片视频在线观看在线视频| 深夜视频在线观看| 美洲天堂一区二卡三卡四卡视频| 精品久久久久久久久久久久久久久 | 成年人国产精品| 亚洲综合色成人| 日韩一级完整毛片| 色www亚洲国产阿娇yao| 波多野结衣一区二区三区| 亚洲五码中文字幕| 精品国产免费人成电影在线观看四季 | 亚洲日本在线观看| 欧美日本不卡视频| 尤物视频最新网址| 成人一级片网址| 亚洲国产aⅴ成人精品无吗| 欧美电影免费观看高清完整版在线| 国产精品1区2区3区4区| 91色.com| 久久国内精品视频| 亚洲免费看黄网站| 日韩视频在线你懂得| 日韩在线视频网址| 色悠悠在线视频| 国模娜娜一区二区三区| 一区二区三区在线观看动漫| 精品久久国产老人久久综合| 欧美又粗又大又长| 亚洲精品视频大全| 不卡的看片网站| 日本一不卡视频| 自拍偷拍国产精品| 精品国产乱码91久久久久久网站| 91久久免费观看| japanese中文字幕| 91在线视频观看| 国产在线一区二区综合免费视频| 亚洲裸体在线观看| 久久精品一区二区三区不卡| 欧美精品视频www在线观看| 五月天免费网站| 久久性爱视频网站| 成人性生交大片免费看中文网站| 日本一不卡视频| 一区二区国产盗摄色噜噜| 国产欧美精品国产国产专区| 3751色影院一区二区三区| 国产美女久久久久久| 亚洲AV无码国产精品|