五度易链-专注数据治理服务与产业数据应用领域

電話咨詢 在線咨詢 產(chǎn)品定制
電話咨詢 在線咨詢 產(chǎn)品定制
010-68321050

積極打造高性能大模型算力集群,加快構建高質量數(shù)據(jù)集!

五度易鏈 2024-07-29 3306 0

專屬客服號

微信訂閱號

大數(shù)據(jù)治理

全面提升數(shù)據(jù)價值

賦能業(yè)務提質增效

人工智能作為引領新一輪科技產(chǎn)業(yè)革命的戰(zhàn)略性技術和新質生產(chǎn)力重要驅動力,正在引發(fā)經(jīng)濟、社會、文化等領域的變革和重塑。2023年以來,以ChatGPT、GPT-4為代表的大模型技術因其強大的內(nèi)容生成及多輪對話能力,引發(fā)全球新一輪人工智能創(chuàng)新熱潮,隨著技術演進、產(chǎn)品迭代的日新月異,大模型正在成為科技產(chǎn)業(yè)發(fā)展強勁動能。

  大模型對數(shù)據(jù)數(shù)量和質量提出新要求

  人工智能大語言模型的訓練需要強大的高性能算力和海量訓練數(shù)據(jù)供應,從行業(yè)發(fā)展前沿趨勢來看,大模型訓練使用的數(shù)據(jù)集規(guī)模呈現(xiàn)爆發(fā)式的持續(xù)增長。據(jù)工業(yè)和信息化部賽迪研究院發(fā)布的研究報告預測,到2024年年底我國將有5%~8%的企業(yè)大模型參數(shù)從千億級躍升至萬億級,算力需求增速會達到320%。

  公開資料顯示,2018年GPT-1數(shù)據(jù)集約4.6GB,2020年GPT-3數(shù)據(jù)集達到了753GB,而2021年Gopher數(shù)據(jù)集已達10550GB,2023年GPT-4的數(shù)據(jù)量更是GPT-3的數(shù)十倍以上。同時,大模型快速迭代對訓練數(shù)據(jù)的數(shù)據(jù)量、多樣性和更新速度方面也提出了更高的要求。

  大語言模型是基于注意力機制的預訓練模型,足夠多的用于自監(jiān)督學習過程的基礎訓練數(shù)據(jù)是大模型區(qū)別于傳統(tǒng)人工智能算法模型的主要特點,海量數(shù)據(jù)可以為模型提供更多的學習樣本和更廣泛的知識覆蓋,有助于模型學習到更多的特征和關系。只有海量多源的數(shù)據(jù)支持預訓練,大模型在后續(xù)的專門任務中才會表現(xiàn)出更強大的性能和更具啟發(fā)性的生成能力。

  數(shù)據(jù)的豐富性對大模型后續(xù)的泛化和涌現(xiàn)能力非常重要。豐富的數(shù)據(jù)可以為模型提供更多的學習場景和挑戰(zhàn),有助于模型學習到更復雜的特征和關系,從而提高其泛化能力。大模型的目標是能夠適應各種不同的輸入,并對未見過的數(shù)據(jù)進行準確的預測。通過使用多維度的訓練數(shù)據(jù),模型可以學習更廣泛的上下文和語言規(guī)律,提高其泛化能力,節(jié)約資源和時間,使模型更具有實用性和可靠性。數(shù)據(jù)維度多樣性的提升能夠推動大模型從單一領域向多領域知識的躍遷,而非僅僅是數(shù)量的增加,如果是簡單的同類型數(shù)據(jù)反饋,單條數(shù)據(jù)反饋和十條同類型數(shù)據(jù)反饋雖然在數(shù)據(jù)的數(shù)量上增加了10倍,但模型的智能并沒有得到拓展和增加,因此數(shù)據(jù)維度多樣性可直接提升大模型在跨領域知識的理解和應用的深度,實現(xiàn)了從單一領域向多領域知識遷移的質變。

  數(shù)據(jù)的質量對模型的訓練結果至關重要。數(shù)據(jù)存在大量的噪聲、錯誤或冗余,模型可能會學習到錯誤的特征和關系,導致其性能下降。高質量的數(shù)據(jù)可以為模型提供更準確、更可靠的學習樣本,有助于模型學習到更真實的特征和關系,從而提高其性能和泛化能力。

  數(shù)據(jù)的時效性對于大模型的即時學習和適應能力具有顯著作用。通過提高數(shù)據(jù)服務交付時效提升數(shù)據(jù)服務開發(fā)效率,實現(xiàn)大模型對新興趨勢和緊急事件的快速響應。

  只有具備以上條件,大模型才能在訓練過程中學習到更多的知識和規(guī)律,從而在面對新數(shù)據(jù)時表現(xiàn)出更好的性能和泛化能力。

  積極打造高性能大模型算力集群

  在當前的數(shù)字科技領域,算力的發(fā)展已經(jīng)達到了萬卡級別的龐大規(guī)模,即單體智算集群擁有上萬個GPU計算節(jié)點。這種前所未有的強大算力為深度學習等復雜計算任務提供了堅實的算力支撐。目前,我國骨干廠商正積極探索打造高性能算力集群,并通過協(xié)同優(yōu)化、工具支持等實現(xiàn)高效穩(wěn)定的大模型訓練,提高算力使用效率。

  百度百舸2.0在計算、AI存儲、AI容器等模塊上增強能力、豐富功能,并發(fā)布了AI加速套件。AI加速套件通過存訓推一體化的方式,對數(shù)據(jù)的讀取和查詢、訓練、推理進行加速,進一步提升AI作業(yè)速度。為了提升集群通信效率,百度發(fā)布了彈性RDMA網(wǎng)卡,相比傳統(tǒng)專用的RDMA網(wǎng)絡,彈性RDMA網(wǎng)絡和VPC網(wǎng)絡進行了融合,使用戶的使用成本更低,同時通信延時降低了50%以上。此外,百度在萬卡集群的運維和穩(wěn)定性方面也進行了大量優(yōu)化工作,如通過自研的集群組網(wǎng)故障管理機制,降低了工程師在容錯和故障恢復上的時間成本,優(yōu)秀的運維能力和穩(wěn)定性為大模型的訓練提供了有力的保障。

  騰訊云發(fā)布了新一代HCC高性能計算集群,用于大模型訓練、自動駕駛、科學計算等領域?;谛乱淮?,騰訊團隊在同等數(shù)據(jù)集下,將萬億參數(shù)的AI大模型混元NLP訓練由50天縮短到4天。其自研星脈高性能計算網(wǎng)絡和高性能集合通信庫TCCL,具備業(yè)界最高的3.2T RDMA通信帶寬,在搭載同等數(shù)量的GPU情況下,為大模型訓練優(yōu)化40%負載性能,消除多個網(wǎng)絡原因導致的訓練中斷問題。

  浪潮信息AI團隊在2023年相繼研發(fā)了OGAI(Open GenAl Infra)大模型智算軟件棧、源2.0大模型,從軟硬協(xié)同層面去持續(xù)提升基礎大模型的能力,同時通過開放算力發(fā)展生態(tài)去探索可能突破的場景。OGAI面向以大模型為核心技術的生成式AI開發(fā)與應用場景,提供從集群系統(tǒng)環(huán)境部署到算力調度保障和大模型開發(fā)管理的全棧全流程的軟件,從而降低大模型算力系統(tǒng)的使用門檻、優(yōu)化大模型的研發(fā)效率,保障大模型的生產(chǎn)與應用。

  加快構建高質量數(shù)據(jù)集

  首先,深入生產(chǎn)生活場景挖掘高質量數(shù)據(jù)集。數(shù)據(jù)是日?;顒拥目茖W記錄,人工智能之所以能夠發(fā)揮支撐和驅動數(shù)字經(jīng)濟的重要作用,本質上在于忠實而有效地處理現(xiàn)實數(shù)據(jù)。深入生產(chǎn)生活場景中挖掘高質量數(shù)據(jù)集,是數(shù)據(jù)驅動時代的關鍵任務。

  以明確的目標為先導,通過精準的數(shù)據(jù)采集策略,從源頭獲取真實、全面的原始數(shù)據(jù)。在數(shù)據(jù)清洗與預處理環(huán)節(jié),要運用專業(yè)技術和細致的分析,去除噪聲、填補缺失值,確保數(shù)據(jù)的準確性和完整性。以制造業(yè)為例,企業(yè)可收集設備型號、維修記錄等靜態(tài)數(shù)據(jù),以及溫度、振動等實時動態(tài)數(shù)據(jù),經(jīng)過清洗和標注后,用于訓練預測模型。數(shù)據(jù)集的劃分同樣重要,須確保訓練集、驗證集和測試集的合理分布,以充分驗證模型的性能和泛化能力。此外,數(shù)據(jù)集的文檔編寫和元數(shù)據(jù)管理也不容忽視,它們?yōu)閿?shù)據(jù)集的長期維護和更新提供了堅實的基礎。

  在實際操作中需要面對數(shù)據(jù)來源的多樣性、數(shù)據(jù)質量的參差不齊、數(shù)據(jù)采集和處理成本的高昂問題,需要制定周密的數(shù)據(jù)采集計劃,選擇合適的數(shù)據(jù)源,并運用先進的數(shù)據(jù)清洗和預處理技術,以確保數(shù)據(jù)的準確性和一致性。同時,還需要注重數(shù)據(jù)的時效性和動態(tài)性,及時更新和維護數(shù)據(jù)集,以適應業(yè)務的發(fā)展和變化,從海量數(shù)據(jù)中提煉出有價值的信息,為業(yè)務決策和模型訓練提供有力支持。同時,在數(shù)據(jù)集構建全流程過程中,人的因素同樣重要。需要組建專業(yè)的數(shù)據(jù)團隊,具備深厚的數(shù)據(jù)分析能力和豐富的業(yè)務知識,能夠深入理解業(yè)務需求,從海量數(shù)據(jù)中挖掘出有價值的信息。與此同時,還需要建立科學的數(shù)據(jù)管理制度和流程,確保數(shù)據(jù)的安全性和隱私性,防止數(shù)據(jù)泄露和濫用。能夠反映生產(chǎn)生活實際中深層次現(xiàn)實規(guī)律的數(shù)據(jù)是具有天然價值的,而對其進行科學的加工和處理則使其具備了工程上的利用價值,需要專門的團隊以科學的態(tài)度、專業(yè)的能力和嚴謹?shù)木瘢粩嗵剿骱蛯嵺`。

  其次,利用人工智能技術構建高質量數(shù)據(jù)集。目前,利用現(xiàn)有人工智能技術構建高質量數(shù)據(jù)集仍是一項富有挑戰(zhàn)性和發(fā)展前景的任務。通過充分發(fā)揮人工智能技術的優(yōu)勢,可以提高數(shù)據(jù)集的準確性、效率和可解釋性,為人工智能應用的發(fā)展提供堅實的數(shù)據(jù)基礎。

  一是借助人工智技術的自動標注工具正在成為基礎數(shù)據(jù)服務商和Al算法公司降低成本和提高效率的利器。首先,通過自然語言處理和機器學習技術,可以對大量的文本、圖像、音頻等數(shù)據(jù)進行自動標注和分類,從而快速生成帶有標簽的數(shù)據(jù)集。這種方法可以大大減少人工標注的成本和時間,同時提高標注的準確性和一致性。其次,人工智能技術還可以幫助進行數(shù)據(jù)清洗和預處理。利用數(shù)據(jù)清洗算法和異常檢測模型,可以自動識別和修正數(shù)據(jù)中的錯誤、噪聲和異常值,確保數(shù)據(jù)的準確性和可靠性。同時,通過數(shù)據(jù)增強技術,可以在不增加實際數(shù)據(jù)量的情況下,擴充數(shù)據(jù)集的多樣性和泛化能力。此外,人工智能技術還可以支持數(shù)據(jù)集的動態(tài)更新和維護。通過監(jiān)控數(shù)據(jù)源的變化和引入新的數(shù)據(jù),可以及時發(fā)現(xiàn)和更新數(shù)據(jù)集中的過時信息,保持數(shù)據(jù)集的時效性和準確性。另外,利用自動化測試和驗證技術,可以確保數(shù)據(jù)集的質量和性能在更新過程中得到保障。

  二是利用現(xiàn)有大模型批量構建高質量數(shù)據(jù)。大語言模型憑借強大的上下文學習能力可以從示例樣本和原始素材中快速構建出高質量的指令-輸出對,形成種類多樣、內(nèi)容翔實的指令微調數(shù)據(jù)集,有力地提升了指令數(shù)據(jù)的數(shù)量、質量和可控性,基于這些指令數(shù)據(jù)微調后的模型,其性能表現(xiàn)也得到了大幅增強。

  作者:中國軟件評測中心 楊璨 莊金鑫 范振銳  來源:中國電子報、電子信息產(chǎn)業(yè)網(wǎng)

本文為本網(wǎng)轉載,出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其內(nèi)容的真實性,如涉及侵權,請權利人與本站聯(lián)系,本站經(jīng)核實后予以修改或刪除。

產(chǎn)業(yè)專題

申請產(chǎn)品定制

請完善以下信息,我們的顧問會在1個工作日內(nèi)與您聯(lián)系,為您安排產(chǎn)品定制服務

  • *姓名

  • *手機號

  • *驗證碼

    獲取驗證碼
    獲取驗證碼
  • *您的郵箱

  • *政府/園區(qū)/機構/企業(yè)名稱

  • 您的職務

  • 備注

主站蜘蛛池模板: 震动筛选机|震动分筛机|筛粉机|振筛机|振荡筛-振动筛分设备专业生产厂家高服机械 | 并网柜,汇流箱,电控设备,中高低压开关柜,电气电力成套设备,PLC控制设备订制厂家,江苏昌伟业新能源科技有限公司 | 扬尘在线监测系统_工地噪声扬尘检测仪_扬尘监测系统_贝塔射线扬尘监测设备「风途物联网科技」 | Q361F全焊接球阀,200X减压稳压阀,ZJHP气动单座调节阀-上海戎钛 | IPO咨询公司-IPO上市服务-细分市场研究-龙马咨询 | 搬运设备、起重设备、吊装设备—『龙海起重成套设备』 | 祝融环境-地源热泵多恒系统高新技术企业,舒适生活环境缔造者! | 岛津二手液相色谱仪,岛津10A液相,安捷伦二手液相,安捷伦1100液相-杭州森尼欧科学仪器有限公司 | 安全阀_弹簧式安全阀_美标安全阀_工业冷冻安全阀厂家-中国·阿司米阀门有限公司 | 一体化隔油提升设备-餐饮油水分离器-餐厨垃圾处理设备-隔油池-盐城金球环保产业发展有限公司 | 不锈钢轴流风机,不锈钢电机-许昌光维防爆电机有限公司(原许昌光维特种电机技术有限公司) | 石家庄小程序开发_小程序开发公司_APP开发_网站制作-石家庄乘航网络科技有限公司 | 北京开业庆典策划-年会活动策划公司-舞龙舞狮团大鼓表演-北京盛乾龙狮鼓乐礼仪庆典策划公司 | 仿古建筑设计-仿古建筑施工-仿古建筑公司-汉匠古建筑设计院 | 土壤有机碳消解器-石油|表层油类分析采水器-青岛溯源环保设备有限公司 | 中视电广_短视频拍摄_短视频推广_短视频代运营_宣传片拍摄_影视广告制作_中视电广 | 铝合金脚手架厂家-专注高空作业平台-深圳腾达安全科技 | 东莞螺丝|东莞螺丝厂|东莞不锈钢螺丝|东莞组合螺丝|东莞精密螺丝厂家-东莞利浩五金专业紧固件厂家 | 锂电混合机-新能源混合机-正极材料混料机-高镍,三元材料混料机-负极,包覆混合机-贝尔专业混合混料搅拌机械系统设备厂家 | 10吨无线拉力计-2吨拉力计价格-上海佳宜电子科技有限公司 | 成都APP开发-成都App定制-成都app开发公司-【未来久】 | 土壤养分检测仪_肥料养分检测仪_土壤水分检测仪-山东莱恩德仪器 大型多片锯,圆木多片锯,方木多片锯,板材多片锯-祥富机械有限公司 | 自清洗过滤器,浅层砂过滤器,叠片过滤器厂家-新乡市宇清净化 | 交通信号灯生产厂家_红绿灯厂家_电子警察监控杆_标志杆厂家-沃霖电子科技 | 潜水搅拌机-双曲面搅拌机-潜水推进器|奥伯尔环保 | 空气净化器租赁,空气净化器出租,全国直租_奥司汀净化器租赁 | 周口市风机厂,周鼓风机,河南省周口市风机厂| 小青瓦丨古建筑瓦丨青瓦厂家-宜兴市徽派古典建筑材料有限公司 | 安徽免检低氮锅炉_合肥燃油锅炉_安徽蒸汽发生器_合肥燃气锅炉-合肥扬诺锅炉有限公司 | 全自动过滤器_反冲洗过滤器_自清洗过滤器_量子除垢环_量子环除垢_量子除垢 - 安士睿(北京)过滤设备有限公司 | 机床主轴维修|刀塔维修|C轴维修-常州翔高精密机械有限公司 | 德国GMN轴承,GMN角接触球轴承,GMN单向轴承,GMN油封,GMN非接触式密封 | SPC工作站-连杆综合检具-表盘气动量仪-内孔缺陷检测仪-杭州朗多检测仪器有限公司 | 黑田精工电磁阀-CAMMOZI气缸-ROSS电磁-上海茂硕机械设备有限公司 | 在线PH计-氧化锆分析仪-在线浊度仪-在线溶氧仪- 无锡朝达 | 电子元器件呆滞料_元器件临期库存清仓尾料_尾料优选现货采购处理交易商城 | 东莞注册公司-代办营业执照-东莞公司注册代理记账-极刻财税 | 阳光模拟试验箱_高低温试验箱_高低温冲击试验箱_快速温变试验箱|东莞市赛思检测设备有限公司 | 合肥钣金加工-安徽激光切割加工-机箱机柜加工厂家-合肥通快 | 报警器_家用防盗报警器_烟雾报警器_燃气报警器_防盗报警系统厂家-深圳市刻锐智能科技有限公司 | 深圳美安可自动化设备有限公司,喷码机,定制喷码机,二维码喷码机,深圳喷码机,纸箱喷码机,东莞喷码机 UV喷码机,日期喷码机,鸡蛋喷码机,管芯喷码机,管内壁喷码机,喷码机厂家 |