專屬客服號
微信訂閱號
全面提升數(shù)據(jù)價值
賦能業(yè)務提質增效
大模型對數(shù)據(jù)數(shù)量和質量提出新要求
人工智能大語言模型的訓練需要強大的高性能算力和海量訓練數(shù)據(jù)供應,從行業(yè)發(fā)展前沿趨勢來看,大模型訓練使用的數(shù)據(jù)集規(guī)模呈現(xiàn)爆發(fā)式的持續(xù)增長。據(jù)工業(yè)和信息化部賽迪研究院發(fā)布的研究報告預測,到2024年年底我國將有5%~8%的企業(yè)大模型參數(shù)從千億級躍升至萬億級,算力需求增速會達到320%。
公開資料顯示,2018年GPT-1數(shù)據(jù)集約4.6GB,2020年GPT-3數(shù)據(jù)集達到了753GB,而2021年Gopher數(shù)據(jù)集已達10550GB,2023年GPT-4的數(shù)據(jù)量更是GPT-3的數(shù)十倍以上。同時,大模型快速迭代對訓練數(shù)據(jù)的數(shù)據(jù)量、多樣性和更新速度方面也提出了更高的要求。
大語言模型是基于注意力機制的預訓練模型,足夠多的用于自監(jiān)督學習過程的基礎訓練數(shù)據(jù)是大模型區(qū)別于傳統(tǒng)人工智能算法模型的主要特點,海量數(shù)據(jù)可以為模型提供更多的學習樣本和更廣泛的知識覆蓋,有助于模型學習到更多的特征和關系。只有海量多源的數(shù)據(jù)支持預訓練,大模型在后續(xù)的專門任務中才會表現(xiàn)出更強大的性能和更具啟發(fā)性的生成能力。
數(shù)據(jù)的豐富性對大模型后續(xù)的泛化和涌現(xiàn)能力非常重要。豐富的數(shù)據(jù)可以為模型提供更多的學習場景和挑戰(zhàn),有助于模型學習到更復雜的特征和關系,從而提高其泛化能力。大模型的目標是能夠適應各種不同的輸入,并對未見過的數(shù)據(jù)進行準確的預測。通過使用多維度的訓練數(shù)據(jù),模型可以學習更廣泛的上下文和語言規(guī)律,提高其泛化能力,節(jié)約資源和時間,使模型更具有實用性和可靠性。數(shù)據(jù)維度多樣性的提升能夠推動大模型從單一領域向多領域知識的躍遷,而非僅僅是數(shù)量的增加,如果是簡單的同類型數(shù)據(jù)反饋,單條數(shù)據(jù)反饋和十條同類型數(shù)據(jù)反饋雖然在數(shù)據(jù)的數(shù)量上增加了10倍,但模型的智能并沒有得到拓展和增加,因此數(shù)據(jù)維度多樣性可直接提升大模型在跨領域知識的理解和應用的深度,實現(xiàn)了從單一領域向多領域知識遷移的質變。
數(shù)據(jù)的質量對模型的訓練結果至關重要。數(shù)據(jù)存在大量的噪聲、錯誤或冗余,模型可能會學習到錯誤的特征和關系,導致其性能下降。高質量的數(shù)據(jù)可以為模型提供更準確、更可靠的學習樣本,有助于模型學習到更真實的特征和關系,從而提高其性能和泛化能力。
數(shù)據(jù)的時效性對于大模型的即時學習和適應能力具有顯著作用。通過提高數(shù)據(jù)服務交付時效提升數(shù)據(jù)服務開發(fā)效率,實現(xiàn)大模型對新興趨勢和緊急事件的快速響應。
只有具備以上條件,大模型才能在訓練過程中學習到更多的知識和規(guī)律,從而在面對新數(shù)據(jù)時表現(xiàn)出更好的性能和泛化能力。
積極打造高性能大模型算力集群
在當前的數(shù)字科技領域,算力的發(fā)展已經(jīng)達到了萬卡級別的龐大規(guī)模,即單體智算集群擁有上萬個GPU計算節(jié)點。這種前所未有的強大算力為深度學習等復雜計算任務提供了堅實的算力支撐。目前,我國骨干廠商正積極探索打造高性能算力集群,并通過協(xié)同優(yōu)化、工具支持等實現(xiàn)高效穩(wěn)定的大模型訓練,提高算力使用效率。
百度百舸2.0在計算、AI存儲、AI容器等模塊上增強能力、豐富功能,并發(fā)布了AI加速套件。AI加速套件通過存訓推一體化的方式,對數(shù)據(jù)的讀取和查詢、訓練、推理進行加速,進一步提升AI作業(yè)速度。為了提升集群通信效率,百度發(fā)布了彈性RDMA網(wǎng)卡,相比傳統(tǒng)專用的RDMA網(wǎng)絡,彈性RDMA網(wǎng)絡和VPC網(wǎng)絡進行了融合,使用戶的使用成本更低,同時通信延時降低了50%以上。此外,百度在萬卡集群的運維和穩(wěn)定性方面也進行了大量優(yōu)化工作,如通過自研的集群組網(wǎng)故障管理機制,降低了工程師在容錯和故障恢復上的時間成本,優(yōu)秀的運維能力和穩(wěn)定性為大模型的訓練提供了有力的保障。
騰訊云發(fā)布了新一代HCC高性能計算集群,用于大模型訓練、自動駕駛、科學計算等領域?;谛乱淮?,騰訊團隊在同等數(shù)據(jù)集下,將萬億參數(shù)的AI大模型混元NLP訓練由50天縮短到4天。其自研星脈高性能計算網(wǎng)絡和高性能集合通信庫TCCL,具備業(yè)界最高的3.2T RDMA通信帶寬,在搭載同等數(shù)量的GPU情況下,為大模型訓練優(yōu)化40%負載性能,消除多個網(wǎng)絡原因導致的訓練中斷問題。
浪潮信息AI團隊在2023年相繼研發(fā)了OGAI(Open GenAl Infra)大模型智算軟件棧、源2.0大模型,從軟硬協(xié)同層面去持續(xù)提升基礎大模型的能力,同時通過開放算力發(fā)展生態(tài)去探索可能突破的場景。OGAI面向以大模型為核心技術的生成式AI開發(fā)與應用場景,提供從集群系統(tǒng)環(huán)境部署到算力調度保障和大模型開發(fā)管理的全棧全流程的軟件,從而降低大模型算力系統(tǒng)的使用門檻、優(yōu)化大模型的研發(fā)效率,保障大模型的生產(chǎn)與應用。
加快構建高質量數(shù)據(jù)集
首先,深入生產(chǎn)生活場景挖掘高質量數(shù)據(jù)集。數(shù)據(jù)是日?;顒拥目茖W記錄,人工智能之所以能夠發(fā)揮支撐和驅動數(shù)字經(jīng)濟的重要作用,本質上在于忠實而有效地處理現(xiàn)實數(shù)據(jù)。深入生產(chǎn)生活場景中挖掘高質量數(shù)據(jù)集,是數(shù)據(jù)驅動時代的關鍵任務。
以明確的目標為先導,通過精準的數(shù)據(jù)采集策略,從源頭獲取真實、全面的原始數(shù)據(jù)。在數(shù)據(jù)清洗與預處理環(huán)節(jié),要運用專業(yè)技術和細致的分析,去除噪聲、填補缺失值,確保數(shù)據(jù)的準確性和完整性。以制造業(yè)為例,企業(yè)可收集設備型號、維修記錄等靜態(tài)數(shù)據(jù),以及溫度、振動等實時動態(tài)數(shù)據(jù),經(jīng)過清洗和標注后,用于訓練預測模型。數(shù)據(jù)集的劃分同樣重要,須確保訓練集、驗證集和測試集的合理分布,以充分驗證模型的性能和泛化能力。此外,數(shù)據(jù)集的文檔編寫和元數(shù)據(jù)管理也不容忽視,它們?yōu)閿?shù)據(jù)集的長期維護和更新提供了堅實的基礎。
在實際操作中需要面對數(shù)據(jù)來源的多樣性、數(shù)據(jù)質量的參差不齊、數(shù)據(jù)采集和處理成本的高昂問題,需要制定周密的數(shù)據(jù)采集計劃,選擇合適的數(shù)據(jù)源,并運用先進的數(shù)據(jù)清洗和預處理技術,以確保數(shù)據(jù)的準確性和一致性。同時,還需要注重數(shù)據(jù)的時效性和動態(tài)性,及時更新和維護數(shù)據(jù)集,以適應業(yè)務的發(fā)展和變化,從海量數(shù)據(jù)中提煉出有價值的信息,為業(yè)務決策和模型訓練提供有力支持。同時,在數(shù)據(jù)集構建全流程過程中,人的因素同樣重要。需要組建專業(yè)的數(shù)據(jù)團隊,具備深厚的數(shù)據(jù)分析能力和豐富的業(yè)務知識,能夠深入理解業(yè)務需求,從海量數(shù)據(jù)中挖掘出有價值的信息。與此同時,還需要建立科學的數(shù)據(jù)管理制度和流程,確保數(shù)據(jù)的安全性和隱私性,防止數(shù)據(jù)泄露和濫用。能夠反映生產(chǎn)生活實際中深層次現(xiàn)實規(guī)律的數(shù)據(jù)是具有天然價值的,而對其進行科學的加工和處理則使其具備了工程上的利用價值,需要專門的團隊以科學的態(tài)度、專業(yè)的能力和嚴謹?shù)木瘢粩嗵剿骱蛯嵺`。
其次,利用人工智能技術構建高質量數(shù)據(jù)集。目前,利用現(xiàn)有人工智能技術構建高質量數(shù)據(jù)集仍是一項富有挑戰(zhàn)性和發(fā)展前景的任務。通過充分發(fā)揮人工智能技術的優(yōu)勢,可以提高數(shù)據(jù)集的準確性、效率和可解釋性,為人工智能應用的發(fā)展提供堅實的數(shù)據(jù)基礎。
一是借助人工智技術的自動標注工具正在成為基礎數(shù)據(jù)服務商和Al算法公司降低成本和提高效率的利器。首先,通過自然語言處理和機器學習技術,可以對大量的文本、圖像、音頻等數(shù)據(jù)進行自動標注和分類,從而快速生成帶有標簽的數(shù)據(jù)集。這種方法可以大大減少人工標注的成本和時間,同時提高標注的準確性和一致性。其次,人工智能技術還可以幫助進行數(shù)據(jù)清洗和預處理。利用數(shù)據(jù)清洗算法和異常檢測模型,可以自動識別和修正數(shù)據(jù)中的錯誤、噪聲和異常值,確保數(shù)據(jù)的準確性和可靠性。同時,通過數(shù)據(jù)增強技術,可以在不增加實際數(shù)據(jù)量的情況下,擴充數(shù)據(jù)集的多樣性和泛化能力。此外,人工智能技術還可以支持數(shù)據(jù)集的動態(tài)更新和維護。通過監(jiān)控數(shù)據(jù)源的變化和引入新的數(shù)據(jù),可以及時發(fā)現(xiàn)和更新數(shù)據(jù)集中的過時信息,保持數(shù)據(jù)集的時效性和準確性。另外,利用自動化測試和驗證技術,可以確保數(shù)據(jù)集的質量和性能在更新過程中得到保障。
二是利用現(xiàn)有大模型批量構建高質量數(shù)據(jù)。大語言模型憑借強大的上下文學習能力可以從示例樣本和原始素材中快速構建出高質量的指令-輸出對,形成種類多樣、內(nèi)容翔實的指令微調數(shù)據(jù)集,有力地提升了指令數(shù)據(jù)的數(shù)量、質量和可控性,基于這些指令數(shù)據(jù)微調后的模型,其性能表現(xiàn)也得到了大幅增強。
作者:中國軟件評測中心 楊璨 莊金鑫 范振銳 來源:中國電子報、電子信息產(chǎn)業(yè)網(wǎng)
本文為本網(wǎng)轉載,出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其內(nèi)容的真實性,如涉及侵權,請權利人與本站聯(lián)系,本站經(jīng)核實后予以修改或刪除。
請完善以下信息,我們的顧問會在1個工作日內(nèi)與您聯(lián)系,為您安排產(chǎn)品定制服務
評論