如今的世界,攝像頭可以識別萬物,智能駕駛的雷達可以避讓人車物,拍照給AI就能做數學題……這些對于“Z世代”年輕人而言,早已是司空見慣之事。
然而,鮮為人知的是,AI之所以能夠識別物體、避讓車輛、解析圖像解題,其背后離不開專業人員的精心數據訓練。
如果說AI也要上學,那么,寧波高新區企業寧波博登智能科技有限公司(以下簡稱“博登智能”)就是編教材的。目前,博登智能已經成為寧波乃至浙江訓練量最大、訓練能力最強的“訓練師”之一。
AI數據“特訓師”
如今,數據要素的交易已經不是新鮮事。而數據交易的價值高低就取決于數據的質量。
那么,什么樣的數據是高質量數據?以智能駕駛領域的圖像數據舉例,首先要確保圖像數據物象聚焦、表意明確,就像人眼觀察事物一樣,能夠迅速抓住主題并捕捉到關鍵細節。然后將這些關鍵信息進行具體的標注。
同時,路況信息多數情況下在二維的圖片中難以說明,就需要點云圖,即3D圖像,圖片本身是帶有三維坐標,可以讓AI判斷物體的長寬高,同時還可以疊加時間維度,形成4D數據。
“我們的一項主要工作是數據標注,用通俗的話來說,就是從海量數據中,為人工智能‘劃重點、做標注’,變成大模型可以理解的數據。隨后,便能利用這些高質量數據對人工智能進行‘精準投喂’,從而實現對它們的高效訓練。”博登智能高級解決方案工程師干逢雨表示。
隨著AI大模型的快速發展,AI技術對數據的需求已經擴展到全方位、全場景的多模態數據,以實現對復雜信息的全面理解和高效處理。
所謂多模態數據,就是包含文本、圖像、音頻、視頻的數據,比如,我想把“我有一個蘋果”這個信息傳遞給你,我可以用文字寫出來,也可以用語言說出來,也可以用圖片畫出來,甚至我還可以拍成視頻告訴你。
目前,博登智能是浙江省內數據訓練量最大的公司之一,通過其訓練的多模態數據已達到PB量級(1PB=1024TB=1024*1024GB),覆蓋自動駕駛、醫療、教育、具身智能等行業。
用AI訓練AI
長期以來,數據標注行業一直背負著“低收益、高人力消耗”的標簽,被視為勞動密集型行業的典型代表,需要大量人工進行標注工作。
而隨著智能駕駛技術向L3、L4級進階,其產生的數據規模正呈現指數級膨脹。例如,據英特爾測算,單輛自動駕駛汽車每日生成的數據量可達4000GB之巨。
此外,自動駕駛車輛海量數據的獲取方法與流程也變得日益重要,以確保數據的完整性和過程的可靠性。例如,通過專業設備拷貝數據并上傳至數據中心,或采用眾包模式采集傳輸數據。
隨著L3、L4級別的量產能力的達成,預計未來幾年內自動駕駛市場規模將進一步擴大。依賴人工標注的模式,其時間與資金的雙重成本正持續走高。
博登智能提出的解決方案是,利用AI來訓練AI,以此推動標注流程向自動化轉型。
“自主研發的BASE平臺已完成第六代技術迭代,內嵌數百種預標注模型和智能化輔助標注工具,將傳統勞動密集型的標注流程轉化為技術密集型,顯著減少了人工參與,從根本上降低了人力成本。”干逢雨表示,“平臺還搭載了自主迭代機制,通過對比識別自動標注結果和最終驗收數據中的差異,自動積累形成訓練數據,實現模型的自主閉環訓練和迭代,形成‘智能飛輪’。”
相較于傳統標注方式,博登智能的數據處理方案能降低40%的成本,效率最高提升700%。目前,該公司已與吉利汽車、零跑汽車、賽力斯、中國聯通、阿里、商湯等行業頭部企業,以及多家大型醫療機構建立深度合作。
目前,全球最大的數據訓練公司Scale AI估值已達290億美元。
隨著AI大模型迅猛發展,根據相關研究,中國數據標注行業的市場規模在2023年已達到約60.8億元,并預計到2029年將達到204.3億元。而博登智能也在今年5月完成A輪億元融資,由上海國際集團國和投資獨家投資。
“高質量數據的訓練和生產不僅是AI發展的基礎,更將引領行業的進化。我們將立足研發通用和專用大模型的各類高質量數據集,力爭在國際市場贏得更多合作機會。”博登智能創始人趙捷表示。
(圖片來源:寧波高新區)
友情鏈接: 政府 高新園區合作媒體
Copyright 1999-2025 中國高新網chinahightech.com All Rights Reserved.京ICP備14033264號-5
電信與信息服務業務經營許可證060344號主辦單位:《中國高新技術產業導報》社有限責任公司