發展數據標注技術,把數據“原油”煉成“汽油”(新視點)
今年8月,國務院印發《關于深入實施“人工智能+”行動的意見》,其中提出“支持發展數據標注、數據合成等技術,培育壯大數據處理和數據服務產業”。
何為數據標注?簡單來說,就是給文本、語音、圖片、視頻等各式數據“打標簽”。在人工智能的快速發展中,數據被譽為“新石油”,而數據標注則是將數據“原油”煉成“汽油”的關鍵工藝。
“數據標注通過對數據特征提取、分類、注釋、標簽化等操作,將人類的知識和思維邏輯轉化為計算機可識別的語言,可為數據注入新價值,還可有效激活數據潛能,是人工智能高質量數據集建設的關鍵環節?!眹覕祿謹底挚萍己突A設施建設司副司長李建國告訴記者,經過標注的高質量數據能有效提升垂類大模型的專業領域性能,加速人工智能賦能千行百業。
2024年12月,國家發展改革委、國家數據局等部門印發《關于促進數據標注產業高質量發展的實施意見》,提出“到2027年,數據標注產業專業化、智能化及科技創新能力顯著提升,產業規模大幅躍升,年均復合增長率超過20%”。據了解,國家數據局已指導安徽合肥、四川成都等7個城市建設數據標注基地,先行先試、探索經驗。截至今年上半年,7個數據標注基地建設數據集524個,服務大模型163個,帶動數據標注行業相關產值超過83億元。
在分子和藥物智能研發場景,對原子、電荷、化學鍵、靶點、活性等關鍵信息進行標記,人工智能才能更好賦能新藥研發;在工業質檢場景,對產品缺陷尺寸、位置、類型等信息進行標記,人工智能才能精準捕捉產品缺陷或異?!谌斯ぶ悄艽竽P秃拖嚓P政策驅動下,數據標注需求爆發式增長,相關企業也茁壯成長?!拔覀兊闹饕獦I務是為人工智能場景化落地提供數據采集和標注服務。在人工智能產業帶動下,僅過去一年公司就承接了2000多項數據標注項目需求,預計今年業務量將增長超過30%?!睒素惪萍颊笾行目偨浝頇栌罉繁硎?。
“數據標注產業鏈覆蓋上游數據提供方、中游平臺公司、下游服務商。目前,我國已經初步形成產業鏈閉環,各地也在加速培育數據標注產業,產業集聚帶動作用日益凸顯?!崩罱▏f,數據標注產業正呈現出新的發展趨勢。
技術迭代。智能化標注技術不斷取得突破,人機協同標注模式日益成熟?!捌髽I通過人工智能對未標注的數據進行預標注,數據標注員更多承擔關鍵決策角色,通過實時糾正模型錯誤,并將改進反饋給算法,促進其自我優化?!睓栌罉繁硎?,這種模式不僅提高了標注效率,還保證了標注的準確性。
要求提升。隨著大模型的發展,高質量數據集的評判標準變得更加復雜?!氨热玑t療影像標注需要專業知識以識別病灶,自動駕駛領域離不開對道路場景的高精度標注?!敝袊畔⑼ㄐ叛芯吭焊痹洪L魏亮說,數據標注產業逐漸從勞動密集型產業轉變為知識密集型產業,對從業者的專業要求越來越高。
對象拓展。被標注的數據從文本、圖像等單模態向多模態標注轉變,其領域也從通識領域逐漸擴展到醫療、工業制造等專識領域。
目前,數據標注產業還處于初期階段,需要各方群策群力,共同培育壯大數據標注產業生態。李建國表示,各地要加強政策落實和引導,與產業各界深度合作,搭建常態化供需對接服務平臺;應用企業要以實際需求驅動數據標注能力體系建設,模型廠商等數據應用企業要結合自身技術路線與業務場景,與標注企業共同開展標注工具研發、流程優化工作,推動行業標準規范建設。
分享讓更多人看到
- 評論
- 關注
































第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量