99久久精品一区二区三区深爱网-99久久久国产精品观看-日韩最新激情在线观看-久久伊人八月婷婷综合激情-熟女人妻区二区三区-男人的天堂av天堂-国内精品久久久久免费-日韩欧美一区二区三区三州-国产一区二区三久久,日韩不卡高清av影院,69久久99精品久久久久婷婷,内射 极品 自拍

首頁 媒體中心智谷動(dòng)態(tài)

眾志電子·數(shù)據(jù)頭條:數(shù)據(jù)荒危機(jī)迫近,AI產(chǎn)業(yè)面臨巨大挑戰(zhàn)

2023-11-09

今日要聞

數(shù)據(jù)荒危機(jī)迫近,AI產(chǎn)業(yè)面臨巨大挑戰(zhàn)

近日,研究機(jī)構(gòu)Epoch發(fā)布了一份令人震驚的報(bào)告,指出機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”。而低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量也將分別在2030年至2050年、2030年至2060年枯竭。AI產(chǎn)業(yè)迅猛發(fā)展,數(shù)據(jù)荒已經(jīng)成為一個(gè)迫近的危機(jī),讓整個(gè)產(chǎn)業(yè)圈感到壓力倍增。


AI機(jī)器視覺


隨著數(shù)十億參數(shù)的起步和TB為單位的數(shù)據(jù)集的喂養(yǎng),AI模型的競爭已經(jīng)進(jìn)入白熱化階段。然而,這種競爭的背后卻是以燃盡數(shù)據(jù)為代價(jià)的。當(dāng)數(shù)據(jù)荒變成直觀的倒計(jì)時(shí)時(shí),整個(gè)產(chǎn)業(yè)圈才開始真正感受到這種危機(jī)的嚴(yán)重性。


在這種背景下,高質(zhì)量數(shù)據(jù)變得更加緊缺。那些急需數(shù)據(jù)的AI公司們開始感受到數(shù)據(jù)荒危機(jī)的切身之痛。繼算力缺口后,數(shù)據(jù)成為最緊俏的資源,數(shù)據(jù)采集的價(jià)格也水漲船高。以Reddit API為例,自2008年以來一直以免費(fèi)的方式開放給第三方,然而近期卻通知開發(fā)者將從7月1日開始對(duì)數(shù)據(jù)接口進(jìn)行收費(fèi)。這無疑給開發(fā)者增加了巨大的經(jīng)濟(jì)壓力。

 

與此同時(shí),推特也在今年3月發(fā)布了API新政策,企業(yè)要抓取推文需要支付每月4萬美元至20萬美元不等的費(fèi)用。這些費(fèi)用對(duì)應(yīng)的數(shù)據(jù)量僅僅是整體推文的0.3%。由此可見,數(shù)據(jù)已經(jīng)變得越來越昂貴,這無疑加劇了業(yè)界對(duì)數(shù)據(jù)荒的擔(dān)憂。


流程編輯界面


面對(duì)數(shù)據(jù)供給的現(xiàn)狀,一些業(yè)內(nèi)人士透露,全球70%的數(shù)據(jù)源仍停留在免費(fèi)公開數(shù)據(jù)集的層面。這與大模型成長所需的理想數(shù)據(jù)環(huán)境相差甚遠(yuǎn)。一些垂類大數(shù)據(jù),如金融、醫(yī)療、科研等行業(yè)型大數(shù)據(jù)尚未得到充分開發(fā)。這些數(shù)據(jù)通常由政府和行業(yè)機(jī)構(gòu)掌握,但由于數(shù)據(jù)安全合規(guī)的考慮,愿意開放共享核心數(shù)據(jù)的機(jī)構(gòu)并不多。

 

從原生的數(shù)據(jù)資源到數(shù)據(jù)資產(chǎn)化再到形成數(shù)據(jù)產(chǎn)品,這個(gè)過程需要經(jīng)歷數(shù)據(jù)的篩選、分級(jí)和標(biāo)注。中間附著的人力成本和硬件成本都極高,初始收集的數(shù)據(jù)總量到最后可用的數(shù)據(jù)量可能只有70%。相比于算力,數(shù)據(jù)的稀缺性更加突出。尤其是在中文語料方面,全球通用的50億大模型數(shù)據(jù)訓(xùn)練集中,中文語料的占比僅為1.3%。這顯示出中文數(shù)據(jù)市場在全球范圍內(nèi)的弱勢地位。


為了解決數(shù)據(jù)荒危機(jī),一些企業(yè)開始探索新的解決方案。合成數(shù)據(jù)正成為生成和豐富AI訓(xùn)練數(shù)據(jù)的第二條路。7月25日深圳數(shù)交所聯(lián)合近50家單位成立“開放算料聯(lián)盟”這是一個(gè)積極的信號(hào)。這個(gè)聯(lián)盟旨在匯集多模態(tài)的訓(xùn)練數(shù)據(jù)為數(shù)據(jù)交易增加合成數(shù)據(jù)、標(biāo)注數(shù)據(jù)、模型參數(shù)等新專區(qū)和新品類。這無疑為緩解數(shù)據(jù)荒危機(jī)開辟了新的可能。


#1

合成數(shù)據(jù)引領(lǐng)AI訓(xùn)練新紀(jì)元


隨著AI模型的不斷擴(kuò)大和復(fù)雜化,對(duì)高質(zhì)量數(shù)據(jù)的需求也日益迫切,引發(fā)了一場數(shù)據(jù)荒危機(jī)。在這樣的背景下,合成數(shù)據(jù)應(yīng)運(yùn)而生,成為了解決數(shù)據(jù)短缺問題的新路徑。


所謂合成數(shù)據(jù),即由計(jì)算機(jī)人工生產(chǎn)的數(shù)據(jù)。這些數(shù)據(jù)并不直接對(duì)應(yīng)現(xiàn)實(shí)世界的實(shí)體,但卻能準(zhǔn)確反映真實(shí)數(shù)據(jù)的特點(diǎn)和規(guī)律。它們是通過將多個(gè)真實(shí)數(shù)據(jù)的特點(diǎn)打散、重新組合形成的全新數(shù)據(jù)個(gè)體。因此,雖然合成數(shù)據(jù)并不直接等于真實(shí)數(shù)據(jù),卻具有極高的訓(xùn)練價(jià)值。

 

尤其在自動(dòng)駕駛等領(lǐng)域,合成數(shù)據(jù)展現(xiàn)出了巨大的應(yīng)用潛力。因?yàn)樵趯?shí)際應(yīng)用中,要讓自動(dòng)駕駛汽車通過實(shí)際道路測試來窮盡所有可能的駕駛場景是不現(xiàn)實(shí)的。這時(shí),大量的合成數(shù)據(jù)就可以用來模擬各種駕駛場景,從而提高自動(dòng)駕駛算法的魯棒性。


無人駕駛


另一方面,對(duì)于數(shù)據(jù)敏感的金融和生物醫(yī)藥領(lǐng)域,合成數(shù)據(jù)也能在保護(hù)隱私的同時(shí),提升模型的精準(zhǔn)度。比如在金融領(lǐng)域,訓(xùn)練量化交易模型時(shí),合成數(shù)據(jù)可以在不提供敏感歷史交易信息的前提下,提升模型的獲利能力。在藥物研發(fā)方面,通過合成數(shù)據(jù)集,可以在不泄露患者隱私信息的條件下訓(xùn)練相關(guān)模型,加速新藥的研發(fā)過程,發(fā)現(xiàn)潛在的治療方法。


實(shí)驗(yàn)室


值得一提的是,合成數(shù)據(jù)的出現(xiàn)還解決了現(xiàn)代機(jī)器學(xué)習(xí)中一個(gè)笨拙、成本高昂的問題——數(shù)據(jù)標(biāo)記。合成數(shù)據(jù)不需要手動(dòng)標(biāo)記,自動(dòng)帶有完美的數(shù)據(jù)標(biāo)簽,這無疑極大地提高了數(shù)據(jù)利用的效率。

 

眼下,合成數(shù)據(jù)已經(jīng)成為AI產(chǎn)業(yè)的新熱點(diǎn)。國外的主流科技公司如英偉達(dá)、亞馬遜、微軟等紛紛布局合成數(shù)據(jù)技術(shù)。在國內(nèi),騰訊、阿里巴巴、百度等互聯(lián)網(wǎng)巨頭也在合成數(shù)據(jù)領(lǐng)域取得了顯著進(jìn)展。


#2

數(shù)據(jù)永動(dòng)機(jī)的“希望與困境”


隨著技術(shù)的不斷進(jìn)步,合成數(shù)據(jù)似乎為我們揭示了一個(gè)“數(shù)據(jù)永動(dòng)機(jī)”的美夢。它仿佛一臺(tái)永不停歇的機(jī)器,不斷產(chǎn)生著新的數(shù)據(jù),為眾多領(lǐng)域帶來了無限的可能。合成數(shù)據(jù)不僅能幫助解決數(shù)據(jù)稀缺的問題,還能為那些因數(shù)據(jù)有限而受限制的研究領(lǐng)域提供新的契機(jī)。


以基因組數(shù)據(jù)為例,這一領(lǐng)域長久以來受限于數(shù)據(jù)的可用性和隱私法規(guī)。然而,通過與初創(chuàng)公司合作,利用合成數(shù)據(jù)技術(shù),基因測序公司如今能夠復(fù)制真實(shí)基因組數(shù)據(jù)集的特征和信號(hào),同時(shí)避免隱私問題。這樣的突破無疑為基因研究開辟了新的路徑,幫助我們更深入地探索生命的奧秘。


此外,合成數(shù)據(jù)的潛力遠(yuǎn)不止于此。無論是計(jì)算機(jī)視覺、機(jī)器人技術(shù)、物理安全,還是地理空間圖像、制造、生物醫(yī)藥等領(lǐng)域,合成數(shù)據(jù)都為實(shí)現(xiàn)“大量數(shù)據(jù)出奇跡”提供了新的解決方案。它甚至可能帶來數(shù)據(jù)平權(quán)的新時(shí)代,使得高質(zhì)量的訓(xùn)練數(shù)據(jù)更易于獲取和負(fù)擔(dān)得起,從而削弱了專有數(shù)據(jù)資產(chǎn)作為持久競爭優(yōu)勢的地位。


數(shù)據(jù)技術(shù)服務(wù)


然而,正如每枚硬幣都有兩面,合成數(shù)據(jù)的美夢也伴隨著困境。一方面,有研究表明,使用AI生成的數(shù)據(jù)進(jìn)行訓(xùn)練可能導(dǎo)致AI模型存在不可逆轉(zhuǎn)的缺陷,并最終走向模型崩潰。這種崩潰可能會(huì)引發(fā)基于性別、種族或其他敏感屬性的歧視問題,特別是當(dāng)AI學(xué)會(huì)只生成某一特定種族的數(shù)據(jù)時(shí),可能會(huì)忘記其他種族的存在。


另一方面,合成數(shù)據(jù)的泛濫也可能導(dǎo)致真實(shí)數(shù)據(jù)難以尋找。當(dāng)真實(shí)與虛擬的邊界變得模糊時(shí),人們可能難以分辨自己究竟是活在真實(shí)世界還是虛擬世界中。這種邊界的消失不僅是一個(gè)技術(shù)問題,更是一個(gè)涉及人類認(rèn)知、倫理和社會(huì)秩序的深刻問題。因此,在欣賞合成數(shù)據(jù)帶來的巨大潛力的同時(shí),我們也必須警惕其可能帶來的風(fēng)險(xiǎn)和挑戰(zhàn)。為確保合成數(shù)據(jù)的健康發(fā)展,需要制定相關(guān)法規(guī)和技術(shù)標(biāo)準(zhǔn),加強(qiáng)監(jiān)管和倫理指導(dǎo),確保其在推動(dòng)人工智能進(jìn)步的同時(shí),不會(huì)對(duì)人類社會(huì)和個(gè)人權(quán)益造成不良影響。同時(shí),研究者和開發(fā)者也應(yīng)當(dāng)持續(xù)關(guān)注合成數(shù)據(jù)的潛在問題,探索更加穩(wěn)健、可靠的技術(shù)方案,為構(gòu)建更加和諧、可持續(xù)的數(shù)據(jù)驅(qū)動(dòng)世界貢獻(xiàn)力量。


国产av香蕉一区二区三区-欧性插免费观看视频在线播放-91极品尤物国产在线播放-日韩视频在线观看a级免费 | 欧美日韩色精品人妻在线视频-天天操天天日天天干天天摸-日韩亚洲欧美中文在线网-中文字幕人妻一区二区二三区 | 欧美日本美女黄色-久久精品国产亚洲av麻豆~-99精品欧美久久久-北野末奈中文字幕 | 有码中文字幕制服aⅴ-熟女怡红院一区二区-久久久久亚洲精品中文第一幕-日韩美女牲交免费视频 | 中文字幕一区二区三区四区人妻-岛国激情区二区三区-久久精品电影在线播放-国产亚洲精品91av久久久 | 精品人妻中文字幕熟女-在线观看视频综合网九色91-99pao成人国产永久免费视频-lanarhoades高潮喷水 | 日韩在线观看视频一区二区三区-97超碰中文字幕一区二区-狠色婷婷久久一区二区三区狠狠久久-欧美精品,久久天天躁 | 日韩系列视频在线-国产欧美日韩va另类在线播放-97资源在线观看视频在线观看-成人试看电影伊人网一区二区三区 | 亚洲欧美熟女日韩-天天天天夜久久天天天-亚洲欧美在线另类自拍丝袜-91精品91久久久 | 97色综合氩侵拊缓访-久久精品熟女亚洲av色哟哟-久久久久蜜臀国产精品-国产日韩欧美视频一区二区 | 精品国产99国产精品-日本一区二区三区精品免费-国产精品av久久久久久粉嫩-丰满少妇一区二区三区四区观看 | 国产一区二区在线亚洲-伊人久久五月色综合-久久久久亚洲av专区一区-欧美日韩精品成人网视频在线观看 | 日韩精品少妇电影-2012中文字幕第二页免费-久久91这里只有精品-少妇精品一二三区 | 亚洲精品蜜桃久久久-久久亚洲中文字幕丝袜长腿-久久亚洲国产婷婷-久久久久久久国产一区二区三区 精品国产精品色哟哟-岛国av中文字幕在线观看-久久久999精品国产-乱人视频中文字幕 | 18禁国产91精品久久久久久-成人国产激情在线视频-91色婷婷在线视频免费观看-国产 日韩 欧美 精品 | 色噜噜精品一区二区三区在线观看-日本欧美xxx视频在线观看-97超碰人妻免费视频-91福利影院在线看 | bb精品一区二区三区视频-超碰97人人做人人爱2020-国产亚洲精品美女久久久久-久久久久成人精品一区二区 | 国产精品999国产精品视频-久久艹视频在线免费观看-久久网色综合美女-国产又粗又爽又黄的视频 | 99精品99精品99精品-人妻九色蝌蚪av自拍少妇人妻-91精品国产91久久久-一区二区三区中文字幕清晰 久久精品少妇人妻视频-国产精品成人特黄久久-欧美日韩精品视频在线播放-欧美另类久久久精品 | 精美欧美一区二区三区-日韩三区三区一区区欧69国产-色噜噜品一区二区三区孕妇-久久偷拍女人厕所尿尿wc | 不卡在线一区二区三区视频-欧洲区一区二区三-久久亚洲男人的天堂-久久久久久99精品久久久 | 国内精品久久久久一区二区-尤物久久av一区二区三区亚洲-精品少妇一区二区三区在线一区-懂色av色噜噜 | 国产视频一区二区三区网站-在线日韩国产成人-黑丝美女啪啪啪国产av专区-中文字幕在线视频日韩 | 蜜臀人妻四季av一区二区不卡-男人插女生免费视频-久久久91人妻精品区-久久久亚洲成人精品色午麻豆 | 91嫩草欧美久久久九九九-久久亚洲欧美韩国日本-看中文字幕一区二区三区-久久久久国产精品人妻aⅴ免费 | 亚洲一区二区三区熟女少妇-人人搞人人射人人插-激情综合婷婷六月天-日韩中文久久久人妻 | 超碰97青青草原-情国产精品亚洲а∨天堂免-欧美国产日韩高清在线综合-91原视频在线播放 | av日韩中文字幕在线播放-亚洲欧美一区二区三区1000-久久婷婷综合精品国产-国产麻豆剧精品av | 天堂蜜桃一区二区特点-亚洲婷婷在线一区-日韩午夜激情毛片-婷婷六月天丁香综合 | 日韩专区 中文字幕-人妻久久久无中文字幕-精品视频中文字幕在线观看-蜜桃臀久久久蜜桃臀久久久蜜 | 极品人妻一区二区三区视频-国产亚洲av日韩美av-国产av综合一区二区-日韩欧美无删减 | 熟女熟妇久久亚洲精品在线-国产一区二区三区看年轻-精品视频蜜桃久久久久久-色视频免费在线观看视频在线 | 日韩高清一区二区三区视频-日本一二三不卡书屋-蜜桃av一区二区三区视频在线-久久久国产综合精品女国产盗摄 | 91久久婷婷国产综合-中文字幕亚洲熟女人妻-亚洲av国产午夜精品-91麻豆vodafone精品 | 欧美国产精品免费观看-91精品91久久久久福利-超碰在线视频免费观看-久久99精品久久久久蜜桃tv | 99精品视频在线观看网址-一区二区三区在线观看/日韩-久久久最新精品视频-91超碰在线播放视频 | 色哟哟网站国产精品-欧美久久久久亚洲精品-久久婷婷色一区二区三区asmr-人妻偷乱一区二区三区 | 精品粉嫩av一区二区三区-成人国产一区二区三区-久久久久亚洲五月天-日韩高清在线亚洲专区不卡 | 亚洲av电影在线播放-国产麻豆精品视频免费-激情婷婷人妻视频-欧美日韩久久久一区二区 | 精品午夜一区二区三区在-欧美老熟妇一区二区高清视频-在线 有码 中文-寂寞少妇白浆一区二区 | 六月婷婷激情综合网-精品区二区三区四区免费观看-久久韩国三级伦理77-蜜臀av性久久久久蜜臀字幕版 |