久久久久无码精品国产古代,婷婷六月中文字幕,中文字幕一区二区人妻性色

當(dāng)前，人工智能技術(shù)已經(jīng)應(yīng)用在我們?nèi)粘Ｉ钪械姆椒矫婷妫热缛四樧R別、語音識別、虛擬數(shù)字人等。但普遍存在的一個(gè)問題是，科研人員要想通過訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型來執(zhí)行某一特定任務(wù)（比如圖像分類），往往需要使用大量的訓(xùn)練數(shù)據(jù)，而這些數(shù)據(jù)（集）卻并不總是很容易獲得。比如，如果研究人員正在訓(xùn)練一輛自動駕駛汽車的計(jì)算機(jī)視覺模型，但真實(shí)數(shù)據(jù)可能不會包含一個(gè)人和他的一條狗在高速公路上奔跑的樣本，一旦遇到這種情況，模型就不知道該如何做，可能會產(chǎn)生不必要的后果。而且，使用已有數(shù)據(jù)生成數(shù)據(jù)集，也會花費(fèi)數(shù)百萬美元。另外，即使是好的數(shù)據(jù)集，也常常包含對模型性能產(chǎn)生負(fù)面影響的偏見。那么，既然獲得、使用一個(gè)數(shù)據(jù)集代價(jià)這么昂貴，能不能在保證模型性能的前提下，使用人為合成的數(shù)據(jù)來訓(xùn)練呢？近日，一項(xiàng)來自麻省理工學(xué)院（MIT）科研團(tuán)隊(duì)的研究顯示，一種使用合成數(shù)據(jù)訓(xùn)練的圖像分類機(jī)器學(xué)習(xí)模型，可以與使用真實(shí)數(shù)據(jù)來訓(xùn)練的模型相媲美，甚至性能更好。相關(guān)研究論文以“Generative models as a data source for multiview representation learning”為題，以會議論文的形式發(fā)表在 ICLR 2022 上。

不輸于真實(shí)數(shù)據(jù) 這種特殊的機(jī)器學(xué)習(xí)模型被稱為生成模型（generative model），相比于數(shù)據(jù)集，存儲或共享所需的內(nèi)存要少得多，不僅可以避免一些關(guān)于隱私和使用權(quán)的問題，也不存在傳統(tǒng)數(shù)據(jù)集中存在的一些偏見和種族或性別問題。據(jù)論文描述，在訓(xùn)練過程中，生成模型首先會獲取數(shù)百萬張包含特定對象（比如汽車或貓咪）的圖像，然后學(xué)習(xí)汽車或貓咪的外觀，后生成類似的對象。簡單來說就是，研究人員使用一個(gè)預(yù)先訓(xùn)練的生成模型，參照模型訓(xùn)練數(shù)據(jù)集上的圖像，輸出大量獨(dú)特的、真實(shí)的圖像流。

研究人員表示，一旦生成模型在真實(shí)數(shù)據(jù)上進(jìn)行訓(xùn)練，就可以生成幾乎與真實(shí)數(shù)據(jù)無法區(qū)分的合成數(shù)據(jù)。另外，生成模型還可以基于訓(xùn)練數(shù)據(jù)做進(jìn)一步拓展。如果生成模型是基于汽車圖像進(jìn)行訓(xùn)練的，它就可以“想象”出汽車在不同情況下是什么樣的，然后輸出具有不同顏色、大小和狀態(tài)的汽車圖像。生成模型具備很多優(yōu)點(diǎn)，其中之一便是，它在理論上可以創(chuàng)建無限數(shù)量的樣本。基于此，研究人員試圖搞清楚樣本數(shù)量如何影響模型性能。結(jié)果顯示，在某些情況下，大量的獨(dú)特樣本確實(shí)會帶來額外的改進(jìn)。而且，在他們看來，生成模式酷的一點(diǎn)在于，我們可以在在線資料庫中找到并使用它們，而且不需要干預(yù)模型就可以獲得良好的表現(xiàn)。但生成模型也有一些缺點(diǎn)。例如，在某些情況下，生成模型可能會揭示源數(shù)據(jù)，從而帶來隱私風(fēng)險(xiǎn)，如果沒有進(jìn)行適當(dāng)?shù)膶徲?jì)，可能會放大它們所訓(xùn)練數(shù)據(jù)集中的偏差。

生成式 AI 大勢所趨？有效數(shù)據(jù)的稀缺性，以及采樣偏差，已經(jīng)成為機(jī)器學(xué)習(xí)發(fā)展的關(guān)鍵瓶頸。近年來，為解決這一問題，生成式 AI（Generative AI）成為了人工智能領(lǐng)域的熱議話題之一，被業(yè)內(nèi)給予了足夠高的期待。去年底，Gartner 發(fā)布了 2022 年重要戰(zhàn)略技術(shù)趨勢，將生成式 AI 稱為是“引人注目和強(qiáng)大的人工智能技術(shù)之一”。據(jù) Gartner 預(yù)測，預(yù)計(jì)到 2025 年，生成式 AI 將占所有生成數(shù)據(jù)的 10%，而目前這一比例還不到 1%。

2020 年，生成式 AI 作為一個(gè)新增技術(shù)熱點(diǎn)，在 Gartner 發(fā)布的“Hype Cycle for Artificial Intelligence，2020”中被提出。在新的“Hype Cycle for Artificial Intelligence，2021”報(bào)告中，生成式 AI 作為 2-5 年即可成熟的技術(shù)出現(xiàn)。

生成式 AI 的突破在于，它可以從現(xiàn)有數(shù)據(jù)（圖像、文本等）中學(xué)習(xí)，并生成全新、相似的原始數(shù)據(jù)。也就是說，它不僅可以做出判斷，還能夠進(jìn)行創(chuàng)造，可以用于自動編程、藥物開發(fā)、視覺藝術(shù)、社交、商業(yè)服務(wù)等。但是，生成式 AI 也會被濫用于詐騙、欺詐、政治造謠、偽造身份等，比如經(jīng)常產(chǎn)生各種負(fù)面新聞的 Deepfake。那么問題來了，如果我們有足夠好的生成模型，還需要真實(shí)的數(shù)據(jù)集嗎？

省市代理商名錄

（7979家）

全國總代理商名錄

（2163家）

代理商留言

（324837條）

生產(chǎn)廠家名錄

（34204家）

人工智能，“拋棄”真實(shí)數(shù)據(jù)集？

行業(yè)資訊

相關(guān)資訊

相關(guān)文章

人工智能，“拋棄”真實(shí)數(shù)據(jù)集？

行業(yè)資訊

相關(guān)資訊

相關(guān)文章

人工智能，“拋棄”真實(shí)數(shù)據(jù)集？