當(dāng)AI學(xué)會(huì)畫畫,能否取代人類畫家?

2023-10-20 08:00:002060
切換?-?音頻
00:00:00 / 00:00:00
聲音簡介

下載每日英語聽力APP,解鎖雙語字幕及更多學(xué)習(xí)功能!


Seven years ago, back in 2015, one major development in AI research was automated image captioning.

7年前,也就是2015年,人工智能研究的一項(xiàng)重大進(jìn)展是便是自動(dòng)圖像字幕。

Machine learning algorithms could already label objects in images, and now they learned to put those labels into natural language descriptions.

機(jī)器學(xué)習(xí)算法已經(jīng)可以給圖像中的物體貼上標(biāo)簽,現(xiàn)在它們學(xué)會(huì)了把這些標(biāo)簽放入自然語言描述中。

And it made one group of researchers curious.

這讓一組研究人員很好奇。

What if you flipped that process around?

如果你把這個(gè)過程反過來呢?

We could do image-to-text.

我們可以做圖像到文本的轉(zhuǎn)換。

Why not try doing text to images and see how it works?

為什么不嘗試將文本轉(zhuǎn)換為圖像,看看它是如何工作的呢?

It was a more difficult task.

這是一項(xiàng)更困難的任務(wù)。

They didn't want to retrieve existing images the way google search does.

他們不希望像谷歌搜索那樣檢索現(xiàn)有的圖像。

They wanted to generate entirely novel scenes that didn't happen in the real world.

他們想要?jiǎng)?chuàng)造出在現(xiàn)實(shí)世界中不會(huì)出現(xiàn)的全新場景。

So they asked their computer model for something it would have never seen before.

所以他們要求他們的計(jì)算機(jī)模型提供一些以前從未見過的東西。

Like all the school buses you've seen are yellow.

就像你看到的所有校車都是黃色的。

But if you write "the red or green school bus", would it actually try to generate something green?

但是如果你寫“紅色或綠色校車”,它真的會(huì)生成一些綠色的東西嗎?

And it did that.

它做到了。

It was a 32 by 32 tiny image.

這是一個(gè)32×32的小圖像。

And then all you could see is like a blob of something on top of something.

然后你能看到的就像是一團(tuán)東西疊在一團(tuán)東西上面。

They tried some other prompts like "A herd of elephants flying in the blue skies".

他們嘗試了一些其他的提示性語言,比如“一群大象在藍(lán)天上飛翔”。

"A vintage photo of a cat." "A toilet seat sits open in the grass field." And "a bowl of bananas is on the table." Maybe not something to hang on your wall but the 2016 paper from those researchers showed the potential for what might become possible in the future.

“一張貓的老式照片?!薄安莸厣系某ㄩ_的馬桶蓋?!薄白雷由系囊煌胂憬??!币苍S它們不是那種你能掛在墻上的畫作,但這些研究人員2016年的論文顯示了其未來可能的可能性。

And uh… the future has arrived.

嗯……未來已經(jīng)到來。

It is almost impossible to overstate how far the technology has come in just one year.

幾乎不可能夸大這項(xiàng)技術(shù)在短短一年里取得的進(jìn)步。

By leaps and bounds. - Leaps and bounds.

突飛猛進(jìn)。 - 突飛猛進(jìn)。

Yeah, it's been quite dramatic.

是啊,挺戲劇性的。

I don't know anyone who hasn't immediately been like "What is this? What is happening here?" Could I say like watching waves crashing?

我認(rèn)識的每個(gè)人都會(huì)立刻問“這是什么?這其中發(fā)生了什么?”我能說像看海浪撞擊嗎?

Party hat guy. Seafoam dreams. A coral reef. Cubism. Caterpillar. A dancing taco… My prompt is Salvador Dali painting the skyline of New York City.

派對帽子人。海泡石夢境。珊瑚礁。立體主義。毛毛蟲。一個(gè)在跳舞的塔可……我的提示詞是薩爾瓦多·達(dá)利在畫紐約市的天際線。

You may be thinking, wait AI-generated images aren't new.

你可能會(huì)想,人工智能生成的圖像并不新鮮。

You might have heard about this generated portrait going for over $400,000 at auction back in 2018. Or this installation of morphing portraits, which Sotheby's sold the following year.

你可能聽說過這幅生成的肖像畫在2018年的拍賣會(huì)上拍出了40多萬美元?;蛘呤翘K富比在第二年出售的這個(gè)變形肖像裝置。

It was created by Mario Klingemann, who explained to me that that type of AI art required him to collect a specific dataset of images and train his own model to mimic that data.

它是由馬里奧·克里格曼創(chuàng)作的,他向我解釋說這種類型的 AI 藝術(shù)需要他收集特定的圖像數(shù)據(jù)集,并訓(xùn)練他自己的模型來模仿這些數(shù)據(jù)。

Let's say, Oh, I want to create landscapes, so I collect a lot of landscape images.

比如說,哦,我想創(chuàng)建風(fēng)景圖,所以我收集了很多風(fēng)景圖片。

I want to create portraits, I trained on portraits.

我想創(chuàng)作肖像,我就在肖像畫方面進(jìn)行訓(xùn)練。

But then the portrait model would not really be able to create landscapes.

但是這樣肖像模型就不能真正地創(chuàng)造風(fēng)景了。

Same with those hyperrealistic fake faces that have been plaguing LinkedIn and Facebook — those come from a model that only knows how to make faces.

同樣,那些一直困擾著 LinkedIn 和 Facebook 的超逼真的假臉——它們來自一個(gè)只知道如何做鬼臉的模特。

Generating a scene from any combination of words requires a different, newer, bigger approach.

從任何文字組合中生成場景都需要一種不同的、更新的、更強(qiáng)大的方法。

Now we kind of have these huge models, which are so huge that somebody like me actually cannot train them anymore on their own computer.

現(xiàn)在我們有了這些巨大的模型,它們是如此之大,以至于像我這樣的人不能再用自己的電腦訓(xùn)練它們了。

But once they are there, they are really kind of — they contain everything.

但是一旦它們存在于那里,它們就真的包含了一切。

I mean, to a certain extent.

我的意思是,在某種程度上。

What this means is that we can now create images without having to actually execute them with paint or cameras or pen tools or code.

這意味著我們現(xiàn)在可以創(chuàng)建圖像,而不需要實(shí)際使用油漆、相機(jī)、鋼筆工具或代碼來執(zhí)行它們。

The input is just a simple line of text.

只用輸入一行簡單的文本。

And I'll get to how this tech works later in the video; but to understand how we got here, we have to rewind to January 2021. That's when a major AI company called Open AI announced DALL-E — which they named after these guys.

我將在后面的視頻中介紹這項(xiàng)技術(shù)的工作原理,但為了理解我們是如何走到這一步的,我們必須回到2021年1月。當(dāng)時(shí)一家名為 Open AI 的大型人工智能公司公布了 DALL-E 的問世——他們以這些人的名字命名。

They said it could create images from text captions for a wide range of concepts.

他們說,它可以根據(jù)文字說明為廣泛的概念創(chuàng)建圖像。

They recently announced DALLE-2, which promises more realistic results and seamless editing.

他們最近發(fā)布了 DALLE-2,承諾會(huì)有更真實(shí)的結(jié)果和無痕編輯。

But they haven't released either version to the public.

但他們還沒有向公眾公布這兩個(gè)版本。

So over the past year, a community of independent, open-source developers built text-to-image generators out of other pre-trained models that they did have access to.

因此,在過去的一年里,一個(gè)獨(dú)立的開源開發(fā)者社區(qū)利用他們能夠訪問的其他預(yù)先訓(xùn)練的模型構(gòu)建了文本到圖像的生成器。

And you can play with those online for free.

你可以在網(wǎng)上免費(fèi)使用。

Some of those developers are now working for a company called Mid journey, which created a Discord community with bots that turn your text into images in less than a minute.

其中一些開發(fā)者現(xiàn)在正在為一家名為 Midjourney 的公司工作,該公司創(chuàng)建了一個(gè) Discord 社區(qū),其中的機(jī)器人可以在不到一分鐘的時(shí)間內(nèi)把你的文本變成圖像。

Having basically no barrier to entry to this has made it like a whole new ballgame.

該社區(qū)幾乎沒有入門門檻,這讓它變成了一種全新的游戲。

I've been up until like two or three in the morning.

我經(jīng)常熬夜到凌晨兩三點(diǎn)。

Just really trying to change things, piece things together.

我只是想改變一些事情,把它們拼湊起來。

I've done about 7,000 images. It's ridiculous.

我做了大約7000張圖片。這太荒謬了。

MidJourney currently has a wait-list for subscriptions, but we got a chance to try it out.

MidJourney 目前有一個(gè)訂閱等待列表,但我們有機(jī)會(huì)去嘗試一下。

"Go ahead and take a look." "Oh wow. That is so cool" "It has some work to do. I feel like it can be — it's not dancing and it could be better." The craft of communicating with these deep learning models has been dubbed "prompt engineering".

“看看吧?!薄芭锻?。這太酷了?!薄八€可以有一些改進(jìn)。我覺得它可以——這不是跳舞,它還可以更好。”與這些深度學(xué)習(xí)模型進(jìn)行交流的技術(shù)被稱為“即時(shí)工程”。

What I love about prompting for me, it's kind of really that has something like magic where you have to know the right words for that, for the spell.

對我來說,我喜歡提示的地方是,它真的有點(diǎn)像魔法,你必須知道正確的詞,將其作為咒語。

You realize that you can refine the way you talk to the machine.

你意識到你可以改進(jìn)你和機(jī)器說話的方式。

It becomes a kind of a dialog.

它變成了一種對話。

You can say like "octane render blender 3D".

你可以說“顯卡渲染 3D”。

"Made with Unreal Engine… certain types of film lenses and cameras… 1950s, 1960s… dates are really good… lino cut or wood cut…" "Coming up with funny pairings, like a Faberge Egg McMuffin." "A monochromatic infographic poster about typography depicting Chinese characters." Some of the most striking images can come from prompting the model to synthesize a long list of concepts.

“用虛幻引擎制作……某些類型的電影鏡頭和相機(jī)……20世紀(jì)50年代、60年代……很不錯(cuò)地日子……浮雕或木刻……”“想出有趣的搭配,比如費(fèi)伯奇蛋松餅?!薄耙环鶈紊畔D海報(bào),描繪漢字排版?!币恍┳钜俗⒛康膱D像可能來自于促使模型綜合一長串概念。

It's kind of like it's having a very strange collaborator to bounce ideas off of and get unpredictable ideas back.

這就像有一個(gè)非常奇怪的合作伙伴來征求意見,然后得到一個(gè)不可預(yù)測的想法。

I love that!

我太愛它了!

My prompt was "chasing seafoam dreams," which is a lyric from the Ted Leo and the Pharmacists' song "Biomusicology." Can I use this as the album cover for my first album?

我的主題是“追逐海洋泡沫的夢想”,這是泰德·里奧和藥劑師(the Pharmacists)合唱的《Biomusicology》中的歌詞。我能用這個(gè)做我第一張專輯的封面嗎?

"Absolutely." - Alright.

“當(dāng)然可以”。 - 好的。

For an image generator to be able to respond to so many different prompts, it needs a massive, diverse training dataset.

為了讓圖像生成器能夠響應(yīng)如此多不同的提示詞,它需要一個(gè)龐大、多樣的訓(xùn)練數(shù)據(jù)集。

Like hundreds of millions of images scraped from the internet, along with their text descriptions.

比如從網(wǎng)上搜集的數(shù)億張圖片,以及它們的文字描述。

Those captions come from things like the alt text that website owners upload with their images, for accessibility and for search engines.

這些標(biāo)題來自于網(wǎng)站所有者上傳圖片時(shí)的 alt 文本,以方便訪問和搜索引擎。

So that's how the engineers get these giant datasets.

這就是工程師們獲得這些巨大數(shù)據(jù)集的方式。

But then what do the models actually do with them?

但是這個(gè)模型實(shí)際上是怎么處理它們的呢?

We might assume that when we give them a text prompt, like "a banana inside a snow globe from 1960." They search through the training data to find related images and then copy over some of those pixels.

我們可能會(huì)認(rèn)為,當(dāng)我們給他們一個(gè)文本提示詞時(shí),比如“1960年雪花玻璃球里的香蕉”。它們會(huì)通過搜索訓(xùn)練數(shù)據(jù)來找到相關(guān)的圖像,然后復(fù)制其中的一些像素。

But that's not what's happening.

但事實(shí)并非如此。

The new generated image doesn't come from the training data, it comes from the "latent space" of the deep learning model.

新生成的圖像并不是來自于訓(xùn)練數(shù)據(jù),而是來自于深度學(xué)習(xí)模型的“潛在空間”。

That'll make sense in a minute, first let's look at how the model learns.

這很快就說得通了,首先讓我們看看模型是如何學(xué)習(xí)的。

If I gave you these images and told you to match them to these captions, you'd have no problem.

如果我給你這些圖片,并告訴你將它們與這些字幕匹配,你就不會(huì)有什么疑問了。

But what about now, this is what images look like to a machine just pixel values for red green and blue.

但是現(xiàn)在呢,這是機(jī)器看到的圖像,只是紅綠藍(lán)的像素值。

You'd just have to make a guess, and that's what the computer does too at first.

你只需要猜一下,電腦一開始也是這么做的。

But then you could go through thousands of rounds of this and never figure out how to get better at it.

但你可能會(huì)經(jīng)歷數(shù)千次這樣的過程,卻永遠(yuǎn)不知道如何做得更好。

Whereas a computer can eventually figure out a method that works — that's what deep learning does.

而計(jì)算機(jī)最終可以找到一種有效的方法——這就是深度學(xué)習(xí)的作用。

In order to understand that this arrangement of pixels is a banana, and this arrangement of pixels is a balloon, it looks for metrics that help separate these images in mathematical space.

為了理解香蕉的像素排列,氣球的像素排列,它會(huì)去尋找有助于在數(shù)學(xué)空間中分離這些圖像的指標(biāo)。

So how about color?

那么顏色呢?

If we measure the amount of yellow in the image, that would put the banana over here and the balloon over here in this one-dimensional space.

如果我們測量圖像中黃色的數(shù)量值,在這個(gè)一維空間中,香蕉就在這里,氣球在這兒。

But then what if we run into this: Now our yellowness metric isn't very good at separating bananas from balloons.

但如果我們遇到這樣的情況:我們的黃色指標(biāo)不能很好地區(qū)分香蕉和氣球。

We need a different variable.

我們就需要一個(gè)不同的變量。

So let's add an axis for roundness.

讓我們添加一個(gè)圓的軸。

Now we've got a two-dimensional space with the round balloons up here and the banana down here.

現(xiàn)在我們有一個(gè)二維空間,上面是圓氣球,下面是香蕉。

But if we look at more data we may come across a banana that's pretty round, and a balloon that isn't.

但如果我們看更多的數(shù)據(jù),我們可能會(huì)得出一個(gè)相當(dāng)圓的香蕉,和一個(gè)不圓的氣球。

So maybe there's some way to measure shininess.

所以也許有某種方法可以測量亮度。

Balloons usually have a shiny spot.

氣球通常有一個(gè)發(fā)亮的點(diǎn)。

Now we have a three-dimensional space.

現(xiàn)在我們有了一個(gè)三維空間。

And ideally, when we get a new image, we can measure those 3 variables and see whether it falls in the banana region or the balloon region of the space.

理想情況下,當(dāng)我們得到一個(gè)新圖像時(shí),我們可以測量這三個(gè)變量,看看它是落在香蕉區(qū)域還是氣球區(qū)域。

But what if we want our model to recognize, not just bananas and balloons, but… all these other things.

但如果我們想讓我們的模型識別……不只是香蕉和氣球,而是所有這些東西呢?

Yellowness, roundness, and shininess don't capture what's distinct about these objects.

黃色、圓形和閃光并不能捕捉到這些物體的獨(dú)特之處。

We need better variables, and we need a lot more of them.

我們需要更好、更多的變量。

That's what deep learning algorithms do as they go through all the training data.

這就是深度學(xué)習(xí)算法在處理所有訓(xùn)練數(shù)據(jù)時(shí)所做的事。

They find variables that help improve their performance on the task and in the process, they build out a mathematical space with way more than three-dimensions.

他們找到有助于提高他們在任務(wù)中的表現(xiàn)的變量,在這個(gè)過程中,他們建立了一個(gè)遠(yuǎn)不止三個(gè)維度的數(shù)學(xué)空間。

We are incapable of picturing multidimensional space, but Midjourney's model offered this and I like it.

我們無法描繪多維空間,但 Midjourney 的模型提供了這一個(gè)功能,我喜歡它。

So we'll say this represents the latent space of the model.

這表示模型的潛在空間。

And It has more than 500 dimensions.

它有500多個(gè)維度。

Those 500 axes represent variables that humans wouldn't even recognize or have names for, but the result is that the space has meaningful clusters.

這500個(gè)坐標(biāo)軸代表了人類甚至不認(rèn)識或不知道名字的變量,但結(jié)果是空間有了有意義的集群。

A region that captures the essence of banana-ness.

一個(gè)抓住了香蕉本質(zhì)的區(qū)域。

A region that represents the textures and colors of photos from the 1960s.

代表20世紀(jì)60年代照片的紋理和顏色的區(qū)域。

An area for snow and an area for globes and snowglobes somewhere in between.

一個(gè)區(qū)域用來放雪,另一個(gè)區(qū)域用來放球和雪球。

Any point in this space can be thought of as the recipe for a possible image.

這個(gè)空間中的任何一點(diǎn)都可以被認(rèn)為是一個(gè)可能的圖像的配方。

And the text prompt is what navigates us to that location.

文本提示將導(dǎo)航到該位置。

But then there's one more step.

但還有一步。

Translating a point in that mathematical space into an actual image involves a generative process called diffusion.

將數(shù)學(xué)空間中的一個(gè)點(diǎn)轉(zhuǎn)化為實(shí)際的圖像涉及到一個(gè)叫做擴(kuò)散的生成過程。

It starts with just noise and then, over a series of iterations, arranges pixels into a composition that makes sense to humans.

它從噪聲波開始,然后經(jīng)過一系列迭代,將像素排列成對人類有意義的構(gòu)圖。

Because of some randomness in the process, it will never return exactly the same image for the same prompt.

由于過程中的一些隨機(jī)性,對于相同的提示,它永遠(yuǎn)不會(huì)生成完全相同的圖像。

And if you enter the prompt into a different model designed by different people and trained on different data, you'll get a different result.

如果你把提示輸入不同的模型,由不同的人設(shè)計(jì),根據(jù)不同的數(shù)據(jù)訓(xùn)練,你就會(huì)得到不同的結(jié)果。

Because you're in a different latent space.

因?yàn)槟阍谝粋€(gè)不同的潛在空間。

No way. That is so cool. What the heck?

不可能吧!太酷了。到底是什么?

They're like brush strokes, the color palette. That's fascinating. I wish I could like — I mean he's dead, but go up to him and be like, "Look what I have!" "Oh that's pretty cool.

有筆觸效果,還有它的調(diào)色。太迷人了。我希望我能——我的意思是他已經(jīng)去世,但我可以走到他面前,對他說,“看看我畫出了什么!”“太酷了。

Probably the only Dali that I could afford anyways." The ability of deep learning to extract patterns from data means that you can copy an artist's style without copying their images, just by putting their name in the prompt.

這可能是我唯一買得起的達(dá)利畫作了?!鄙疃葘W(xué)習(xí)從數(shù)據(jù)中提取模式的能力意味著,您可以復(fù)制藝術(shù)家的風(fēng)格,而無需復(fù)制他們的圖像,只需將他們的名字放在提示詞中就行。


長度限制無法顯示完整,完整版可移步“每日英語聽力”APP搜索關(guān)鍵詞“AI 作畫深度解析”即可查看~

用戶評論

表情0/300
喵,沒有找到相關(guān)結(jié)果~
暫時(shí)沒有評論,下載喜馬拉雅與主播互動(dòng)
猜你喜歡
愛畫畫的詩

《幼兒文學(xué)獎(jiǎng)系列:愛畫畫的詩》所收錄的,是林芳萍獲得第十屆信誼幼兒文學(xué)獎(jiǎng)文字類首獎(jiǎng)的作品。不但每一首詩都有自己獨(dú)特的形狀,文字更是清新簡潔,時(shí)而帶點(diǎn)寫意,時(shí)而帶...

by:悅讀時(shí)間

讀書畫畫

我讀書你畫畫!童年時(shí)光很短暫,希望能留住她的美好!每天讀一讀,每天學(xué)一學(xué),每天畫一畫,每天進(jìn)步一點(diǎn)點(diǎn)!

by:晨曦讀書365

沉浸式畫畫

治愈系馬克筆繪畫沉浸式畫畫就選丙烯筆

by:日落去看海丨晨染

熊小米教畫畫

2017年熊小米與金鷹卡通聯(lián)合錄制的一檔幼教類節(jié)目,每天黃金時(shí)間在《飛行幼樂園》欄目中播出,節(jié)目內(nèi)容是由熊小米人偶,使用“神奇畫筆”和電視機(jī)前的小朋友們一起畫...

by:小小畫家熊小米

媽媽陪孩子畫畫

媽媽陪孩子畫畫,給孩子一個(gè)美好童年

by:Sophy0609

鶴草的畫畫過程

畫畫過程而已了啦丑的話還請包容也別盜圖盜視頻封面是我的自設(shè),沒水印,別拿?

by:鶴草真的是一植物

畫畫呦~原創(chuàng)!

含各種畫作,畫頭像、背景…大家可以私我畫大家的頭像哦,免費(fèi)滴~無償也可以接受,走的時(shí)候訂閱下唄~設(shè)備沒辦法剪輯,只能用某備了。最后還會(huì)精心安排小彩蛋哦~勿搬運(yùn)!...

by:又胖又懶大橘貓_愛忍_

當(dāng)你學(xué)會(huì)獨(dú)處

如果生命里有這樣一段時(shí)光,只能獨(dú)處不能外出,你會(huì)做些什么?當(dāng)你一個(gè)人的時(shí)候,是感到百無聊賴,難以忍受,還是感到一種充實(shí)和滿足?人們往往把交往看作一種能力,卻忽略...

by:予默塵溫

當(dāng)你學(xué)會(huì)獨(dú)處

獨(dú)處時(shí)靈魂的假期,你總要有一段與我為伴的時(shí)光,在四下無人時(shí)直面自我,讓心靈回歸寧靜,讓生活回歸簡單。

by:蘑菇_cpl