生成式 AI 是如何透過學習現有數據來創造出令人驚嘆的新內容?從早期的馬可夫模型到現代的變分自編碼器(VAEs)和生成對抗網絡(GANs),讓我們深入這項技術的起源和發展歷史,以及泛用型與專用型生成式 AI 的應用與未來挑戰。
讓我們一起揭開這個激動人心的科技世界的神秘面紗吧!
生成式 AI 的起源與發展史
生成式 AI 是人工智慧的一個重要分支,目標是透過學習現有數據來創造新的數據,生成式 AI 可以根據我們提供的範例,創造出新的、看起來很像的內容,諸如圖片、文字、音樂等,讓我們從頭說起吧!
早期發展(1940s-1990s)
讓我們從生成式 AI 的起源開始聊起,這一領域的研究可以追溯到 20 世紀 40 和 50 年代,那時候科學家們主要集中在概率模型和統計學習方法上,以下是幾個早期的重要技術:
馬可夫鏈和隱馬可夫模型(HMMs): 馬可夫模型(Markov Models)是一種簡單的生成模型,用來描述隨機過程中的狀態轉換,首先,馬可夫模型是一種描述隨機過程的工具,適用於狀態之間的轉移;假設你正在描述一個天氣模型,其中有三種狀態:晴天、陰天和雨天,每一天的天氣只依賴於前一天的天氣狀態,而不受更早之前的天氣狀態影響。這是一個典型的馬可夫過程;馬可夫模型有一個特點:你可以直接觀察到系統的狀態。例如,你可以透過觀察來知道今天是晴天還是雨天。 隱馬可夫模型(Hidden Markov Models, HMMs)則進一步引入了隱藏狀態,你不能直接觀察到系統的真實狀態,而只能看到與這些隱藏狀態相關的觀測值;假設你正在聽音樂,可以聽到有不同的音符(觀測值),但你不知道音樂背後的節拍(隱藏狀態),隱馬可夫模型能幫助你透過觀測到的音符來推斷音樂的節拍。
混合高斯模型(GMMs): GMMs 是另一種早期的生成模型,用來建模多變量數據的概率分佈,在語音和圖片識別中也有重要應用,例如,GMMs 可以用來區分不同的聲音訊號、或是在圖片中識別出不同的物體。
機器學習時代(2000s-2010s)
在 21 世紀初,隨著機器學習特別是深度學習的迅猛發展,生成式 AI 進入了一個新的時代。
變分自編碼器(VAEs): 2013 年 Kingma 和 Welling 提出了變分自編碼器(Variational Autoencoders),這是一種結合了自編碼器和概率圖模型的生成模型,VAEs 能夠學習數據的潛在分佈,這代表它可以理解和創造出與訓練數據類似的新數據。
生成對抗網絡(GANs): 2014 年,Ian Goodfellow 等人提出了生成對抗網絡(GANs),GANs 透過讓生成器和判別器相互競爭來生成逼真的數據,生成器試圖創造出能欺騙判別器的數據,而判別器則努力分辨真實數據和生成數據;這種對抗性訓練方法迅速成為研究的熱點,並推動了大量的後續研究和應用。
近期發展(2010s-至今)
生成式 AI 的技術在最近幾年取得了顯著的進展,特別是在深度學習模型的推動下。
深度卷積生成對抗網絡(DCGANs): DCGANs 是 GANs 的一個重要變體,由 Radford 等人於 2015 年提出,引入了卷積神經網絡(CNNs),顯著提高了圖片生成的品質和穩定性。
條件 GANs(Conditional GANs): Mirza 和 Osindero 於 2014 年提出了條件 GANs,透過在生成和判別過程中加入條件訊息,使生成模型能夠控制生成數據的類型和屬性,從而提高了生成數據的多樣性和精度。
StyleGAN 和 StyleGAN2: NVIDIA 的研究團隊於 2018 年和 2019 年分別推出了 StyleGAN 和 StyleGAN2,這些模型透過控制生成圖片的風格和細節,實現了更高品質的圖片生成,被廣泛應用於藝術創作、遊戲開發和虛擬現實等領域。
GPT 系列模型: OpenAI 的 GPT 系列模型是自回歸生成模型的代表,特別是 GPT-3 在自然語言生成方面表現出色,能夠自動寫作、回答問題、生成代碼等,展現生成式 AI 在語言處理領域的巨大潛力。
生成式 AI 發展歷史表
年代 | 模型名稱 | 技術 | 突破 |
1940s-1950s | 馬可夫鏈和隱馬可夫模型(HMMs) | 概率模型 | 用於描述隨機過程中的狀態轉換,應用於語音識別和自然語言處理。 |
1960s-1970s | 混合高斯模型(GMMs) | 概率模型 | 建模多變量數據的概率分佈,應用於語音和圖片識別。 |
2013 | 變分自編碼器(VAEs) | 自編碼器和概率圖模型 | 學習數據的潛在分佈,生成高品質的新數據,應用於圖片和音頻生成。 |
2014 | 生成對抗網絡(GANs) | 生成器和判別器的對抗訓練 | 通過對抗性訓練生成逼真的數據,應用於圖片生成和數據增強。 |
2015 | 深度卷積生成對抗網絡(DCGANs) | 卷積神經網絡(CNNs) | 提高圖片生成的品質和穩定性,應用於高品質圖片生成。 |
2014 | 條件 GANs(Conditional GANs) | 加入條件信息的生成和判別 | 控制生成數據的類型和屬性,提高生成數據的多樣性和精度。 |
2018-2019 | StyleGAN 和 StyleGAN2 | 控制生成圖片的風格和細節 | 高品質圖片生成,被廣泛應用於藝術創作、遊戲開發和虛擬現實。 |
2020 | GPT-3 | 自回歸生成模型,Transformer | 自然語言生成方面表現出色,自動寫作、回答問題、生成代碼。 |
生成式 AI(Generative AI)的概述
生成式 AI 是一個涵蓋多種技術的領域,能夠透過學習現有數據來創造新的數據,主要的技術包括生成對抗網路(GANs)、變分自編碼器(VAEs)和自回歸模型。這些技術在數據生成方面各具特點,以下將用簡單易懂的方式詳細介紹它們的原理。
生成對抗網路(GANs)
GANs 由生成器(Generator)和判別器(Discriminator)兩個神經網路組成,生成器接收隨機雜訊作為輸入,生成類似於真實數據的輸出,而判別器則判斷數據是真實的還是生成的,這兩個網路相互對抗,不斷改進生成數據的品質。
生成器(Generator): 生成器的工作是創造數據,它從隨機雜訊(可以理解為隨機數字)開始,經過多層神經網路轉換,生成類似於真實數據的輸出,這就像是一個偽造者試圖創造出和真鈔一樣的假鈔。
判別器(Discriminator): 判別器的工作是檢測數據,它接收真實數據和生成器生成的數據,並嘗試分辨哪些是實際數據,哪些是生成數據,就像是警察試圖分辨真鈔和假鈔。
這兩個部分透過對抗性訓練來提高各自的技能。生成器試圖創造出能夠欺騙判別器的數據,而判別器則不斷改進,試圖更好地識別假數據;最終,當生成器創造的數據與真實數據難以區分時,就達到了訓練的目的;這樣的對抗性訓練過程不斷重複,使得生成器生成的數據越來越真實,判別器的識別能力也越來越強。
架構演變:
全連接 GANs: 是最早的生成對抗網絡(GANs),主要使用全連接神經網絡,這類模型適用於簡單的圖片數據集,比如手寫數字數據集 MNIST 和自然圖片數據集 CIFAR-10;這種模型的結構比較簡單,主要用來驗證 GANs 的基本概念。想像一個偽鈔製造者,他在試圖創造出能騙過驗鈔機的假鈔,驗鈔機則努力識別哪些是假鈔、哪些是真鈔;全連接 GANs 就像是這樣的一個對抗過程,偽鈔製造者和驗鈔機都在不斷變得更聰明。
卷積 GANs(DCGANs): 是針對圖片數據的改進版本,使用卷積神經網路來代替全連接神經網路,卷積神經網路特別適合處理圖片數據,因為它們可以捕捉圖片中的局部特徵,使得 DCGANs 能夠生成更高品質和更高分辨率的圖片。
條件 GANs(Conditional GANs): 引入了條件信息,使生成和判別過程基於特定的類別標籤,表示你可以控制生成的數據類型,從而提高數據的多樣性和精度,例如,可以生成特定類別的圖片,如貓或狗;這就像給偽鈔製造者和驗鈔機提供了額外的訊息,比如要求偽鈔製造者只生成某種特定面值的假鈔,而驗鈔機則只需識別這些特定面值的鈔票。
對抗性自編碼器(AAE): 結合了自編碼器和 GANs 的優勢,用於學習數據的(Latent Representation)和生成高品質的重建數據,潛在表示是數據在被模型內部轉換後的一種壓縮或抽象形式,這種表示方式能夠捕捉數據中重要的特徵;自編碼器負責將數據壓縮到潛在表示,然後再將其重建回來,而 GANs 的對抗機制則確保重建數據的高品質。
2. 變分自編碼器(VAEs)
VAEs 結合了自編碼器和概率圖模型,其結構包括兩部分:編碼器(Encoder)和解碼器(Decoder)。它們通過學習數據的潛在分佈來生成新數據。
編碼器(Encoder): 編碼器的工作是將輸入數據(比如一張圖片)轉換成潛在變量分佈的參數,這些參數包括均值和方差。你可以把這個過程想像成將一張圖片壓縮成一組數字(潛在變量)。
解碼器(Decoder): 解碼器則從這些潛在變量中取樣,生成新的數據。這就像是根據壓縮的數字重建出原來的圖片。
損失函數: VAEs 的損失函數包括兩部分:
重建誤差:衡量重建數據與原始數據之間的差異,讓重建數據盡可能接近原始數據。
KL 散度:衡量潛在分佈與先驗分佈之間的差異,讓模型學習到合理的潛在變量分佈。
這樣的損失函數保證了模型既能生成高品質的數據,又能保持數據的結構特性。
VAEs 常用於生成連續且結構穩定的數據,例如圖片和音頻,特別適合需要平滑過渡的應用場景,因為它能生成連續變化的結果;例如,VAEs 可以用來生成從一張貓的圖片到另一張貓的圖片之間的平滑過渡圖片,或者生成不同音高之間的連續音頻。
自回歸模型
自回歸模型是一種用來生成數據的技術,它通過預測序列中的每個元素來實現這一目標,典型的自回歸模型包括 GPT(Generative Pre-trained Transformer)系列,使用 Transformer 結構處理文本數據;下面我們用簡單的方式來解釋這個模型的工作原理及其應用;自回歸模型的基本想法是將序列數據拆分成前後關係,然後依次預測每個元素,例如,如果你有一段文字,模型會根據前面的單詞來預測接下來的單詞。
回歸結構: 自回歸模型將序列數據拆分成前後關係,依次預測每個元素,這就像是給你一句話的開頭,然後要求你根據這個開頭來猜測接下來的單詞。
Transformer: Transformer 是一種特殊的神經網絡結構,它使用注意力機制來建模長距離依賴關係;這使得生成的文本能夠保持連貫性和上下文一致性;簡單來說,注意力機制就像是讓模型能夠“關注”到句子中對預測很重要的部分,從而生成更加自然的文本。
GPT(Generative Pre-trained Transformer)系列是自回歸模型的一個典型應用,並在自然語言生成(NLG)方面表現優異,以下是一些具體的應用:
對話系統:GPT 模型可以用來生成自然、連貫的對話,使聊天機器人能夠進行更人性化的對話。
自動寫作:這些模型可以自動生成文章、故事或報告,幫助作家或記者提高創作效率。
語言翻譯:GPT 模型還能用來進行語言翻譯,生成高品質的翻譯文本。
GPT 模型的多層次結構和大規模數據預訓練,使得它在多種語言任務中具有出色的性能。
泛用型與專用型生成式 AI 的差異
泛用型生成式 AI
泛用型生成式 AI 是設計來解決多種任務的,它可以應用於很多不同的領域,這類型的 AI 通常需要大量的數據和計算資源來進行訓練,但一旦訓練完成,它們就能靈活地應用於多個任務;GPT-3 是一個很好的例子。這個模型能夠處理各種語言生成任務,比如寫作、翻譯和對話生成。它可以幫助你寫文章,回答問題,甚至創作詩歌。
未來,這類模型的發展重點在於提高通用性和適應性,包括透過多任務學習(即同時學習多種任務)和遷移學習(將一個任務中學到的知識應用到另一個任務中)來進一步提升它們的性能。
專用型生成式 AI

專用型生成式 AI 則是針對特定領域或應用進行優化,常在某一特定任務上具有更高的效率和精度;DeepMind 的 AlphaFold 是一個專門用於蛋白質結構預測的生成式 AI,它在這一特定領域中表現出了極高的準確性,並且為科學研究提供了巨大的幫助。
這類模型的未來發展重點在於深度優化特定應用場景中的性能,並整合專業知識以提高生成品質,這不僅需要技術上的改進,還需要結合領域專家的知識來提升模型的效能。
技術挑戰與未來趨勢
儘管生成式 AI 展示了巨大的潛力,但仍面臨計算資源需求、數據品質與偏見、倫理與法律問題以及模型解釋性等挑戰,未來的研究將致力於開發更高效的訓練方法、提高數據品質、制定法律法規以規範技術使用,以及提高模型的透明度和解釋性。
參考資料
Generative Adversarial Networks: An Overview (arxiv.org) https://arxiv.org/abs/1710.07035
Generative Adversarial Networks: An Overview of Theoretical Model, Evaluation Metrics, and Recent Developments (arxiv.org) https://arxiv.org/abs/2005.13178
A Gentle Introduction to Generative Adversarial Networks (machinelearningmastery.com) https://machinelearningmastery.com/what-are-generative-adversarial-networks-gans/
Understanding Generative AI (IBM) https://www.ibm.com/cloud/learn/generative-ai
OpenAI's GPT-3 (OpenAI) https://openai.com/research/gpt-3
DeepMind's AlphaFold (DeepMind) https://www.deepmind.com/research/case-studies/alphafold
An Overview of Autoregressive Models (Towards Data Science) https://towardsdatascience.com/an-overview-of-autoregressive-models-6357ed0f2d
Introduction to Variational Autoencoders - Machine Learning Mastery https://machinelearningmastery.com/introduction-to-variational-autoencoders/
Introduction to Transformers - Machine Learning Mastery https://machinelearningmastery.com/introduction-to-transformers/
Variational Autoencoders - Towards Data Science https://towardsdatascience.com/variational-autoencoders-vaes-a-primer-6d0c0fd1d58a
Deep Convolutional Generative Adversarial Networks (DCGANs) - arXiv https://arxiv.org/abs/1511.06434
Conditional Generative Adversarial Nets - arXiv https://arxiv.org/abs/1411.1784
A Style-Based Generator Architecture for Generative Adversarial Networks (StyleGAN) - arXiv https://arxiv.org/abs/1812.04948
Analyzing and Improving the Image Quality of StyleGAN (StyleGAN2) - arXiv https://arxiv.org/abs/1912.04958
Towards a Deeper Understanding of Deep Generative Models - arXiv https://arxiv.org/abs/1702.08583
A Review of the Advances of Deep Learning in Computer Vision - arXiv https://arxiv.org/abs/1906.05721