
在2018年,openAI首次推出生成式預(yù)訓(xùn)練轉(zhuǎn)化器(GPT)模型, 名為GPT-1. 這些模型在2019年的GPT-2, 2020年的GPT-3以及最近在2022年的InstructGPT和ChatGPT中繼續(xù)發(fā)展. 在將人類反饋整合到系統(tǒng)中之前, GPT模型進(jìn)化的最大進(jìn)步是由計算效率方面的成就推動的, 這使得GPT-3能夠在比GPT-2多得多的數(shù)據(jù)上進(jìn)行訓(xùn)練, 使其擁有更多樣化的知識基礎(chǔ)和執(zhí)行更廣泛任務(wù)的能力.
所有的GPT模型都利用了轉(zhuǎn)化器結(jié)構(gòu), 這意味著它們有一個編碼器來處理輸入序列, 一個解碼器來生成輸出序列. 編碼器和解碼器都有一個多頭的自我注意機(jī)制, 允許模型對序列的部分進(jìn)行不同的加權(quán), 以推斷出意義和背景. 此外, 編碼器利用掩蔽語言模型來理解單詞之間的關(guān)系, 并產(chǎn)生更易理解的反應(yīng).
驅(qū)動GPT的自我關(guān)注機(jī)制通過將標(biāo)記(文本片段, 可以是一個詞, 一個句子或其他文本分組)轉(zhuǎn)換為向量, 代表該標(biāo)記在輸入序列中的重要性. 為了做到這一點, 該模型:
1.為輸入序列中的每個標(biāo)記創(chuàng)建一個查詢, 鍵和值向量.
2.通過采取兩個向量的點積, 計算第一步中的查詢向量與其他每個標(biāo)記的關(guān)鍵向量之間的相似性.
3.通過將第2步的輸出輸入softmax函數(shù), 生成規(guī)范化的權(quán)重.
4.產(chǎn)生一個最終向量, 通過將步驟3中產(chǎn)生的權(quán)重乘以每個標(biāo)記的值向量, 代表該序列中標(biāo)記的重要性.
GPT使用的'多頭'注意機(jī)制是自我關(guān)注的進(jìn)化. 該模型不是一次性執(zhí)行第1-4步, 而是并行地多次迭代這一機(jī)制, 每次都會產(chǎn)生一個新的查詢, 鍵和值向量的線性投影. 通過以這種方式擴(kuò)展自我關(guān)注, 該模型能夠掌握輸入數(shù)據(jù)中的子含義和更復(fù)雜的關(guān)系.
ChatGPT是InstructGPT的衍生產(chǎn)品, 它引入了一種新穎的方法, 將人類反饋納入訓(xùn)練過程, 使模型的輸出與用戶的意圖更好地結(jié)合起來.
第1步: 監(jiān)督微調(diào)(SFT)模型
第一次開發(fā)涉及微調(diào)GPT-3模型, 雇用了40個承包商來創(chuàng)建一個有監(jiān)督的訓(xùn)練數(shù)據(jù)集, 其中輸入有一個已知的輸出供模型學(xué)習(xí). 輸入, 或提示, 是從實際的用戶輸入開放API中收集的. 然后, 標(biāo)簽人員對提示寫出適當(dāng)?shù)幕貞?yīng), 從而為每個輸入創(chuàng)建一個已知的輸出. 然后, GPT-3模型使用這個新的, 有監(jiān)督的數(shù)據(jù)集進(jìn)行微調(diào), 以創(chuàng)建GPT-3.5, 也稱為SFT模型.
第2步: 獎勵模式
在步驟1中訓(xùn)練SFT模型之后, 該模型生成對齊更好的響應(yīng)以對用戶提示. 下一個改進(jìn)的形式是訓(xùn)練獎勵模型, 其中模型輸入是一系列提示和響應(yīng), 輸出是稱為獎勵的縮放值. 為了利用強(qiáng)化學(xué)習(xí), 需要獎勵模型, 在強(qiáng)化學(xué)習(xí)中, 模型學(xué)習(xí)產(chǎn)生輸出以最大化其獎勵(參見步驟3).
第3步: 強(qiáng)化學(xué)習(xí)模型
在最后階段, 模型將收到隨機(jī)提示并返回響應(yīng). 響應(yīng)是使用模型在步驟2中學(xué)習(xí)的'策略'生成的. 該策略代表機(jī)器已經(jīng)學(xué)會用于實現(xiàn)其目標(biāo)的策略; 在這種情況下, 最大化其獎勵. 根據(jù)步驟2中開發(fā)的獎勵模型, 然后確定提示和響應(yīng)對的縮放器獎勵值. 然后, 獎勵會反饋到模型中以進(jìn)化策略.
北大青鳥開設(shè)了人工智能、大數(shù)據(jù)、5G云計算、Java、前端、軟件開發(fā)等課程,辦學(xué)十余年,擁有豐富的教學(xué)經(jīng)驗。如果你想學(xué)習(xí)一些人工智能方面的知識,也歡迎致電400-8035-955或在下方留下聯(lián)系方式來北大青鳥咨詢!