丰满多毛的大隂户毛茸茸 ,337P人体 欧洲人体 亚洲,欧美XXXX色视频在线观看瑜伽,神马午夜福利不卡片在线

你知道ChatGPT是怎么工作的嗎

2023-06-15 17:15:27
近期ChatGPT等人工智能模型的推出,讓人工智能、AI、ChatGPT等詞不斷登上熱搜。發(fā)布五天,ChatGPT用戶便超過100萬人,無情碾壓了臉書公司10個月破百萬用戶的紀(jì)錄。發(fā)布短短兩個月,ChatGPT日活躍用戶數(shù)突破1億,打破了Twitter保持的9個月的紀(jì)錄,成為史上用戶數(shù)增長最快的消費(fèi)者應(yīng)用。但是,你知道ChatGPT是怎么工作的嗎?
ChatGPT是一類機(jī)器學(xué)習(xí)自然語言處理模型的推斷,被稱為大型語言模型(LLM)。 LLM消化了大量的文本數(shù)據(jù),并推斷出文本中單詞之間的關(guān)系。在過去的幾年里, 隨著我們看到計算能力的進(jìn)步, 這些模型也在不斷增長。隨著輸入數(shù)據(jù)集和參數(shù)空間大小的增加, LLM的能力也在增加。語言模型的最基本的訓(xùn)練涉及到預(yù)測一連串詞語中的一個詞。最常見的是,這被觀察為下一個標(biāo)記預(yù)測和屏蔽語言模型。

在2018年,openAI首次推出生成式預(yù)訓(xùn)練轉(zhuǎn)化器(GPT)模型, 名為GPT-1. 這些模型在2019年的GPT-2, 2020年的GPT-3以及最近在2022年的InstructGPT和ChatGPT中繼續(xù)發(fā)展. 在將人類反饋整合到系統(tǒng)中之前, GPT模型進(jìn)化的最大進(jìn)步是由計算效率方面的成就推動的, 這使得GPT-3能夠在比GPT-2多得多的數(shù)據(jù)上進(jìn)行訓(xùn)練, 使其擁有更多樣化的知識基礎(chǔ)和執(zhí)行更廣泛任務(wù)的能力.

所有的GPT模型都利用了轉(zhuǎn)化器結(jié)構(gòu), 這意味著它們有一個編碼器來處理輸入序列, 一個解碼器來生成輸出序列. 編碼器和解碼器都有一個多頭的自我注意機(jī)制, 允許模型對序列的部分進(jìn)行不同的加權(quán), 以推斷出意義和背景. 此外, 編碼器利用掩蔽語言模型來理解單詞之間的關(guān)系, 并產(chǎn)生更易理解的反應(yīng).

驅(qū)動GPT的自我關(guān)注機(jī)制通過將標(biāo)記(文本片段, 可以是一個詞, 一個句子或其他文本分組)轉(zhuǎn)換為向量, 代表該標(biāo)記在輸入序列中的重要性. 為了做到這一點, 該模型:

1.為輸入序列中的每個標(biāo)記創(chuàng)建一個查詢, 鍵和值向量.
2.通過采取兩個向量的點積, 計算第一步中的查詢向量與其他每個標(biāo)記的關(guān)鍵向量之間的相似性.
3.通過將第2步的輸出輸入softmax函數(shù), 生成規(guī)范化的權(quán)重.
4.產(chǎn)生一個最終向量, 通過將步驟3中產(chǎn)生的權(quán)重乘以每個標(biāo)記的值向量, 代表該序列中標(biāo)記的重要性.

GPT使用的'多頭'注意機(jī)制是自我關(guān)注的進(jìn)化. 該模型不是一次性執(zhí)行第1-4步, 而是并行地多次迭代這一機(jī)制, 每次都會產(chǎn)生一個新的查詢, 鍵和值向量的線性投影. 通過以這種方式擴(kuò)展自我關(guān)注, 該模型能夠掌握輸入數(shù)據(jù)中的子含義和更復(fù)雜的關(guān)系.

ChatGPT是InstructGPT的衍生產(chǎn)品, 它引入了一種新穎的方法, 將人類反饋納入訓(xùn)練過程, 使模型的輸出與用戶的意圖更好地結(jié)合起來.

第1步: 監(jiān)督微調(diào)(SFT)模型
第一次開發(fā)涉及微調(diào)GPT-3模型, 雇用了40個承包商來創(chuàng)建一個有監(jiān)督的訓(xùn)練數(shù)據(jù)集, 其中輸入有一個已知的輸出供模型學(xué)習(xí). 輸入, 或提示, 是從實際的用戶輸入開放API中收集的. 然后, 標(biāo)簽人員對提示寫出適當(dāng)?shù)幕貞?yīng), 從而為每個輸入創(chuàng)建一個已知的輸出. 然后, GPT-3模型使用這個新的, 有監(jiān)督的數(shù)據(jù)集進(jìn)行微調(diào), 以創(chuàng)建GPT-3.5, 也稱為SFT模型.

第2步: 獎勵模式
在步驟1中訓(xùn)練SFT模型之后, 該模型生成對齊更好的響應(yīng)以對用戶提示. 下一個改進(jìn)的形式是訓(xùn)練獎勵模型, 其中模型輸入是一系列提示和響應(yīng), 輸出是稱為獎勵的縮放值. 為了利用強(qiáng)化學(xué)習(xí), 需要獎勵模型, 在強(qiáng)化學(xué)習(xí)中, 模型學(xué)習(xí)產(chǎn)生輸出以最大化其獎勵(參見步驟3).

第3步: 強(qiáng)化學(xué)習(xí)模型
在最后階段, 模型將收到隨機(jī)提示并返回響應(yīng). 響應(yīng)是使用模型在步驟2中學(xué)習(xí)的'策略'生成的. 該策略代表機(jī)器已經(jīng)學(xué)會用于實現(xiàn)其目標(biāo)的策略; 在這種情況下, 最大化其獎勵. 根據(jù)步驟2中開發(fā)的獎勵模型, 然后確定提示和響應(yīng)對的縮放器獎勵值. 然后, 獎勵會反饋到模型中以進(jìn)化策略.

北大青鳥開設(shè)了人工智能、大數(shù)據(jù)、5G云計算、Java、前端、軟件開發(fā)等課程,辦學(xué)十余年,擁有豐富的教學(xué)經(jīng)驗。如果你想學(xué)習(xí)一些人工智能方面的知識,也歡迎致電400-8035-955或在下方留下聯(lián)系方式來北大青鳥咨詢!

上一篇:人工智能是怎么自主學(xué)習(xí)的
下一篇:人工智能會威脅到人類嗎?人類會被機(jī)器取代嗎?

姓名:
手機(jī):
北大青鳥深圳校區(qū)
返回頂部
咨詢熱線 0755-86191118