ChatGPT 已經(jīng)無處不在。2022 年 12 月,總部位于美國舊金山的初創(chuàng)公司 OpenAI 發(fā)布了這款網(wǎng)頁應(yīng)用,它幾乎在一夜之間成為了熱門話題。據(jù)估計,這是有史以來用戶增長最快的互聯(lián)網(wǎng)服務(wù),在發(fā)布兩個月后就捕獲了 1 億用戶。我的家人甚至都在討論 ChatGPT。
很快,微軟與 OpenAI 達(dá)成了價值 100 億美元的多年合作,這項技術(shù)現(xiàn)在正被內(nèi)置到 Office 軟件和必應(yīng)搜索引擎中。搜索引擎霸主谷歌感受到了威脅并迅速作出了應(yīng)對,它推出了自己的人工智能聊天機(jī)器人 Bard,由 LaMDA 模型驅(qū)動。
但 OpenAI 的突破并不是憑空而來的,ChatGPT,是迄今為止歷經(jīng)多年的一系列大型語言模型中最完善的迭代。
從 1980 年代到 1990 年代:遞歸神經(jīng)網(wǎng)絡(luò)
ChatGPT 是基于 GPT-3 模型的、一個由 OpenAI 開發(fā)的大型語言模型。語言模型是一種神經(jīng)網(wǎng)絡(luò),它使用了海量的文本進(jìn)行訓(xùn)練。
因為文本是由不同長度的字母和單詞序列組成的,所以語言模型需要一種能夠理解這類數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。1980 年代發(fā)明的遞歸神經(jīng)網(wǎng)絡(luò)可以處理單詞序列,但它們的訓(xùn)練速度很慢,而且會忘記序列前面的單詞。
1997 年,計算機(jī)科學(xué)家塞普·霍克雷特(Sepp Hochreiter)和尤爾根·施米德杜伯爾(Jürgen Schmidhuber)發(fā)明了 LTSM(長短期記憶,Long Short-Term Memory)網(wǎng)絡(luò),解決了這個問題。這是一種具有特殊組件的遞歸神經(jīng)網(wǎng)絡(luò),允許將序列前面的數(shù)據(jù)保留更長的時間。LTSM 可以處理數(shù)百個字長的文本串,但它們的語言技能有限。
圖片
(來源:STEPHANIE ARNETT/MITTR)
2017 年:Transformers
今天新一代大型語言模型背后的突破在于,谷歌的研究人員發(fā)明了 Transformers,這也是一種神經(jīng)網(wǎng)絡(luò),可以跟蹤每個單詞或短語在序列中出現(xiàn)的位置。
單詞的確切含義通常取決于在它之前或之后的其他單詞的意思。通過跟蹤這些上下文信息,Transformers 可以處理更長的文本字符串,并更準(zhǔn)確地得出單詞的真實含義。例如,“千層”在句子“一石激起千層浪”和“我愛吃千層蛋糕”中的意思是截然不同的。
2018-2019 年:GPT 和 GPT-2
OpenAI 的前兩個大型語言模型的發(fā)布僅相隔幾個月。該公司希望開發(fā)多技能、通用的人工智能,并相信大型語言模型是實現(xiàn)這一目標(biāo)的關(guān)鍵一步。GPT(Generative Pre-trained Transformer 的縮寫)成為了一座里程碑,擊敗了當(dāng)時最先進(jìn)的自然語言處理基準(zhǔn)。
GPT 將 Transformer 與無監(jiān)督學(xué)習(xí)結(jié)合在一起,后者是一種在未經(jīng)標(biāo)注的數(shù)據(jù)上訓(xùn)練機(jī)器學(xué)習(xí)模型的方法。這使得模型可以自己找出數(shù)據(jù)中的規(guī)律,而不需要人類告訴它它在看什么。以前在機(jī)器學(xué)習(xí)方面的許多成果都依賴于監(jiān)督學(xué)習(xí)和標(biāo)注數(shù)據(jù),但人工標(biāo)注數(shù)據(jù)的效率低下,限制了訓(xùn)練數(shù)據(jù)集的大小。
引發(fā)更大討論的是 GPT-2。OpenAI 聲稱,自己非常擔(dān)心人們會使用 GPT-2“產(chǎn)生帶有欺騙性、偏見或侮辱性的語言”,以至于它不會發(fā)布完整的模型,再看看今天的一切,可謂是“人是物非”。
2020 年: GPT-3
GPT-2 令人印象深刻,但 OpenAI 的后續(xù)產(chǎn)品 GPT-3,更是讓人大開眼界。它模仿人類生成文本內(nèi)容的能力獲得了巨大飛躍。GPT-3 可以回答問題、總結(jié)文檔、生成不同風(fēng)格的故事,在英語、法語、西班牙語和日語之間進(jìn)行翻譯等等。它對人類文字和語言能力的模仿是不可思議的。
最值得注意的一點(diǎn)是,GPT-3 的提升來自于大幅放大現(xiàn)有的技術(shù),而不是發(fā)明新的技術(shù)。GPT-3 有 1750 億個參數(shù)(在訓(xùn)練過程中得到調(diào)整的神經(jīng)網(wǎng)絡(luò)參數(shù)),而 GPT-2 只有 15 億個參數(shù)。GPT-3 使用的訓(xùn)練數(shù)據(jù)也更龐大。
但是,從互聯(lián)網(wǎng)上獲取的訓(xùn)練文本也帶來了新的問題。GPT-3 吸收了它在網(wǎng)上發(fā)現(xiàn)的許多虛假信息和偏見,在用戶有意或無意的引導(dǎo)下,它會反過來輸出這些有毒內(nèi)容。正如 OpenAI 所承認(rèn)的那樣:“經(jīng)過互聯(lián)網(wǎng)內(nèi)容訓(xùn)練的模型就會存在互聯(lián)網(wǎng)規(guī)模的偏見。”
2020 年 12 月:有毒文本和其他問題
當(dāng) OpenAI 忙于與 GPT-3 的偏見作斗爭時,科技界面臨的遏制人工智能有毒傾向的壓力是前所未有且與日俱增的。大型語言模型可以拋出虛假的文本,甚至是充滿偏見的文本,這已經(jīng)不是什么秘密了,但研究人員發(fā)現(xiàn),解決這個問題并不在大多數(shù)科技巨頭的待辦清單上。
當(dāng)谷歌人工智能倫理團(tuán)隊的聯(lián)合主管蒂姆尼特·格布魯(Timnit Gebru)與其他人共同撰寫了一篇論文,強(qiáng)調(diào)了與大型語言模型(包括高計算成本)相關(guān)的潛在危害時,這個話題并沒有受到公司高層的歡迎。2020 年 12 月,格布魯遭到了開除。
2022 年 1 月: InstructGPT
OpenAI 試圖通過強(qiáng)化學(xué)習(xí)來減少 GPT-3 生成錯誤信息和攻擊性文本的數(shù)量,它根據(jù)人類測試員的喜好訓(xùn)練了一版模型。成果名為 InstructGPT,它可以更好地遵循用戶的指示——這在人工智能術(shù)語中被稱為“對齊(alignment)”——產(chǎn)生更少的攻擊性語言,更少的錯誤信息和更少的錯誤。簡而言之,InstructGPT 不會表現(xiàn)得像一個混蛋,除非用戶要求它這樣做。
2022 年 5 月-7 月: OPT、BLOOM
對大型語言模型的一個常見批評是,培訓(xùn)它們的成本高得可怕,除了世界上最有資源的實驗室和公司之外,所有其他機(jī)構(gòu)都難以建立一個模型。這引起了人們的擔(dān)憂,即如此強(qiáng)大的人工智能是由企業(yè)團(tuán)隊閉關(guān)造出來的,沒有經(jīng)過適當(dāng)?shù)膶彶椋矝]有獲得更廣泛的研究社區(qū)的反饋和支持。
作為回應(yīng),一些合作性的項目也開發(fā)了大型語言模型,并將其免費(fèi)發(fā)布給任何想要研究和改進(jìn)這項技術(shù)的研究人員。Meta 創(chuàng)建并開源了 OPT 模型,一個重建 GPT-3 的產(chǎn)品。Hugging Face 領(lǐng)導(dǎo)了一個由大約 1000 名志愿者組成的合作聯(lián)盟來打造和發(fā)布 BLOOM 模型。
2022 年 12 月: ChatGPT
ChatGPT 的爆火甚至讓它的創(chuàng)造者 OpenAI 也感到所震驚。在 ChatGPT 發(fā)布的前一天,我有幸拿到了 OpenAI 發(fā)給我的演示,公司給它的定位只不過是 InstructGPT 的更新版本。
和 InstructGPT 模型一樣,ChatGPT 的訓(xùn)練方法是使用來自人類測試者的反饋,而這些測試者對它的看法是流暢的、準(zhǔn)確的、無攻擊性的對話者。
實際上,這更像是 OpenAI 訓(xùn)練了 GPT-3 如何更好地掌控對話游戲,并邀請所有人來玩。自那時起,這場有趣的游戲吸引了數(shù)千萬人。