了解AI中的Pre-training、Transformer 與商業(yè)數(shù)據(jù)的關(guān)系

人工智能檢索涵蓋了人類(lèi)與機(jī)器之間的語(yǔ)音問(wèn)答和文字提問(wèn)的答案反饋,以及深入到世界的各個(gè)大型信息檢索工具。Google和OpenAI的ChatGPT是其中最典型的代表,盡管它們有著不同的檢索模式和商業(yè)目的,但它們都是人工智能檢索,其核心都依賴(lài)Transformer在人工網(wǎng)絡(luò)中的應(yīng)用。

Transformer最初應(yīng)用于計(jì)算機(jī)自然語(yǔ)言機(jī)械翻譯。它成功的以數(shù)據(jù)統(tǒng)計(jì)為基礎(chǔ),采用文本的順序作為路徑,通過(guò)結(jié)合語(yǔ)言和統(tǒng)計(jì)概率來(lái)實(shí)現(xiàn)自動(dòng)翻譯。簡(jiǎn)單來(lái)說(shuō),假設(shè)我們有一段文字,如果起始詞是“今天”,接下來(lái)的內(nèi)容可能與時(shí)間、天氣或者騎行等有關(guān),而與時(shí)間相關(guān)聯(lián)的可能是光,與光相關(guān)聯(lián)的可能是愛(ài)因斯坦、接下來(lái)就跟相對(duì)論、宇宙等有關(guān),而宇宙又關(guān)聯(lián)了太陽(yáng)又關(guān)聯(lián)了相對(duì)論等等。在非人工智能時(shí)代,機(jī)器可以通過(guò)文章中文字之間的距離來(lái)計(jì)算這些文字之間的相關(guān)性,并通過(guò)多個(gè)相關(guān)性文字來(lái)確定對(duì)應(yīng)的文字內(nèi)容。

可是我們?nèi)祟?lèi)能夠提出千奇百怪的問(wèn)題,即使對(duì)同一個(gè)問(wèn)題,人們可能會(huì)用不同的問(wèn)法。那么,如何理解人類(lèi)那些能清晰表達(dá)的問(wèn)題、以及那些表達(dá)不清的問(wèn)題,包括同一問(wèn)題的不同問(wèn)法呢?這就需要人工智能來(lái)提供答案。

人工智能是通過(guò)模擬人腦神經(jīng)網(wǎng)絡(luò)對(duì)信息的處理過(guò)程而開(kāi)發(fā)的數(shù)據(jù)處理數(shù)學(xué)模型,也被稱(chēng)為“大規(guī)模語(yǔ)言模型”,簡(jiǎn)稱(chēng)大模型。其工作方式是盡可能利用最多的數(shù)據(jù),通過(guò)Transformer的數(shù)據(jù)管理處理數(shù)據(jù)來(lái)生成答案。為了能夠迅速提供問(wèn)題答案和檢索結(jié)果,在神經(jīng)網(wǎng)絡(luò)中采用了“機(jī)器學(xué)習(xí)”,也就是Pre-training,通過(guò)統(tǒng)計(jì)概率編輯可能的數(shù)據(jù),所以,在網(wǎng)絡(luò)系統(tǒng)中已經(jīng)存在動(dòng)態(tài)的語(yǔ)言邏輯關(guān)系和順序。因此,當(dāng)人類(lèi)提出一個(gè)問(wèn)題時(shí),需要通過(guò)千萬(wàn)臺(tái)計(jì)算機(jī)進(jìn)行千億次計(jì)算,才能給出智能答案。

人工智能答案的質(zhì)量由神經(jīng)網(wǎng)絡(luò)規(guī)模和網(wǎng)絡(luò)中存在的數(shù)據(jù)質(zhì)量決定。在這其中,神經(jīng)網(wǎng)絡(luò)是Transformer的取材路徑,其規(guī)模越大,取材范圍就越廣泛。網(wǎng)絡(luò)中的數(shù)據(jù)是人工智能提供答案的基礎(chǔ)材料,數(shù)據(jù)質(zhì)量主要體現(xiàn)在真理性、客觀性以及相關(guān)性上,數(shù)據(jù)的真理性和客觀性決定答案的正確性,相關(guān)性則決定了答案的準(zhǔn)確性。

數(shù)據(jù)的相關(guān)性決定了數(shù)據(jù)之間的距離、距離大小可以通過(guò)矢量運(yùn)算完成,具體來(lái)說(shuō),就是考慮數(shù)據(jù)的長(zhǎng)度和方向,數(shù)據(jù)的方向是由起始數(shù)據(jù)和不同關(guān)聯(lián)數(shù)據(jù)形成的不同方向,其夾角的余弦值便反映了數(shù)據(jù)矢量的相關(guān)性,余弦值越小,表示句子的相關(guān)性越大( =|a| x| b| x )

自然語(yǔ)言與數(shù)據(jù)相關(guān)性是人工智能采用數(shù)據(jù)的優(yōu)勢(shì)條件,數(shù)據(jù)在神經(jīng)網(wǎng)絡(luò)中位置決定了transformer 以及Pre-training使用其的先后順序,在人機(jī)對(duì)話的商業(yè)問(wèn)答中,不論是語(yǔ)音提問(wèn)還是文字請(qǐng)求,商業(yè)機(jī)會(huì)只給那些參與其中的數(shù)據(jù),因此,商業(yè)數(shù)據(jù)對(duì)企業(yè)而言是何等重要!

2024-02-19