出口機會與數(shù)據(jù)單元Token
文字是語言的主要成分,人類通過說話或書寫文字來表達認知和想法、從而實現(xiàn)復雜的溝通。文字是被賦予特定意義符號,每個符號都對應了具體意義。在遠古時期,由于人類對自然的認知比較少、開發(fā)生產(chǎn)的新工具和生活用品也不多、思想與社會組織形式相對簡單,因此每種文字數(shù)量都不多。然而,隨著人類不斷的積累對自然的認知和對自然規(guī)律的應用、人類的組織形式和生產(chǎn)方式也相應發(fā)生了變化,同時,新的生產(chǎn)工具也不斷誕生等,每個新事物、新產(chǎn)品的誕生都需要特定的新文字符號與之對應、以便人們在溝通時無論是說還是書寫都能準確表達自己的想法。因此,語言文字隨著人類的發(fā)展不斷增多,在16世紀,英語單詞大約只有14萬多個、到了今天,英語單詞已經(jīng)達到了100萬個左右(有些資料顯示70萬單詞左右)。在這400多年間、英語單詞增加7-8倍,這表明人類使用的新事物和新產(chǎn)品也增加了7-8倍。確實如此,人類近代史、特別是自工業(yè)革命以來是飛速發(fā)展的人類歷史時期;
文字的誕生源于新事物、新思想、新生產(chǎn)方式以及新產(chǎn)品的誕生,文字與客觀存在一一對應、這種對應關系使人類能通過語言表達和傳達自己的想法和認知,因此,一種語言的詞匯豐富程度能直接影響這種語言對事物表達的準確性。當一種語言的詞匯不足時、人們只能通過組合多個詞匯來形成復合詞、用每個單詞的詞義疊加共同表達一個詞義,復合詞就如同拼湊起來的木板、不具備單一木板的完整性。為了理解一個復合詞的內(nèi)涵、人們必須首先理解其構(gòu)成的每個單詞的含義,然后再整合這些含義來理解整個詞組。這種多詞組詞往往存在理解誤差、不具備那種只為此物此事而生的單詞內(nèi)涵的完整性、特別是在當代,人類使用的科學技術(shù)手段越來越復雜、復合詞組承載的內(nèi)涵難以被理解、這給人們學習現(xiàn)代科學帶來了困難、因此,有些不使用拼寫文字的國家也會引進外來語來補充本語言詞匯的不足、甚至有些國家直接使用英文、以確??茖W技術(shù)內(nèi)容的準確性;
人工智能是計算機通過對文字(包括語音轉(zhuǎn)文字)的識別、結(jié)合文本以及網(wǎng)絡中現(xiàn)存可能被使用的所有數(shù)據(jù)的結(jié)合概率、使用數(shù)據(jù)單元Token編輯生成智能內(nèi)容。生成的內(nèi)容可以是視頻、語音、文字、圖表等不同格式的數(shù)據(jù)文件,因此作為智能生產(chǎn)基材的數(shù)據(jù)單元Token數(shù)量的多少直接決定了智能生成內(nèi)容質(zhì)量的優(yōu)劣,Token可以是單詞、可以是句子或一篇文章,或者是智能生成圖片或視頻時曾使用的圖片碎片、也可以是一個矩陣單元等,而Token數(shù)量多少取決于一種語言的文字量以及文字組合量的多少,因此,即使使用相同的大模型生成人工智能答案、不同語言文字的Token得出的智能結(jié)果并不相同;
Token數(shù)量不僅能直接影響人工智能的智力水平、還影響人工智能商業(yè)應用的收益。企業(yè)擁有的Token越多,參與生成智能答案的概率就越大、Token被使用概率也是企業(yè)數(shù)據(jù)源被顯示的概率、因此,企業(yè)擁有的Token多少決定了企業(yè)出口概率和獲得其他商業(yè)機會的多少。Token數(shù)量由一種語言的文字多少決定、企業(yè)開發(fā)的Token數(shù)量越多、其產(chǎn)品出口的概率就越高、企業(yè)收益也就越大!