LLM为啥是语言大模型,为啥大语言模型不宜?

LLM是large language model的首字母缩写。

LLM现在很时髦,因为它是近年很火的ChatGPT的基础。

图片[1]-LLM为啥是语言大模型,为啥大语言模型不宜?-JieYingAI捷鹰AI

LLM的字面直译是“大语言模型”。已经有人觉得这直译的语感比较怪,又有“大型语言模型”的译法。

“大语言模型”之所以语感怪,是因为汉语习惯顺序断字,因此“大语言模型”容易被断成“(大语言)模型”。但了解LLM内涵的都知道,“大语言模型”的“大”是修饰“模型”,而不是修饰“语言”。

故而“语言大模型”更符合汉语的习惯和LLM的内涵。

汉字是"音义”兼表的文字,其信息密度比较高,故其字符流和音流比较简短,于是我们习惯从前往后看去理解一段汉字串。这就是为什么“大语言模型”的“大”容易被解读为修饰“语言”的原因。

图片[2]-LLM为啥是语言大模型,为啥大语言模型不宜?-JieYingAI捷鹰AI

如果有比较强的特殊信息或背景知识,那么我们认知会激活相应的特殊信息或背景知识,这样就会不按顺序来解读汉字串了。比如对“大语言模型”,不大可能解读成:(大语)(言模)型。这就是因为“语言”和“模型”两个词的背景知识太强了。

可是对于不解LLM内涵的人,见到“大语言模型”,很容易误读成:(大语言)(模型)。

为什么英语LLM不像汉语那样 language large model呢?这是因为英语、拉丁语和希腊语是表音语言。

如果说汉语是二维码,那么表音语言就如同条形码,后者的信息密度低于前者,甚至显著低于前者,因此字符流和音流就比较长。

图片[3]-LLM为啥是语言大模型,为啥大语言模型不宜?-JieYingAI捷鹰AI

表音语言的字符流比较长,它对视觉/听觉感知和脑认知有较大的压力。为了弥补此弱势,表音语言就特别重视语言的表达结构化。比如对英语,快速确定出句子主谓宾或主系表的对应成分最重要。也因为英语的句子结构重要,所以人们表达时也自动遵守这个规则。地道的英语表达会让受话人很容易定出相应的成分。

对拉丁语、德语和法语等屈折语,甚至直接用“格形”让受话人能立即定出表达成分的逻辑角色,如动作发出者和动作承受者。

啰嗦这么多,就是想说英语的理解习惯是先定出中心词,因为只有中心词才会是主句的主成分。比如对large language model,英语的习惯是先扫描到中心名词model, 然后再去处置修饰细节。

英语对中心名词的修饰词顺序大体遵循:越靠近名词的修饰词,其边际效应越大。这是笔者呕心沥血的总结(或曰原创;欢迎您提供语料库的支持或反驳)。

图片[4]-LLM为啥是语言大模型,为啥大语言模型不宜?-JieYingAI捷鹰AI

边际效应是经济学术语,它说的就对某个要素的一个最小梯度改变,所带来经济/心理满意的收益改变。对语言学,收益则为认知信息。

就上述model, 影响信息收益的要素有size(large)和type(language)。

type可以是language, mathematical, biological等等,改变它的类型,则模型内涵就有天翻地覆的改变。

对size, 可以有small, big, a little big, large等等取值,这些取值可以连续渐变(上面的类型要素的取值是离散型,只能从一个跳到另外一个),而且究竟何为large, 何为a little big其界线也不清晰,相应的边际效应就不是天翻地覆。

总之,size的最小梯度可以很小,而且相应的信息改变也显著低于type。所以size排在type之前。于是就有了large language model的顺序。

以上是一个力学老师的半路出家的胡思乱想,请您批判。

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
来说点什么吧!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容