https://zhuanlan.zhihu.com/p/678196390
LLM context 长度,是模型在保障准确性的前提下,支持的最大输入长度。
一般来说,训练时用4k长度训练,那么推理时,4k以内的长度效果肯定是有保障的。8k以内的话,可以通往一些技术,如位置编码扩展等技术,让准确性基本不降低,或者降低幅度较小。超过训练长度太多,准确性就降低比较大了。
另外,一般情况下,训练和推理的运算量与长度的平方成正比例。有一些技术可以改善这方面。
重点要理解,LLM的结构参数中,是不包含context长度的,所以不够输入token多少,都是可以计算的。只是对运算量和准确性有影响。
此外,4000 token ,相当于 3000 个英文单词或者 2000 个汉字