大模型LLMs很火，作为新生小白应该怎么入门 LLMs?是否有推荐的入门教程推荐？

很明显，这是一个偏学术方向的指南要求，所以我会把整个LLM应用的从数学到编程语言，从框架到常用模型的学习方法，给你捋一个通透。也可能是不爱学习的劝退文。

通常要达到熟练的进行LLM相关的学术研究与开发，至少你要准备数学、编码、常用模型的知识，还有LLM相关的知识的准备。只有这些都熟练了，你才能快速阅读相关研究方向的论文，并且判断自己是不是可以在这个方向挖一下。

TL;DR

好了，开始正式的劝退版吧。

通常数学对于毕业后的人来讲，需要简单的看一下，对于一个研究生一年级的人来讲不是问题。毕竟线性代数、高数、概率都是必考。只有凸优化这东西，可能是门需要自己再看一下的课程。

线性代数：关键概念包括向量、矩阵、特征值和特征向量。重要的公式涉及矩阵乘法、行列式以及特征值方程Av=λv，其中 A是矩阵，v 是特征向量，λ是特征值。

高数：基本是微分和积分，重点是理解极限、导数和积分的概念。函数 f(x) 在点 x的导数由f′(x)=limh→0 f(x+h)−f(x) 给出，基本微积分定理将微分与积分联系起来。

概率：关键点包括概率公理、条件概率、贝叶斯定理、随机变量和分布。例如，贝叶斯定理由P(A∣B)=P(B∣A)P(A)/P(B)给出，它帮助在发生B 的情况下更新 A 的概率。

凸优化：关注目标函数为凸函数的问题。关键概念包括凸集、凸函数、梯度下降和拉格朗日乘数。梯度下降更新规则可以表示为 xn+1 =xn −α∇f(xn )，其中 α是学习率。可能你需要在此努力一下。

原来编码我要写一堆的，但是最近的AI告诉我，Cursor或者任意的AI大模型都可以指导你完成基本的编码工作了。

所以你只需要知道，自己需要下面这些知识就好了。

但这些其实只需要你会问AI大模型就好了。

MLP、CNN、RNN的典型模型你可能要相对熟悉一点，我建议你自己手写一下。

建议是这些网络

LeNet-5: 这是最早的卷积神经网络之一。
AlexNet: AlexNet在ImageNet图像分类竞赛中表现优异，标志着深度学习的广泛应用。
VGGNet: VGGNet以其深度和使用的小卷积核（3x3）而闻名，常用的模型有VGG16和VGG19。
ResNet (Residual Networks): ResNet通过引入残差连接解决了深度网络中的梯度消失问题，最著名的版本是ResNet-50、ResNet-101。
Long Short-Term Memory (LSTM):LSTM通过引入门控机制解决了标准RNN中的长期依赖问题，是处理序列数据的标准模型之一。
Gated Recurrent Unit (GRU): GRU是LSTM的简化版本，具有类似的性能但计算效率更高。
Bidirectional RNN: 这是RNN的一种变体，可以同时考虑序列中前后文信息，通常用于自然语言处理任务。

而新一些架构，可能你要看RWKV、Mamba、TTT这三个新架构，它们的潜力还是不错的。