非专业人士的AI课1：深度神经网络学习入门

date

Mar 12, 2025

slug

2025-03-12-the-basics-of-DNN

status

Published

深度神经网络是一切AI模型的基础

目前几乎所有比较流行的AI应用及其模型，都是基于深度神经网络拓扑结构的。如下图所示，深度神经网络网络在层次上可以分为三层：输入层，非常多的中间隐藏层（这就是称之为深度网络的原因），以及最后的输出层。

神经网络中的每一个节点都是一个神经元。对于各个神经元的计算而言，大体上可以分为以下两个步骤：

Step 1：从前一层的所有节点按照不同的加权权重（Weight，如下图中的多个w参数）进行乘加运算，再把乘加计算的结果加上不同的偏移量（bias，如下图中的b参数），得到第一步的计算结果。

Step 2：以第一步的计算结果作为输入，进行激活函数（即下图的f函数）的运算。目前的神经网络多种比较常用的激活函数，其输出范围取决于具体使用的激活函数类型。不同的激活函数有不同的输出范围，大部分激活函数的输出范围是（-1，1）或者（0，1）之间的连续浮点数据。

深度神经网络的参数量

在深度神经网络中，我们所说的参数量通常指的是神经元之间连接的权重（Weights）和偏置（Biases）的总数量，而不是神经元的个数（也就是上图中的w参数和b参数）。

以下给出一个参数量计算量的简单例子。假设有一个简单的全连接神经网络，其结构为：输入层有 n 个神经元，隐藏层（单层）有 m 个神经元，输出层有 k 个神经元。

输入层到隐藏层：

权重数量：n×m（每个输入神经元连接到每个隐藏神经元）

偏置数量：m（每个隐藏神经元有一个偏置）

总参数量：n×m+m

隐藏层到输出层：

权重数量：m×k（每个隐藏神经元连接到每个输出神经元）

偏置数量：k（每个输出神经元有一个偏置）

总参数量：m×k+k

因此，整个网络的总参数量为：总参数量=(n×m+m)+(m×k+k)。

无论是ChatGPT这类大语言模型，还是Yolo这样的对图像中的目标进行检测和分类的模型，其实现从本质上讲都是以上所描述的深度神经网络的结构。而从以上深度神经网络的架构来讲，无论是开发中的训练还是部署后的推理，都是从input层输入数据，在中间的隐藏层进行计算和传递，最终在output层输出，其中主要涉及到的运算就是在各层的神经元之间进行的海量乘加运算，因此模型越大，层次越多，参数越多，那么要进行一次计算的计算量都成指数增加，这就是大多数大模型的训练以及推理对于算力要求很高的原因所在。

可以认为，LLM大语言模型所学习到的海量知识就保存在各层神经元的参数之中。