本文详细总结了Vision in Transformer模型的设计架构,以及图像其该模型架构中的完整处理流程,帮助建立对ViT模型的基础认识。
Transformer架构在自然语言处理领域(Natural Language Processing)中的各种大语言模型中的到了非常广泛的应用,而2020年Google的一篇论文《An Image is Worth 16×16 Words》,把Transformer架构引入了计算机视觉领域,利用其Patch Embedding和自注意力机制对计算机视觉领域中传统的卷积神经王CNN的统治地位造成了极大的冲击,从而在人工智能的各个领域中已经显示出一统江湖的态势。
CRA:Chief Ray Angle,也就是主入射光线角度。对于镜头和Image Sensor而言,虽然两者都有CRA参数,但是其实际定义是明显不同的。
Lens的CRA参数则由镜头的设计本身决定,表示从镜心到成像面的光线角度分布模式。也就是就是镜头各个位置的主光线(过入瞳中心的光线)通过光学系统到达像面以后,与像面交点位置处的法线之间的夹角。