一文彻底搞懂Transformer模型的Decoder结构与计算流程

本文详细总结了Transformer模型架构中Decoder部分的总体网络结构,以及数据在其中的运算和流转流程。

详解QWen3-VL模型的测试以及vLLM生产环境部署流程

2026-03-04
AI
LLM
本文对阿里于2025年9月份发布的Qwen3-VL视觉语言模型进行了简单介绍,并对其预训练模型进行了本地推理测试以及在生产环境中使用vLLM进行部署的流程进行了总结。

开源软件项目学习中源码管理的最佳实践

在基于Github上的开源软件(像 Ultralytics 这样活跃且更新频繁的仓库)进行二次开发或预研学习的过程中,最头疼的莫过于:项目源仓库中的上游代码始终处于频繁更新的状态,而我自己在学习和预研的过程中所做的修改到处乱飞,最后连我自己都忘了改过哪里,一单合并代码就出现大量冲突,解决起来非常低效。 本文基于对网络上查询到的资料进行学习,找到了解决以上问题的一个合理的技术路径。而这一套工作流程也是很多团队做开源项目预研过程中的标准做法。简单总结起来就是:在Git 版本控制层面和 软件项目代码架构层面双管齐下,使用Fork + 分支隔离 + 模块化侵入的方式保证开源软件项目学习和研究的高效率。 本文以Github上的qiuqiangkong/audioset_tagging_cnn这个项目详细总结整个流程的具体实践方式。

从头实现一个Vision Transformer(ViT)模型

本文针对简单的MNIST手写数字数据集识别的需求,完成了一个最简单的Vision Transformer模型的实现、训练和验证测试,建立对Vision Transformer模型实现流程的完整理解。 MNIST手写数字数据集是最简单的机器视觉数据集,基于MNIST实现一个Vision Transformer模型来实现手写数字字符的识别,难度不会太大,对于模型训练所需要的数据以及算力资源要求也不高,因此通过训练一个MNIST数据集的ViT识别模型,是一个绝佳的入门Vision Transformer模型的实验。

一文入门Vision in Transformer(ViT)模型的架构

本文详细总结了Vision in Transformer模型的设计架构,以及图像其该模型架构中的完整处理流程,帮助建立对ViT模型的基础认识。 Transformer架构在自然语言处理领域(Natural Language Processing)中的各种大语言模型中的到了非常广泛的应用,而2020年Google的一篇论文《An Image is Worth 16×16 Words》,把Transformer架构引入了计算机视觉领域,利用其Patch Embedding和自注意力机制对计算机视觉领域中传统的卷积神经王CNN的统治地位造成了极大的冲击,从而在人工智能的各个领域中已经显示出一统江湖的态势。

如何理解Transformer架构中的多头注意力机制?

本文详细总结了Transformer架构中的自注意力及其多头自注意力机制背后的工作原理和计算流程,以助于更深入的理解完整的Transformer设计架构。

一文彻底搞懂Transformer模型的Encoder结构与计算流程

本文通过对一个标准的Encoder-Only类型的Transformer架构,详细的总结了Encoder类型的网络架构以及数据流在其中的计算流程。

YOLOv1输出信息以及NMS过滤算法详细解读

2025-10-07
AI
YOLO
本文对YOLOv1模型的输出信息,以及对模型推理输出进行的NMS算法过滤等方面的信息进行总结和学习,为后续阶段解读更近的YOLO模型打好基础。

YOLOv2模型网络架构解读

2025-10-06
AI
YOLO
本文对YOLOv2模型的BN层、Darknet-19主干网络,以及模型的总体结构进行了详细的总结和学习。

YOLOv1模型网络架构解读

2025-10-01
AI
YOLO
虽然YOLOv1早已过时,但是其为one-stage架构奠定了重要的基础,本文对该模型的架构进行了详细的总结,为学习YOLO后续版本的架构打好基础。

CNN经典网络模型架构学习之Resnet

2025-09-30
AI
CNN
Resnet网络架构是由微软亚洲研究院的何恺明等人在2015年提出,其论文为《Deep Residual Learning for Image Recognition》,在2015年的ImageNet图像识别竞赛中获得了分类、检测、定位等多个任务的冠军。这个模型的核心贡献在于解决了深层网络的训练难题,使得训练上百层甚至上千层的网络成为可能,极大地推动了计算机视觉的发展。

CNN经典网络模型架构学习之GoogleNet

2025-09-11
AI
CNN
本文对经典卷积神经网络存在的问题,以及计算机视觉图像识别领域经典的GoogLeNet架构设计的相关知识点进行了完整和详细的总结。