非专业人士的AI课2:对大模型多模态以及开源闭源概念的总结

2025-3-13|2026-3-14
Pavel Han
Pavel Han
date
Mar 13, 2025
slug
2025-03-13-the-basic-concepts-of-LLM-and-open-close-model
status
Published
tags
神经网络理论
LLM
summary
本系列文章的目标是从非AI从业者的角度出发,去尝试理解AI及其大模型在应用中的基本概念,争取通过对这些概念的深入理解和澄清,建立对大模型的工作机制流程以及应用框架方面的知识结构,从而在我们的生活和工作中更好的使用AI。
type
Post
category
AI
AI summary
本系列文章的目标是从非AI从业者的角度出发,去尝试理解AI及其大模型在应用中的基本概念,争取通过对这些概念的深入理解和澄清,建立对大模型的工作机制流程以及应用框架方面的知识结构,从而在我们的生活和工作中更好的使用AI。

究竟什么是大语言模型LLM?

目前我们所说的大模型,全称是大语言模型LLM(Large Language Model)。所谓的”大”是指这个模型所包含的参数量非常大,目前市场上主流的LLM模型的参数量都达到了千亿以上的级别。而所谓的“语言”是指自然语言(Natural Language),也就是这个模型可以直接使用自然语言(而不是只有计算机和程序员才懂的程序代码)与人进行交互,用户对这个模型的使用需求,以自然语言的方式输入模型,而模型也以自然语言的方式给出响应和答复。
用户输入自然语言文本信息到模型中,模型根据用户的问题生成用户能够理解的自然语言文本的内容,这种模型就是大语言模型的单模态模型。
最典型的LLM单模态大语言模型就是引爆OpenAI的GPT-3.5模型,参数量高达1750亿。如此大的参数量,意味着可以提供卓越的性能、强大的学习能力,但是同时也意味着对计算和存储资源提出更高的要求,训练和推理的成本也更高。

单模态与多模态

目前大模型的发展趋势,基本上比较流行的大模型都是多模态模型。所谓的多模态,就是模型的输入输出,不仅能够支持GPT3.5这样的单模态模型所能够支持的自然语言文本信息,也能够支持图像、音频甚至视频方面的内容,例如以文生图、视频,以及根据图像生成描述性文本等。
notion image
OpenAI目前的多款在市场上广受欢迎的多模态大模型,包括可识别图像的多模态LLM大模型GPT-4及其以上的版本,文生图模型DALLE3,文生视频大模型Sora,语言转文字模型Whisper等。而国内阿里的通义千问,腾讯的混元,百度的文心一言,字节跳动的豆包等大模型基本也都支持了对图像、音频等的多模态支持。

Yolo

实际上除了LLM大语言模型以外,还有一些专业性更强、专注于解决某一方向问题的其他AI模型。例如用于在视频图像中进行目标检测(人,车辆,宠物等)的Yolo模型,这类模型大概有上千万参数,注重轻量化和实时性,适合边缘计算场景,可以对输入图像进行检测生成目标框和类别预测,当前约78%的自动驾驶企业和65%的智能摄像头厂商选择YOLO作为主力检测框架,但其具体版本需根据硬件性能调整。例如车载系统多采用YOLOv8m(平衡精度与速度),而门禁摄像头则倾向YOLOv5s(更低功耗)。

大模型的开源和闭源

大模型选择开源或者闭源的商业经营模式,决定了这个模型的代码、模型权重、训练数据、训练过程等核心资源是否完全公开,允许任何人查看、修改和分发(如Apache 2.0等传统开源许可证)。 例如,DeepSeek-R1模型采用Apache 2.0协议,开发者可基于其代码自由开发商业应用。这种开放性促进了全球开发者的协作创新,形成“社区驱动”的生态模式。
下表是目前主流大模型的开源和闭源状态列表:
notion image
可以看到,Meta的Llama,阿里的Qwen,还有最近爆火的deepseek都选择了开源的商业模式。而实际上,自从deepseek爆火,国内的腾讯、Kimi等一种大模型厂商也选择了对其开发的大模型进行开源。那么为什么这些厂商选择了开源的商业模式呢?

大模型开源模式的优势

  • 大模型开源之后带来的最大好处就是可以快速的建立自己的技术生态,吸引更多中小型的开发者和企业快速的参与到开源模型的改进和优化中。例如,Meta的Llama系列开源后,迅速衍生出多个垂直领域的模型,加速了技术的迭代。
  • 开源生态的成熟也可以快速推动上下游厂商之间的合作与适配,例如DeepSeek开源后,迅速得到了云厂商、社区和芯片厂商的跟进。
  • 开源模式能够吸引更多用户和开发者,从而提升品牌知名度和行业影响力。例如,DeepSeek的开源举措不仅推动了技术的普及,还重塑了大模型市场的竞争格局。对比技术竞争力相差不大但是采用闭源模式的Kimi而言,尽管Kimi 2024年在市场推广中投入了超过9亿的营销费用,但是推销效果远远比不上deepseek开源模式推广的影响力。
  • 开源模式的商业盈利方式更加多元化。开源并不意味着完全免费,厂商可以通过提供增值服务(如企业级解决方案、定制化服务、API接口等)来盈利,还能够通过数据和流量变现,例如通过广告、用户数据分析等方式实现商业化。
  • 当然,大模型开源的同时,也会采用专利等方式对自己的核心技术进行保护。例如,DeepSeek在多个关键领域提交了专利申请,涵盖大模型训练优化、系统稳定性优化、网络与硬件优化等。这种“开源+专利”的双轨策略,既保护了核心技术,又避免了被竞争对手抢注或侵权。
大模型以开源的方式发布以后:
  • 竞争对手和有大模型开发能力的团队,可以研究大模型的相关代码,参与到对这个模型的改进和优化,以及针对某些垂直领域进行定制化的开发和训练。
  • 云服务厂商可以把训练好的大模型部署在自己的云服务器中,通过API等方式为用户提供服务来谋求商业利益。
  • 中小型团队和个人开发者可以基于开源大模型进行私有部署,并针对当前行业和机构的需求进行定制化训练和微调。

Hugging Face

对于开源大模型,就必须要提到在AI大模型开发领域大名鼎鼎的Hugging Face网站(www.huggingface.co)。Hugging Face类似于AI模型领域的Github,该网站上维护了全世界几乎所有的开源大模型的代码,以及开源的模型训练数据。截至2025年3月份为止,在Hugging Face上已经上传了接近150万个大模型,超过30万个开源的训练数据集。所以,这就为小型团队和个人开发者自行部署和训练开源大模型提供了极大的便利。
notion image
实际上对于绝大多数小型开发团队或个人开发者而言,如果要参与大模型开发的话,在完成大多数的人工智能业务时无须从头构建模型,比较现实的做法,是根据自己要解决的任务类型,按需选择开源大模型,如Deepseek、通义QWen、LLaMA、ChatGLM、Alpaca等。从Hugging Face这样的网站上下载对应的开源大模型、训练数据集以及其他训练和部署的工作,基于这个基础进行定制化行业应用方面的开发和训练。这种方式可以节省大量的模型设计时间,提升开发效率。
非专业人士的AI课3:LLM大语言模型项目的典型开发流程详解非专业人士的AI课1:深度神经网络学习入门
Loading...