文丨谭梓馨
大模型竞争日渐饱和之后,小模型开始风靡起来。
近期,麻省理工学院衍生公司Liquid AI发布了一款LFM2-VL模型,可以把多模态AI装进智能手表,谷歌也推出了可在智能手机上运行的超小型高效开源AI模型Gemma 3-270M。
今天,AI算力之王英伟达也抛出了自己的全新小型语言模型(SLM):Nemotron-Nano-9B-V2,该模型在部分基准测试中达到了同类产品中的最高性能,并且允许用户打开或关闭AI“推理”,并且设计安装在单个Nvidia A10 GPU 上即可流畅运行。
展开剩余88%英伟达AI模型主管Oleksii Kuchiaev表示:“我们把12B参数进一步精简为9B,以专门适配A10,这是企业部署中最常见的一种显卡。”
官方给出的技术报告显示,Nemotron-Nano-v2-9B在复杂推理基准测试中实现了与领先的同等规模开放模型Qwen3-8B相当甚至更高的准确率,且吞吐量最高可提升6倍。
小模型最强水准Nemotron-Nano-9B-v2是一个由英伟达从头开始训练的AI模型,旨在作为推理和非推理任务的统一模型,该模型采用混合架构,主要由Mamba-2和MLP层组成,并仅结合四个注意力层。
大多数流行的LLM都是纯“Transformer”模型,完全依赖于注意力层,但随着序列长度的增加,它们在内存和计算方面的成本会变得昂贵。
相比之下,Nemotron-Nano-9B-v2是一款混合了Mamba与Transformer的语言模型,其设计旨在提高推理任务的吞吐量,同时与同规模模型相比实现了最先进的准确率。
该模型以Nemotron-H架构为基础,在该架构中,常规Transformer架构中的大部分自注意力层被Mamba-2层替代,从而在生成推理所需的长思维链时提升了推理速度,旨在降低给定准确度水平下的推理成本,整体性能超过Qwen3-8B和谷歌的Gemma 3-12B。
同时,该模型支持运行时“思考”预算控制,在推理过程中,用户可以指定模型允许“思考”的标记数量,适用于设计AI代理系统、聊天机器人、RAG系统和其他AI应用开发者,也适用于典型的指令执行任务。
Nemotron-Nano-9B-v2最终能够在单张配备22GiB内存的NVIDIA A10G GPU上,以bfloat16精度处理长达128k token的上下文推理任务。
英伟达在Hugging Face上开源了Nemotron-Nano-9B-v2,以及与同系列模型Nemotron-Nano-9B-v2-Base和母模型Nemotron-Nano-12B-v2-Base,同时还开源了大部分预训练和训练后数据集。
SLM将重塑AI代理生态NVIDIA Research团队近期发了一篇小论文,预判小型语言模型将是智能体人工智能的未来。
大型语言模型(LLMs)常因在各类任务中展现出接近人类的性能,以及具备进行通用对话的能力而广受赞誉。然而,智能体人工智能(agentic AI)系统的兴起,正催生大量应用场景——在这些场景中,语言模型需重复执行少量特定任务,且任务变化性极小。
因此,英伟达团队的观点是,对于智能体系统中的许多调用场景,小型语言模型(SLMs)已足够强大,本质上更适配,且必然更具经济性,因此是智能体人工智能的未来。
智能体人工智能的部署正呈爆发式增长。英伟达近期调查显示,超过半数的大型IT企业正在积极使用人工智能智能体,其中21%是在过去一年才开始采用的,截至2024年末,智能体人工智能领域的初创企业融资已超过20亿美元,市值达52亿美元,预计到2034年将增长至近2000亿美元。
大多数现代智能体的核心驱动组件是(超)大型语言模型,大型语言模型API端点专为使用单一通用型大型语言模型处理大量多样化请求而设计。
这种运营模式在行业中根深蒂固,甚至构成了巨额资本投资的基础:2024年,支撑智能体应用的大型语言模型API服务市场规模估计为56亿美元,而同年投入托管云基础设施的资金激增至570亿美元,投资与市场规模之间形成约10倍的差距,出现计算资源的错配。
英伟达团队将大多数参数规模在100亿以下的模型视为小型语言模型(SLMs),研究人员认为,大型语言模型(LLMs)在智能体设计中的主导地位既过度,又与大多数智能体使用场景的功能需求不匹配。
大多数智能体子任务具有重复性、限定性和非对话性——这需要的是高效、可预测且低成本的模型,在这种情况下,小型语言模型(SLMs)不仅能满足需求,往往也更具优势,而且最新的技术进展表明,设计精良的小型语言模型在任务性能上可达到甚至超越此前大得多的模型所实现的水平。
例如微软Phi系列,27亿参数在常识推理和代码生成评分上与300亿参数模型相当,同时运行速度快了约15倍;DeepSeek-R1-Distill-Qwen-7B模型的表现优于Claude-3.5-Sonnet-1022和GPT-4o-0513等大型专有模型;DeepMind RETRO-7.5B(75亿参数)在语言建模任务上性能可与GPT-3(1750亿参数)媲美。
强力小模型拥有明显优点:更低的延迟、更少的内存和计算资源需求,以及显著的运营成本降低,同时在算力受限领域内仍能保持足够好的任务性能。
因此研究人员认为行业应从以大型语言模型为中心的范式转向“小型语言模型优先”的架构,异构智能体系统会是未来的一种技术方向,将小型语言模型的精确性和高效性与大型语言模型的通用性相结合,才够构建出既经济又高效的新一代智能体。
市场竞争驶向深水区智能体市场正从“技术实验期”迈向“规模化落地期”,技术突破与场景深耕将成为竞争核心。
不少企业开始聚焦垂直领域差异化需求,通过多模态融合、轻量化部署、多智能体协作构建护城河,同时关注伦理合规与用户信任度提升,普及中智能体像“数字员工”一样渗透到各行各业,重塑人类与机器协作的边界。
智能体市场正在分为三个方向,包括通用智能体、垂直行业智能体、智能体开发平台等。
根据MarketsandMarkets、Gartner等机构的分析,2025年,全球垂直行业智能体市场规模预计达890亿美元,将占同期整体智能体市场(含通用智能体、开发平台)的40%以上,全球通用智能体市场规模预计达78.4亿美元,占同期整体智能体市场约4.2%,垂直行业智能体将率先成为AI与实体经济深度融合的核心载体。
随着智能体在各行各业的深度应用,各路厂商开始在场景定义、数据资产、生态协同等多维度展开竞争,加强智能体的合规化、专业化、可解释化将成为下一阶段竞争的关键点。
-END-
如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,欢迎私信“投稿”,添加编辑微信。
【2025免费新年礼】:了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会,领取100份AI科技商业研报合集,加群共同探讨与成长——
添加头部科技晶总微信!
发布于:北京市力创配资提示:文章来自网络,不代表本站观点。