DeepSeek 发布 V3.2 正式版,显著强化了 Agent 和推理能力,在主流测试中达到 GPT-5 水平并支持思考模式下的工具调用;同时推出的 Speciale 探索版在多项国际竞赛中取得金牌级表现。模型已全面开放使用。
Kimi K2.5 是 Kimi 迄今最智能的模型,在 Agent、代码、视觉理解及一系列通用智能任务上取得开源 SoTA 表现。同时 Kimi K2.5 也是 Kimi 迄今最全能的模型,原生的多模态架构设计,同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。
Minimax M2.5专为Agent场景原生设计,编程与智能体性能(Coding & Agentic)直接对标Claude Opus 4.6,尤其在Excel高阶处理、PPT生成和深度调研等Office生产力场景达到行业领先水平(SOTA)。
GLM-5 是智谱新一代的旗舰基座模型,面向 Agentic Engineering 打造,能够在复杂系统工程与长程 Agent 任务中提供可靠生产力。在 Coding 与 Agent 能力上,GLM-5 取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程 Agent 任务,是通用 Agent 助手的理想基座。
MiniMax-M2.1是一款轻量级、前沿的大语言模型,针对编码、代理工作流程和现代应用开发进行了优化。仅激活了100亿个参数,它实现了在现实世界能力上的重大飞跃,同时保持了卓越的延迟、可扩展性和成本效率。
与前辈相比,M2.1提供了更干净、更简洁的输出和更快的感知响应时间。它在主要系统和应用语言中表现出领先的跨语言编码性能,在Multi-SWE-Bench上达到49.4%,在SWE-Bench Multilingual上达到72.5%,并作为IDE、编码工具和通用辅助的通用“大脑”使用。
为了避免降低该模型的表现,MiniMax强烈建议在回合之间保留推理。在我们的文档中了解更多关于使用reasoning_details传递推理的信息。
MiMo-V2-Flash 是一个专为极致推理效率自研的总参数 309B(激活 15B)的 MoE 模型,通过 Hybrid 注意力架构创新及多层 MTP 推理加速。
(2026年上线,收费版。)
Kimi K2 Thinking 是 Moonshot AI 迄今为止最先进的开源推理模型,它将 K2 系列扩展到了智能体层面,实现了长时域推理。该模型基于 Kimi K2 中引入的万亿参数混合专家 (MoE) 架构构建,每次前向传播激活 320 亿个参数,并支持 256 个 k-token 上下文窗口。该模型针对持续的逐步思考、动态工具调用以及跨越数百轮的复杂推理工作流进行了优化。它将逐步推理与工具使用交错进行,从而能够实现自主研究、编码和写作,并能持续数百次连续操作而不会出现偏差。
它在 HLE、BrowseComp、SWE-Multilingual 和 LiveCodeBench 等开源基准测试中创造了新的纪录,同时在 200-300 次工具调用中保持了稳定的多智能体行为。基于采用 MuonClip 优化的大规模 MoE 架构,它兼具强大的推理深度和高推理效率,能够胜任高要求的智能体和分析任务。
LongCat-Flash-Lite 模型采用高效 MoE 架构(总参数 685亿,激活参数约 30亿),通过 N-gram 嵌入表实现参数的高效利用,并针对推理效率与特定场景深度优化。
支持多种搜索类型和过滤条件,返回结构化的搜索结果,适用于智能问答、内容聚合、信息检索等多种应用场景
通义千问3系列Max模型,相较preview版本在智能体编程与工具调用方向进行了专项升级。本次发布的正式版模型达到领域SOTA水平,适配场景更加复杂的智能体需求。
与GLM-4.5相比,这一代模型实现了多项关键提升:
更长的上下文窗口:上下文长度从128K令牌扩展至200K令牌,使模型能够处理更复杂的智能体任务。
卓越的编程性能:在代码基准测试中得分更高,并在Claude Code、Cline、Roo Code及Kilo Code等应用中展现出更优的实际表现,包括生成视觉效果精致的前端页面能力提升。
进阶推理能力:GLM-4.6在推理性能上取得显著进步,支持推理过程中的工具调用,综合能力进一步增强。
更强大的智能体:在工具调用和基于搜索的智能体任务中表现更出色,并能更高效地集成至智能体框架。
精细化写作:更贴合人类对文风与可读性的偏好,在角色扮演场景中的表现也更为自然流畅。
MiniMax-M2是一款紧凑型高效大语言模型,专为端到端编程与智能体工作流优化设计。该模型激活参数量达100亿(总参数量2300亿),在通用推理、工具使用和多步骤任务执行方面展现出接近前沿水平的智能表现,同时保持低延迟与高部署效率。
GLM-4.7 是智谱最新旗舰模型,GLM-4.7 面向 Agentic Coding 场景强化了编码能力、长程任务规划与工具协同,并在多个公开基准的当期榜单中取得开源模型中的领先表现。通用能力提升,回复更简洁自然,写作更具沉浸感。在执行复杂智能体任务,在工具调用时指令遵循更强,Artifacts 与 Agentic Coding 的前端美感和长程任务完成效率进一步提升。
gpt-oss-120b 是由 OpenAI 推出的开放权重、1170亿参数混合专家(MoE)语言模型,专为高推理能力、智能体应用及通用生产环境场景设计。该模型每次前向传播仅激活51亿参数,并通过原生 MXFP4 量化技术优化,可在单张 H100 GPU 上高效运行。该模型具备三大核心功能:可配置的推理深度、完整思维链访问机制,以及原生工具调用能力(包括函数调用、网络浏览及结构化输出生成)。
gpt-oss-20b 是由 OpenAI 基于 Apache 2.0 许可证发布的开源 210 亿参数模型。该模型采用混合专家(MoE)架构,每次前向传播仅激活 36 亿参数,专为低延迟推理及消费级/单 GPU 硬件部署优化设计。模型经 OpenAI Harmony 响应格式训练,具备三大核心能力:可配置的推理等级、微调扩展性,以及包含函数调用、工具使用和结构化输出的 Agent 功能。
DeepSeek-V3.2-Exp 模型,是一个实验性(Experimental)的版本。作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。
此次更新在保持模型原有能力的基础上,针对用户反馈的问题进行了改进,包括:
语言一致性:缓解了中英文混杂、偶发异常字符等情况;
Agent 能力:进一步优化了 Code Agent 与 Search Agent 的表现。
DeepSeek V3.1 通过显式推理(Think)、动态搜索(Search)、高效工具调用(Tool) 这三驾马车,清晰地瞄准了下一代 AI 智能体的核心能力,清晰地勾勒出一条技术演进路线:一个更自主、更可靠、更能与外部世界交互的智能体(Agent)正在成型。
此次更新在保持模型原有能力的基础上,针对用户反馈的问题进行了改进,包括:
语言一致性:缓解了中英文混杂、偶发异常字符等情况;
Agent 能力:进一步优化了 Code Agent 与 Search Agent 的表现。
DeepSeek R1 的重大升级版本,针对复杂推理、多步骤计算更准确;长文理解与生成更连贯、逻辑更清晰;数学、编程等专业性输出更可靠。
推理速度大幅提升,位居开源模型之首,媲美顶尖闭源模型。采用负载均衡辅助策略和多标记预测训练,性能显著增强。
DeepSeek R1 是 DeepSeek 团队发布的最新开源模型,具备非常强悍的推理性能,尤其在数学、编程和推理任务上达到了与OpenAI的o1模型相当的水平
Doubao Seed 2.0 Pro 旗舰级全能通用模型,面向 Agent 时代的复杂推理与长链路任务执行场景。强调多模态理解、长上下文推理、结构化生成与工具增强执行。复杂指令与多约束执行能力突出,可稳定应对多步复杂规划、复杂图文推理、视频内容理解与高难度分析等场景。
Doubao Seed 2.0 Code 面向真实编程环境优化的 Coding 模型,能稳定调用 Claude Code 等常见 IDE 中的工具。模型特别优化了前端能力,在使用常见的前端框架时能有良好表现。模型支持使用 Skills,可以配合多种自定义技能使用。
Doubao-Seed-1.6-thinking 模型思考能力大幅强化, 对比 Doubao-1.5-thinking-pro,在 Coding、Math、 逻辑推理等基础能力上进一步提升, 支持视觉理解。 支持 256k 上下文窗口,
Doubao-Seed-1.6-flash 推理速度极致的多模态深度思考模型,TPOT低至10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,视觉理解比肩友商pro系列模型。支持 256k 上下文窗口,输出长度支持最大 16k tokens。
Doubao Seed 1.6全新多模态深度思考模型,同时支持auto/thinking/non-thinking三种思考模式。 non-thinking模式下,模型效果对比Doubao-1.5-pro/250115大幅提升。支持 256k 上下文窗口,输出长度支持最大 16k tokens。
Doubao Seed 2.0 Lite 面向高频企业场景兼顾性能与成本的均衡型模型,综合能力超越上一代Doubao-Seed-1.8。胜任非结构化信息处理、内容创作、搜索推荐、数据分析等生产型工作,支持长上下文、多源信息融合、多步指令执行与高保真结构化输出。在保障稳定效果的同时显著优化成本。
全新升级的多模态大模型,视觉理解、分类、信息抽取等能力显著提升,并重点增强了解题、视频理解等场景的任务效果。支持 128k 上下文窗口,输出长度支持最大 16K。
仅支持文本输入。在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出,在AIME 2024、Codeforces、GPQA等多项权威基准上达到或接近业界第一梯队水平。
全新升级的多模态大模型,视觉理解、分类、信息抽取等能力显著提升,并重点增强了解题、视频理解等场景的任务效果。支持 128k 上下文窗口,输出长度支持最大 16K。
Doubao Seed 2.0 Mini 面向低时延、高并发与成本敏感场景,强调快速响应与灵活推理部署。模型效果与Doubao-Seed-1.6相当。支持256k上下文、4档思考长度和多模态理解,适合成本和速度优先的轻量级任务。
Qwen3-Coder-480B-A35B-Instruct是由Qwen团队开发的混合专家(MoE)代码生成模型。该模型专为智能编码任务优化,涵盖函数调用、工具使用及代码库长上下文推理等场景。其总参数量达4800亿,每次前向传播激活350亿参数(动态激活160个专家中的8个)。
通义千问 3 系列 Max 模型 Preview 版本,相较 2.5 系列整体通用能力有大幅度提升。参数量达 1T,大幅减少知识幻觉,模型更智能。
通义千问3系列Max模型,相较2025年9月23日快照,此版本实现思考模式和非思考模式的有效融合,模型整体效果得到全方位的大幅度提升。在思考模式下,同时发布Web搜索、Web信息提取和代码解释器工具能力,使得模型在慢思考的同时,能够通过引入外部工具,以更高的准确性解决更有难度的问题。此版本为2026年1月23日快照
通义千问3 Next 80B A3B Instruct是Qwen3 Next系列中经过指令微调的对话模型,专为快速稳定的响应而优化,不输出"思考"轨迹。该模型面向推理、代码生成、知识问答和多语言应用等复杂任务,同时在对齐性和格式遵循方面保持稳健性能。相较于先前Qwen3指令微调版本,该模型显著提升了超长输入和多轮对话场景下的吞吐量与稳定性,特别适合需要最终答案而非显式思维链的RAG检索增强、工具调用和智能体工作流。
通义千问3 Next 80B A3B Thinking是Qwen3 Next系列中优先进行推理的对话模型,默认输出结构化的"思考"轨迹。该模型专为复杂多步骤问题设计,涵盖数学证明、代码合成/调试、逻辑推理和智能体规划等领域,在知识处理、推理能力、编程辅助、对齐性及多语言评估方面表现卓越。相较于先前Qwen3版本,该模型着重提升了长链思维下的稳定性与推理时的高效扩展性,并通过调优实现了对复杂指令的精准遵循,同时减少重复或偏离任务的行为。
基于Qwen3的思考模式开源模型,相较上一版本(通义千问3-235B-A22B)逻辑能力、通用能力、知识增强及创作能力均有大幅提升,适用于高难度强推理场景。
一个大规模 MoE 模型,已在超过 20 万亿个 token 上进行了预训练,并使用精选的监督微调 (SFT) 和从人类反馈中强化学习 (RLHF) 方法进行了进一步的后训练。
Qwen3系列Turbo模型,实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力以更小参数规模比肩QwQ-32B、通用能力显著超过Qwen2.5-Turbo,达到同规模业界SOTA水平。
在图像解析、内容识别以及视觉逻辑推导等任务中,表现出更强的准确性和细粒度分析能力。
拥有约70亿参数的多模态指令遵循大语言模型,擅长处理图像与文本信息,支持跨模态应用场景。
拥有约 70 亿参数的多模态指令遵循大语言模型,擅长处理图像与文本信息,支持跨模态应用场景。
Qwen3 系列的旗舰模型,在编码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等其他顶级模型相比,取得了极具竞争力的成绩。
Qwen3 系列,总参数量达 300 亿,激活参数量达 30 亿,全系列针对 MCP 调用进行了针对性的优化和增强。
Qwen3 系列,性能介于 Qwen3-235B-A22B 与 Qwen3-30B-A3B 之间,全系列针对 MCP 调用进行了针对性的优化和增强。
基于Qwen3的非思考模式开源模型,相较上一版本(通义千问3-235B-A22B)主观创作能力与模型安全性均有小幅度提升。
MiniMax-M1,世界上第一个开源的大规模混合架构的推理模型。M1在面向生产力的复杂场景中能力是开源模型中的最好一档,超过国内的闭源模型,接近海外的最领先模型,同时又有业内最高的性价比。M1有一个显著的优势是支持目前业内最高的100万上下文的输入,跟闭源模型里面的 Google Gemini 2.5 Pro 一样,是 DeepSeek R1 的 8 倍,以及业内最长的8万Token的推理输出。
GLM-4.5 是 GLM 系列的旗舰模型,拥有 3550 亿个总参数和 320 亿个活动参数。作为混合推理模型,它整合了推理、编码和代理功能,提供用于复杂推理和工具运用的思维模式,以及用于即时响应的非思维模式,可满足快速发展的代理应用日益复杂的需求。
DeepSeek-V3.2-Exp 模型,是一个实验性(Experimental)的版本。作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。
由快手大模型团队自研打造的一款图片生成大模型,支持文生图、图生图-通用垫图等类型的图片生成任务。
推理速度大幅提升,位居开源模型之首,媲美顶尖闭源模型。采用负载均衡辅助策略和多标记预测训练,性能显著增强。
Vidu Q3 Pro 能够根据文字提示生成高品质的视听视频,具备先进的音效和语音同步功能,支持 1 到 16 秒的时长,最高可达 1080p 分辨率。
Kling-V3-Omni 是全能多模态版本,将文/图生视频、视频编辑以及基于多参考图的角色和风格一致性控制,完美统一在了单一模型中。
Kling-V3 是快手最新的视频生成模型,支持生成长达15秒的高清视频,具备创新的多镜头连贯生成与原生音频能力。
Qwen3.5系列397B-A17B原生视觉语言模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。在语言理解、逻辑推理、代码生成、智能体任务、图像理解、视频理解、图形用户界面(GUI)等多种任务中,均展现出与当前顶尖前沿模型相媲美的卓越性能。具备强大的代码生成与智能体能力,对于各类智能体场景具有良好的泛化性。
Qwen3-VL系列第二大MoE模型的Instruct版本,响应速度快,支持长视频长文档等超长上下文;全面升级图像/视频理解、空间感知与万物识别能力;具备视觉2D/3D定位能力,胜任复杂现实任务。
NVIDIA Nemotron 3 Super 是一款拥有 1200 亿参数的开放式混合混合专家模型 (MoE),仅激活 120 亿个参数,即可在复杂的多智能体应用中实现最高的计算效率和精度。它基于混合 Mamba-Transformer 专家混合架构,并采用多标记预测 (MTP) 技术,与领先的开放式模型相比,其标记生成效率提升超过 50%。
该模型拥有 100 万个标记的上下文窗口,可实现长期智能体一致性、跨文档推理和多步骤任务规划。潜在混合专家 (Latent MoE) 技术能够以仅调用一位专家的推理成本调用四位专家,从而提升智能和泛化能力。在 10 多个环境下进行的多环境强化学习 (RL) 训练,在包括 AIME 2025、TerminalBench 和 SWE-Bench Verified 在内的基准测试中均取得了领先的精度。
Vidu Q3 Turbo 能够以优化的处理速度从文本生成快速的音频视频内容,支持 1 到 16 秒的时长,最高可达 1080p 分辨率。
Qwen3-VL系列第二大MoE模型的Thinking版本,响应速度快,具备更强多模态理解与推理、视觉智能体、长视频长文档等超长上下文支持能力;全面升级图像/视频理解、空间感知与万物识别能力,胜任复杂现实任务。
Vidu Q2 Turbo 在优化处理的同时实现了快速的视频生成,同时还能保持高视觉质量及动作连贯性。支持以下使用场景:图生视频、首尾帧。
Vidu Q2 Pro 能够生成专业级别的视频,具有出色的动态效果、1080p 分辨率以及增强的时序稳定性。支持以下使用场景:图生视频、首尾帧。
Vidu Q2在速度与质量之间实现了良好的平衡,支持从 360p 到 1080p 的多种分辨率。其还具有更稳定的运动表现和更强的场景理解能力。支持以下场景使用:参考图生视频、文生视频。
Vidu Q1 是一款成本效益高的视频生成模型,专为加快生成速度并保持良好质量而优化。它非常适合快速原型制作和大量视频创作。支持以下场景使用:参考图生视频、文生视频。
使用强参照控制进行精确的图像编辑,在转换主题、风格和局部细节的同时保持视觉一致性。
由快手大模型团队自研打造的文生图大模型,支持 1:1,16:9,4:3,3:2,2:3,3:4,9:16,21:9 比例的图片生成。
Qwen3.5原生视觉语言系列Plus模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。在多项任务评测中,3.5系列均展现出与当前顶尖前沿模型相媲美的卓越性能,模型效果在纯文本与多模态方面相较3系列均实现飞跃式进步。
由快手大模型团队自研打造的一款图片生成大模型,支持文生图、图生图-多图参考、图生图-风格转绘等类型的图片生成任务。
由快手大模型团队自研打造的一款图片生成大模型,支持文生图、图生图-角色特征、图生图-人物长相等类型的图片生成任务。
由快手大模型团队自研打造的图生图风格转绘大模型,生成图片分辨率与入参图相同,不支持单独设置分辨率。
可灵O1(可灵视频 O1 模型)是可灵AI推出的全球首个统一多模态视频生成模型。模型通过创新的多模态视觉语言(MVL)架构,实现视频生成、编辑与理解的无缝融合。模型支持多模态输入,如图片、视频和文字,能进行全能创作编辑,解决视频一致性难题,提供多种创意组合。用户可通过简单对话生成精准视频内容,探索无限创作可能。
可灵2.5 Turbo是可灵团队推出的AI视频生成模型,在多个方面实现了显著的升级和优化。性能提升是其核心亮点之一。模型能更好地理解复杂的因果关系和时间序列指令,生成的视频动作更加流畅自然,运镜更加稳定。在风格保持上也表现出色,无论是色彩、光影还是笔触质感,能在视频生成过程中保持高度一致性。成本降低也是2.5 Turbo的一大优势,使更多用户能以更低的成本体验到高质量的AI视频生成服务。在与顶级CG作品的对比中,可灵2.5 Turbo在某些场景下已经能达到接近甚至超越CG的水平,尤其是在动态预览方面,为CG制作提供了更高效、更快速的解决方案。
Qwen 3.6 Plus 是 Qwen Plus 系列的下一代演进版本,采用了先进的混合架构,在效率与可扩展性上均有提升。与 3.5 系列相比,它具有更强的推理能力和更可靠的智能体行为表现。在基准测试中,其性能达到或超越当前领先的业界顶尖模型。作为旗舰级预览版本,它在智能体编程、前端开发及复杂问题求解方面表现尤为出色。
注:该模型会收集提示词与生成结果数据,用于模型的改进。
MiniMax-M2.7 是一款面向自主化、真实生产力与持续进化的下一代大语言模型。该模型深度参与自身演化进程,通过多智能体协同整合先进的智能体能力,能够在动态环境中完成复杂任务的规划、执行与优化。
Trinity-Large-Preview是Arcee公司推出的一款具有前沿规模的开源权重语言模型。该模型采用4000亿参数的稀疏混合专家架构,通过4/256专家路由机制实现每标记处理仅激活130亿参数。
该模型在创意写作、故事叙述、角色扮演、对话场景及实时语音助手等任务中表现卓越,远超常规推理模型的平均水平。我们同时引入了多项新型智能体性能优化。其训练过程确保模型能够完美适配OpenCode、Cline和Kilo Code等智能体开发框架,从容应对复杂工具链调用及包含多重约束的长指令任务。
架构原生支持高达512k标记的超长上下文窗口,预览版API当前通过8位量化技术提供128k上下文服务,便于实际部署应用。Trinity-Large-Preview体现了Arcee效率优先的设计理念,以开源权重和宽松许可协议,为实际应用和实验研究提供面向生产的尖端模型。
可灵视频 2.6支持「动作控制」与「音画同出」。 这是可灵首个支持音画同步生成的视频模型,不仅能一键产出匹配语音、音效(对话/唱歌/Rap)的沉浸式视频,更支持强大的动作捕捉能力,可通过参考视频精准复刻人物肢体动作与微表情,实现对视频“视、听、动”的精准掌控。
基于Qwen3的思考模式开源模型,相较上一版本(通义千问3-30B-A3B)复杂推理类任务性能优秀,包括逻辑推理、数学、科学、代码类等具有一定难度的任务场景,指令遵循、文本理解、多语言翻译等能力显著提高。
GLM-4.5-Air 是 ZhiPu 最新旗舰模型系列的轻量级版本,同样专为以智能体为中心的应用而设计。与 GLM-4.5 一样,它采用了混合专家 (MoE) 架构,但参数规模更小。GLM-4.5-Air 还支持混合推理模式,提供用于高级推理和工具使用的“思考模式”以及用于实时交互的“非思考模式”。
基于Qwen3的非思考模式开源模型,相较上一版本(通义千问3-30B-A3B)中英文和多语言整体通用能力有大幅提升。主观开放类任务专项优化,显著更加符合用户偏好,能够提供更有帮助性的回复。
将人类语音转换为文本的系统,具备高准确率和对多种口音、背景噪音的适应能力。
将文本转化为自然流畅的语音,能够生成多种音调和风格的语音输出。