以DeepSeek模型为代表的MoE技术路线,正不断突破通用大模型的效果上限。其创新的PD优化与大EP推理方案,推动大模型迈向“高性能、低成本、强普惠”的新阶段。

 

事实上,早在1991年,两位人工智能界的泰斗Michael Jordan与Geoffrey Hinton在论文《Adaptive Mixture of Local Experts》中,就首次提出了MoE框架。随着大模型应用场景愈加复杂和垂直,大模型参数增大的同时,消耗的算力资源和时间成本也随之增加。凭借“稀疏激活、低资源消耗、高模型容量”的优势,MoE逐渐成为大模型开发者的新宠。

DeepSeek模型的成功实践,为MaaS平台厂商指明了方向,也带来了挑战:如何在提供高性能大模型推理服务的同时,实现对成本的极致控制?四月份,科大讯飞技术团队通过深度解析DeepSeek-V3 / R1 推理系统成本,发现除了极致的推理性能及吞吐优化外,大模型成本与算力资源有效利用率、首响用户体验等体系化的综合策略紧密关联。

基于以上洞察,讯飞星辰MaaS平台成功复现了生产级PD(生产部署优化)+大EP(大规模跨节点专家并行),实现了高性能的DeepSeek-R1-0528和DeepSeek V3上线:

💻 万路并发保障:大规模并发场景下,系统稳定、延迟低,用户体验更流畅;

 

🚀 请求级指标提升 :TTFT(首Token延迟)性能提升30%,TPOT(单Token生成时间)性能提升35%,显著减少延迟,降低用户「等候感」;

 

☁ 弹性混合云架构:支持多源异构算力调度,灵活应对流量波峰波谷。

新版本DeepSeek-R1-0528上线:

深度思考与推理能力再上新台阶

 

讯飞星辰 MaaS 平台始终致力于打造高效、稳定、低成本的大模型推理服务;深度求索(DeepSeek)R1-0528版本已经在5月30日接入讯飞星辰 MaaS 平台;深度求索(DeepSeek)R1-0528版本迭代解析:

 认知智能突破性升级

深度推理能力重构 • 通过算法架构升级,显著提升复杂问题的分解能力和多步骤逻辑推演水平,在开放式问答场景中实现推理路径可追溯性达92.3% • 引入动态知识图谱融合机制,使跨领域关联推理准确率提升37%,在法律咨询、科研论证等场景展现专家级分析能力

核心能力矩阵优化

数理逻辑引擎强化 • 数学建模能力突破微积分级应用,新增几何证明自动推导模块,在国际数学评测集GSM8K上的准确率达96.8% • 编程能力实现全栈式进化,支持Python/Java/C++多语言混合开发,代码规范性通过SonarQube检测率提升至94.2%;多模态交互革新 • 前端工程能力升级,HTML/CSS/JS代码生成完整度提升40%,通过W3C标准验证率达89% • 角色扮演系统新增情感记忆模块,在客服、教育等场景实现20轮以上对话一致性保持

可靠性重大突破

幻觉抑制体系 • 构建五层事实校验网络,通过知识溯源+逻辑链验证+交叉验证机制,将事实性错误率降至0.8%以下 • 引入实时反馈学习系统,建立2000万条动态修正知识库,使模型输出可信度达到人类专家水平

创作能力进阶

文本生成质量跃升 • 采用分层注意力机制,使长文本结构误差率下降65%,在学术论文生成任务中实现摘要-正文-参考文献的全自动合规编排 • 创意写作模块新增风格迁移算法,支持在保持内容准确性的同时,实现科技文献与文学创作的模式自由切换

本次更新通过128项核心技术指标优化,在保持原有优势的基础上,实现了从工具型AI到认知智能体的跨越式进化,为金融分析、科研辅助、软件开发等专业场景提供更可靠的智能支持。

高性能DeepSeek V3上线:

万路并发无压力,批量处理享半价

讯飞星辰 MaaS 平台始终致力于打造高效、稳定、低成本的大模型推理服务。目前平台上提供星火全系列,以及DeepSeek、Qwen3等共50+个行业主流模型。在对DeepSeek V3推理系统成本进行深度分析基础上,实现了DeepSeek V3推理性能的阶跃:

关键指标对齐官网,万路并发流畅响应

实现生产级PD+大EP复现,极致压榨硬件性能,TTFT、TPOT等关键指标对齐DeepSeek官网,其中TTFT性能提升30%,TPOT性能提升35%。大规模生产集群吞吐再翻倍,即使在万级并发压力下,依然能保持低延迟与流畅响应。

Batch API升级,高效低价数据处理

重点升级了支持DeepSeek V3的Batch API,为需要处理大规模数据且非实时场景的任务,如:企业级数据分析、内容生产、客户反馈处理等,提供高性价比推理服务且无并发限制,可实现价格比传统调用降低50%,并在24小时内完成任务处理

弹性混合云架构,流量洪峰更有保障

星辰MaaS平台自研了弹性多源异构混合云架构,以自建算力为中心扩展接入多个混合算力,提供稳定可靠的算力保障用户的流量洪峰,确保服务的稳定性。

 

模型工具升级:

精调方案随心用,500+开源模型自主托管

为进一步降低模型定制门槛,助力开发者快速创新,在提供高性能开源模型的同时,近期,讯飞星辰MaaS平台实现了多项功能上新:

精调方案共享:开放数据分类、表格问答、剧本生成等多个精调方案,零门槛上手,开箱即用,可快速落地在真实业务场景中。

 

图片

▲ 星辰MaaS平台提供了多种精调方案

以营销创作脚本为例,用户只需输入推广场景、产品卖点、脚本风格、面向人群等资料,即可实现从「创意构思」到「爆款脚本」的全链路智能化生产。

Qwen3全系上线:继率先支持Qwen3旗舰模型Qwen3-235B-A22B和Qwen3-30B-A3B推理之后,目前Qwen3全系模型均已在星辰MaaS平台上线,支持推理/训练,为开发者提供了更为多元的模型选择空间。

开放自主托管渠道:支持开发者自主托管开源模型,包括HuggingFace提供的开源模型(500+)及平台预置模型,均可一键部署,即用即销,进一步降低了开发成本,使开发者和企业得以专注于业务逻辑创新,推动AI创新应用落地。

 

图片

▲ 开发者可在“模型选择”中搜索HuggingFace提供的开源模型平台预置模型

秉承开放开源理念,下一步,星辰MaaS平台将开源面向大规模生产级的支持PD调度的集群镜像方案,实现拓扑感知调度,兼容SGlang、自研等多种推理框架、自带多源异构弹性混合云调度,支持训推一体潮汐调度,进一步降低多模型、多算力、高并发的大模型集群部署复杂度。

PC端访问讯飞星辰MaaS平台官网https://maas.xfyun.cn/,即刻体验高性能DeepSeek V3。

 

咨询入口:

给前来咨询用户高性价比服务

关于讯飞星辰MaaS平台:

低门槛一站式大模型精调训练平台,助力企业高效构建专属大模型。

开箱即用,上手快:覆盖数据工程、精调训练、推理服务等全生命周期工具链,提供开箱即用、即用即销的平台服务能力。

模型丰富,应用快:支持星火全系列并兼容DeepSeek、Qwen3等,共50+行业主流大模型版本的微调与服务,微调到应用的工期从几天降低到小时级。

成熟训推框架,高可用:构建开箱即用的训推工具与框架,支持lora、full sft等多种训练方式,定制模型按需托管,服务可用性99.95%。

算力利用率高,成本低:实现基于弹性混合云训推算力的潮汐调度,支持即用即销的大模型自主托管推理模式,持续提升算力资源利用率,实现大模型推理成本持续降低。

针对有大量调用需求的开发者和企业,讯飞星辰MaaS平台提供了专人对接的定制化方案!

咨询入口:https://www.xfyun.cn/botIm

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐