今天,基于全国产算力训练的深度推理大模型——讯飞星火X1升级版正式上线。

这是一次全面的跃升:

1️⃣综合能力大幅提升整体效果对标OpenAI o3等国内外一流大模型最新版本效果,在翻译、推理、文本生成、数学等方面保持领先。

2️⃣幻觉治理取得显著进步幻觉问题是掣肘大模型落地应用的关键问题,升级后的星火X1在幻觉治理方面领先业界主流模型。

3️⃣多语言能力已覆盖130+语种为世界提供全栈自主可控大模型底座的“第二种选择”。

4️⃣基于星火X1底座的语音同传大模型在翻译效果、实时响应、语音听感、专业精深等方面大幅跃升,持续行业领先。

5️⃣得益于星火X1模型的升级,教育、医疗、企业应用、代码、科研等行业大模型和智能体也取得了新的进步,在复杂行业场景任务上进一步解决用户关键刚需。

6️⃣星火X1最新升级的能力可直接在讯飞星火网页版和APP进行体验,全新API已同步上线讯飞开放平台

构建可信任的AI底座,打造懂你的“全场景助手”。

接下来,我们一起来看看具体细节吧!👇

图片

此次升级,星火X1在多个任务上持续进步,综合能力再升级,特别是在翻译、推理、文本生成、数学、多语言上效果亮眼。

同时,在幻觉治理方面,对于大模型自身生成内容是否符合客观事实的事实性幻觉治理,以及在用户给定额外参考资料时大模型回复是否忠于原文的忠实性幻觉治理两方面均取得明显进步,显著提高了大模型行业落地应用的可靠性。

图片

*测试集合来源:基础能力测试集来自真实的大模型请求任务数据,来源分布包括讯飞星火APP、星火大模型API真实开发者场景、业界主流任务数据等进行滚动更新;公开测试集以数学、答题、推理、代码等外部典型Benchmarks为主;忠实性幻觉测试集由Vectara推出的大模型排行榜Hallucination Leaderboard中公开的测试集,事实性幻觉测试集来自计算机、法律、历史等30多个领域的真实知识问答数据组成。

数学答题再精进:答题准确率领衔主流大模型

今年6月,在国内大模型挑战全国高考数学一卷的评测中,星火X1-0420版本突破了140分。本次升级,数学能力再次精进。

例如,2025年全国高考数学一卷的最后一题,难住了不少大模型,星火X1-0720版本完美答对

高考数学大题

多语言能力提升:支持130+语种的交互问答等任务

多语言也是此次升级的一大亮点。

现在,星火X1已经能够支持130多种语种了,不管是日常问答、解数学题、写文章还是翻译,都能搞定,无障碍跨语言交流更进一步。

下面这个视频就展示了多种语言的各方面能力,涵盖了韩语、泰语、菲律宾语、老挝语、俄语、日语、法语、阿拉伯语、越南语、西班牙语、葡萄牙语、德语、印尼语、马来语、缅甸语等。

多语种案例(最新)

有了星火X1强大的多语言能力加持,讯飞的同传会议服务、SaaS端产品,还有讯飞翻译机、讯飞AI录音笔这些智能设备,翻译效果和用户体验都上了一个新台阶。

这背后离不开三大核心技术的突破——

强化学习技术:

提出了结合评语模型与细粒度反馈的强化学习技术,将单一标量奖励信号升级为文本级评语信号、在回复各步骤提供细粒度奖励的强化学习改进方案,有效降低了数学答题等任务的训练难度,解决了奖励稀疏痛点;

数据反写技术:

提出基于人类专家数据的通用认知任务数据反写技术,极大缓解了SFT高质量数据获取困难、人工标注数据成本过高等问题,实现了主观语言类任务文笔和风格化的显著提升;

幻觉治理技术:

提出了基于多路径采样验证及事实性约束强化学习的幻觉治理技术,在大模型思考过程及回复生成阶段实现客观问题上与标准答案的深度强对齐,大幅减少了在慢思考下的幻觉率,有效保障了文本摘要、RAG等任务的回复可靠性。

图片

个人用户体验升级

讯飞星火(APP及PC版)已上线全新升级的星火X1推理模型,为用户提供更智能、更精准、更懂你的AI助手。

围绕工作、学习及生活场景,讯飞星火持续优化“文本创作、数学解题、视频制作、会议纪要、超拟人对话、文档知识库问答、PPT生成、图片生成与代码编程”等核心功能,打造更懂你的AI助手。另外,针对大学生群体,还推出了深度定制的“科研论文辅助、简历生成与润色、面试模拟”等实用工具,助力大学生学习成长与技能提升。

点此体验 讯飞星火X1

开发者平台全面赋能

星火Agent平台则依托全开放的模型基座与工具平台架构,致力于打造“效果最佳、工具最全、服务最优”的生产级智能体平台。整合16000+MCP工具,提供Prompt对比调优与全链路测评,让开发者轻松构建智能体应用,用更短路径实现大模型应用落地。

点此体验 星火Agent平台

讯飞开放平台已同步上线全新的星火X1推理模型API,为开发者提供全球一流的大模型服务,助力千行百业智能化升级。通过AI前沿技术与产业需求融合,引领开发者围绕“办公协作、营销推广、智能硬件、文案策划、服务质量分析、企业培训、信息处理”等场景,为企业打造新质生产力提供以智能驱动为核心的可持续增长引擎。

点此体验 讯飞星火X1 API

图片

基于星火X1底座的语音同传大模型也全面升级,持续保持领先,在翻译效果、实时响应、语音听感、专业精深四大维度实现了显著进步,并且具备语种免切换能力。

图片

图片

*测试集合来源:测试集合是根据讯飞翻译机、讯飞同传等真实业务场景随机采样构建的测试集;测试指标为翻译综合质量得分(分值0~100分)

母语般交流,翻译综合质量超90分

在翻译效果上,基于内容完整度、信息准确度、语言质量等多方面主客观评价计算翻译综合质量得分(分值0~100分),新版本同传大模型效果较2025年1月首发版本提升20%,特别是有效消除了传统同传的碎片化割裂感,交流如母语般顺畅。在多人会议等复杂场景中英双向翻译得分可达80分以上,单人演讲翻译得分超90分,显著领先业界。

极致响应,首响快至2秒

响应速度实现重大突破,在保证翻译质量的基础上,中英同传的首字响应时间从首发版本的5秒缩短到最快2秒,达到了人类高阶同传的行业标准要求。即使在复杂会议或专业研讨这些高难度场景中,系统也能保持准确性和稳定的实时响应能力。

边译边说,语音听感更拟人更舒适

业界首创基于文本自适应调度的流式语音合成技术,让“译”与“说”无缝耦合,在语音听感上的自然度、拟人度和舒适度显著跃升。

专业精深,高壁垒行业率先可用

针对医疗、制造业、金融等高壁垒专业领域进行深度优化,覆盖超过8万个垂直领域专业词汇,专业内容翻译得分突破90分,在业内率先达到可用水平,专业内容和完整性方面甚至超过了一般同传译员,为跨国医疗合作、国际制造业交流等专业场景提供了可靠的技术支撑。

无缝交流,语种免切换

具备智能双语识别功能,能够自动识别中英文混合发言并实时切换翻译方向。在双边会议、国际商务洽谈等中英交替的场景中,参会者可以随时用母语发言,有效避免了因语言切换操作而造成的交流中断。

全系产品上线,无障碍沟通

最新语音同传大模型已经在讯飞双屏翻译机2.0、讯飞AI录音笔、讯飞同传等产品中全面上线。

同时,作为2025世界人工智能大会的“翻译合作伙伴”,科大讯飞的系列AI翻译产品将为大会提供“无障碍沟通”服务。

图片

“能用”和“好用”之间,差的是技术深度与落地广度。新版本的星火X1底座,已经全面赋能了教育、医疗、企业应用、代码、科研等行业大模型和智能体,在复杂行业场景任务上进一步解决用户关键刚需

教育:让学习更个性,让教学更高效

用于个性化教与学全场景的作业批改、个性化推荐、答疑辅学、科普问答、口语学习等各项能力显著提升,持续保持业界领先,推动应用成效显著提升。

图片

*测试集合来源:测试集合基于备授课、考试、作业、科普、学习等真实场景数据随机抽样。

面向学生自主学习的科大讯飞AI学习机:

AI 1对1精准学、AI 1对1答疑辅导、AI 1对1互动课、奇思妙问科普知识问答、英语口语学习等效果持续提升,通过个性化、启发式、互动式提升孩子学习兴趣和学习效率,同时为孩子智能生成个性化的学习方案。

面向教师备授课的星火教师助手:

教案和课件生成合理性适切性大幅提升,更接近优秀教师的水平,同时能够提供更富创见的教学思路与活动设计,有效激发学生的好奇心与探究欲,有助于教师培养学生的高阶思维能力。

面向校内作业和考试的星火智能批阅机:

实现“即扫即批即留痕”,数学主观题步骤批改、英语作文评分批改及个性化评语效果显著,助推全学科全题型批改迈上新台阶。

面向英语口语学习和模考的E听说:

率先实现“检错-评分-反馈-指导-提升”的英语口语学习闭环,为英语学科的课堂教学、个人自主练习提供更加有效的反馈和指导。

医疗:让诊疗更专业,让健康管理更主动

星火X1升级助力医疗领域各项能力全面提升,在全科辅助诊断、体检报告解读、健康咨询、导医导诊等通用医疗任务上持续保持业界大幅领先。

图片

*测试集合来源:测试集合来自基层诊疗、医院病历、互联网问诊等真实场景数据随机抽样。

服务居民健康—

星火医疗大模型的体检报告解读、健康咨询已经应用于AI健康助手“讯飞晓医”APP,实现从“被动咨询”迈向“主动干预”新阶段。

出院患者康复——

星火医疗大模型赋能的全程患者管理平台,人机协同辅助医生患者管理效率相比传统患者管理方式目前已经提升10倍以上。

医生辅助诊疗——

实现从基层全科到院端专科、从门诊到住院的快速技术演进,在四川大学华西医院、北京安贞医院、中国科学技术大学附属第一医院等多家头部医院试点应用,核心效果保持业界引领。

同时,星火医疗大模型与三甲医院主治医师进行了双盲对比评测,结果表明星火医疗大模型在心血管内科、儿科、呼吸内科三个科室的综合诊疗能力总体达到三甲医院主治医师水平。模型给出的病因分析及诊断推荐在准确性和专业性上已经超过主治医师水平同时在可读性和完整性方面具有明显优势,在实际应用中可增强患者对诊疗建议的依从性。

图片

*测试集合来源:测试集合来自心血管内科、儿科、呼吸内科真实场景数据随机抽样。

图片

*评测说明(回溯性研究):构建心血管内科、儿科、呼吸内科真实临床诊疗病历数据,组建对应专科4位三级甲等医院主治医师团队,再由对应专科2名主任医师对星火医疗大模型和主治医师回复结果进行双盲评测。

企业:让知识更智能,让场景应用更深入

对于大模型企业落地深度应用,将企业存量的知识通过智能零采编的方式为大模型所使用是激活企业知识应用的重要技术。结合个人知识库、企业知识库和互联网信息进行知识融合,辅助行业研究人员开展政策研究、商情分析、态势感知,将大幅提升企业经营决策效率。

多模态知识零采编系统升级,加速支撑企业知识应用

面向企业知识工程的多模态知识零采编系统,目前能够针对复杂的长文档自动构建语义图谱,进而实现行业推理能力提升15%,多模态融合问答能力提升30%,显著助力行业高质量数据集构建,在规章制度推理、金融产品推理等复杂场景任务完成率提高10%以上。

多个分析型智能体的协同,高效支撑行业深度分析

面向行业深度分析的星火行业大师产品,通过混域检索生成技术,能够对个人知识、企业私域知识与互联网知识等多级知识快速完成信息整合,结合宏观经济分析智能体、产业链诊断智能体及竞争格局预测智能体等多个分析型智能体有效协同,打造了专业的研究报告生成能力,目前在产业趋势预测的核心结论采纳率突破70%。面向金融、能源、制造等复杂领域的实践表明,通过与资深分析师的紧密协作,可以在1小时内完成复杂行业分析工作,大幅提升了工作效率。

图片

*测试集合来源:测试集合来自认知智能全国重点实验室与多家企业联合构建的实用场景测试集。

项目级代码理解与生成能力持续提升,各行业取得深度应用

面向软件研发提质增效的星火代码大模型有效提升了项目级代码理解与生成、单元测试智能体、WEB应用对话式编程等核心任务表现。目前,星火代码大模型已深度赋能金融、制造、能源、科技等100余家关键领域客户,在典型应用场景中驱动研发效率提升超过50%,助力企业在数字时代赢得竞争新优势。

图片

*测试集合来源:测试集合来自认知智能全国重点实验室构建的代码实用场景测试集。


以“可信”与“更懂你”为目标,构建“解放生产力、释放想象力”的坚实底座。

星火X1的每一次升级,都是为了能够成为更懂你的AI助手。

未来,我们将继续让AI走进教育、医疗、工作和生活的每一个角落,用科技点亮美好生活

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐