OpenBayes 一周速览丨李沐团队开源语音大模型Higgs Audio V2,扩展多语言对话等功能;MegaScience数据集上线,含125万实例
GPT-OSS-20b 参数约为 210 亿,运行时仅需 16GB 内存,在常见基准测试里,其表现与 o3-mini 相当,这种轻量化设计使得它在边缘设备上也能轻松部署,无论是在本地推理,还是在对基础设施要求严苛的快速迭代场景中,都能发挥出色的效能。Neta Lumina 基于上海人工智能实验室 Alpha-VLLM 团队开源的 Lumina-Image-2.0,利用海量、高质量的二次元风格图像及
公共资源速递 This Weekly Snapshots !
5 个公共数据集:
* B3DB 生物基准数据集
* PolyMath 数学推理数据集
* SongEval 音乐评估数据集
* MegaScience 科学推理数据集
* WebInstruct-verified 多领域推理数据集
4 个公共模型:
* gpt-oss-20b
* gpt-oss-120b
* Qwen3-30B-A3B-Instruct-2507
* Qwen3-Coder-30B-A3B-Instruct
14 个公共教程:
视频处理 * 2
音频生成 * 2
AI4S * 3
图像生成 * 3
大模型部署 * 4
访问官网立即使用:openbayes.com
公共数据集
1. B3DB 生物基准数据集
B3DB 数据集包含 8,865 个独立有机小分子数据,其中 1,058 条数据附有连续型 logBB(脑/血浓度比的对数),可直接用于回归建模。其余 7,807 条数据以 logBB≥−1 为统一阈值,被标记为 4,956 个 BBB+(可通透)和 2,851 个 BBB−(不可通透),用于分类任务。
* 在线使用:
https://go.openbayes.com/8IBmE
2. PolyMath 数学推理数据集
PolyMath 数据集包含 500 道高质量的数学推理问题,且每种语言有 125 个问题。其使用了思维深度和知识广度 2 个核心维度,定义并划分数学难度,跨越 4 个级别,从 K-12 到奥林匹克竞赛和高等前沿数学。
* 在线使用:
https://go.openbayes.com/SQYsa
数据集语种分布
3. SongEval 音乐评估数据集
SongEval 数据集包含 2,399 首歌曲(含人声和伴奏),由 16 位专家评分者在 5 个感知维度(整体连贯性、记忆性、发声呼吸和乐句的自然性、歌曲结构的清晰度、整体音乐性)上进行了注释,涵盖约 140 小时的高品质音频,包含中英文歌曲及 9 种主流流派。
* 在线使用:
https://go.openbayes.com/za7ZH
数据集结构图
4. MegaScience 科学推理数据集
MegaScience 数据集包含 125 万实例,旨在支持自然语言处理(NLP)和机器学习模型,特别是在科研领域的文献检索、信息提取、自动摘要和引用分析等任务。
* 在线使用:
https://go.openbayes.com/1Ldii
数据集结构图
5. WebInstruct-verified 多领域推理数据集
WebInstruct-verified 数据集包含约 23 万道推理问题,涵盖多种答案格式,包括选择题、数值表达式数据集的均衡领域分布。该数据集主要涵盖了数学、物理、化学、金融等学科,以及其他各种人文和社会科学领域。
* 在线使用:
https://go.openbayes.com/slsTR
数据集领域分布
公共模型
1.gpt-oss-20b
* 发布机构:OpenAI
GPT-OSS-20b 参数约为 210 亿,运行时仅需 16GB 内存,在常见基准测试里,其表现与 o3-mini 相当,这种轻量化设计使得它在边缘设备上也能轻松部署,无论是在本地推理,还是在对基础设施要求严苛的快速迭代场景中,都能发挥出色的效能。
* 在线使用:
https://go.openbayes.com/zpBxD
2.gpt-oss-120b
* 发布机构:OpenAI
GPT-OSS-120b 拥有约 1170 亿参数,在核心推理基准测试中,其推理性能与 OpenAI 自家的 o4-mini 不相上下,且每个 token 仅启用 51 亿参数,便能在单个 80GB GPU 上实现高效运行,这一成果极大地优化了计算资源的利用效率。
* 在线使用:
https://go.openbayes.com/Q8bBk
3.Qwen3-30B-A3B-Instruct-2507
* 发布机构:阿里通义千问
Qwen3-30B-A3B-Instruct-2507 采用 128 专家、8 激活专家的 MoE 架构,并通过 GQA 把键值头压缩到 4 个,使得原生上下文长度可扩展至 256 K token,能够一次性处理超长文档而几乎不丢失信息。在公开基准测试中,该模型在代码、数学、多语言理解与指令遵循等任务上已追平或超越 Gemini-2.5-Flash 非思考版以及 GPT-4o 等闭源对手,而激活参数规模却仅为它们的十分之一左右。
* 在线使用:
https://go.openbayes.com/ZvJ8R
4.Qwen3-Coder-30B-A3B-Instruct
* 发布机构:阿里通义千问
Qwen3-Coder-30B-A3B-Instruct(Flash)采用 128×8 的稀疏专家结构,推理时只激活 3.3B 参数,却能在多项代码任务上逼近甚至超越完整 30B 级别的稠密模型,因此被社区称为「甜品级」编程助手——一块 GeForce RTX 4090 就能跑满 6-bit 量化版,显存占用不到 14 GB。为了应对仓库级开发场景,模型原生支持 256 K token 上下文,并通过 YaRN 技术平滑扩展到 1 M token,这意味着整份百万级代码库可以一次性喂进显存,无需切片或检索。
* 在线使用:
https://go.openbayes.com/vOGml
公共教程
视频处理 * 2
1.LiveCC:实时视频解说大模型
LiveCC 是一个专注于大规模流式语音转录的视频大语言模型项目,该项目旨在通过创新的视频 - 自动语音识别(ASR)流式方法训练出首个具备实时评论能力的视频大语言模型,在流式和离线基准测试中均达到了当前最优(SOTA)水平。
* 在线运行:
https://go.openbayes.com/jh1Ur
项目示例
2. Wan2.2:开放式高级大规模视频生成模型
Wan-2.2 模型首次引入混合专家(MoE)架构,有效提升生成质量和计算效率,同时首创电影级美学控制系统,能精准控制光影、色彩、构图等美学效果。教程使用的 5B 参数紧凑视频生成模型,支持文本和图像生成视频,能在消费级显卡上运行,基于高效的 3D VAE 架构,实现高压缩率和快速生成高清视频的能力。
* 在线运行:
https://go.openbayes.com/XjjsP
项目示例
音频生成 * 2
1. MOSS:文本到口语对话生成
MOSS-TTSD 能够将两位说话者之间的对话脚本转换为自然、富有表现力的对话语音。该模型支持语音克隆和长单段语音生成,使其成为 AI 播客制作的理想选择。
* 在线运行:
https://go.openbayes.com/EgJz8
项目示例
2. Higgs Audio v2:重新定义语音生成的表达能力
Higgs Audio V2 在 Seed-TTS Eval 和 Emotional Speech Dataset(ESD)等传统 TTS 基准测试中获得了最先进的性能。此外,该模型还展示了以前系统中很少见的功能,包括旁白时的自动韵律适应、多语言自然多说话者对话的零样本生成、克隆声音的旋律哼唱以及同时生成语音和背景音乐。
* 在线运行:
https://go.openbayes.com/iuFdI
项目示例
AI4S * 3
1. Aeneas 模型:古罗马铭文修复 Demo
Aeneas 用于拉丁与古希腊铭文的文本修复、地理归因与年代归因。该模型基于多模态 Transformer 解码器(torso)+ 任务专用 heads 的混合架构,可在字符级分辨率下同时处理文本与图像,实现长上下文、任意长度残损铭文的修复与归因,计算与内存效率随上下文长度线性扩展。该模型的发布标志着数字碑铭学进入全新时代,其在古代文本修复、地理/时间归因、历史研究辅助等领域的潜力巨大,有望加速科学发现与跨学科应用,为历史学家与数字人文研究者提供了可解释、可量化的铭文分析工具。
* 在线运行:
https://go.openbayes.com/rcdwQ
项目示例
2. 内外向人格预测:从数据洞察到稳健集成全流程
Introvert Extrovert EDA Ensemble RSKF 围绕一个「区分内向-外向人格」的二元分类赛题展开,完整呈现了从数据探索到模型集成、再到稳健验证的端到端流程。作者首先对原始数据集进行了细致的探索性数据分析(EDA),揭示了两类人群在答题模式、行为特征上的差异;随后构建了一套基于 Repeated Stratified K-Fold(RSKF)的集成学习框架,将多个基模型(XGBoost、LightGBM、CatBoost 等)的预测结果通过投票或加权平均的方式融合,以减小方差、提高稳健性。
* 在线运行:
https://go.openbayes.com/BsI3z
3. MediCLIP:采用 CLIP 进行小样本医学图像异常检测
MediCLIP 仅需极少数正常医学图像即可展现出顶尖的异常检测性能。该模型集成了可学习的提示、适配器以及逼真的医学图像异常合成任务。
* 在线运行:
https://go.openbayes.com/Jl2HU
项目示例
图像生成 * 3
1. Ovis-U1-3B:多模态理解与生成模型
Ovis-U1-3B 模型集成多模态理解、文本到图像生成和图像编辑三种核心能力,基于先进的架构和协同统一训练方式,实现高保真图像合成和高效的文本视觉交互。在多模态理解、生成和编辑等多个学术基准测试中,Ovis-U1 均取得领先的成绩,展现出强大的泛化能力和出色的性能表现。
* 在线运行:
https://go.openbayes.com/z65Rx
项目示例
2. Qwen-lmage:具有高级文本渲染能力的图像模型
Qwen-Image 模型在文本渲染领域实现突破,支持中英双语多行段落级高保真输出,对复杂场景与毫米级细节均具备精准还原能力。该模型通过多任务协同训练范式,在图像编辑中实现像素级一致性,确保主体、光影、纹理全程零漂移。可一键生成写实、动漫、赛博朋克、科幻、极简、复古、超现实、水墨等数十种风格,并支持风格迁移、元素增删、细节增强、文字重绘、姿态重设等全维度精细操作。
* 在线运行:
https://go.openbayes.com/JCmE3
项目示例
3. Neta Lumina:高品质二次元风格图像生成模型
Neta Lumina 基于上海人工智能实验室 Alpha-VLLM 团队开源的 Lumina-Image-2.0,利用海量、高质量的二次元风格图像及多语种标签数据,使模型具备强大的需求理解与诠释能力,非常适合插画、海报、分镜、角色设计等场景。
* 在线运行:
https://go.openbayes.com/lF3h1
项目示例
大模型部署 * 4
1. 一键部署 Qwen3-30B-A3B-Instruct-2507
Qwen3-30B-A3B-Instruct-2507 是 Qwen3-30B-A3B 的非思考模式的更新版本。它的亮点在于仅激活 30 亿(3B)参数就能展现出与谷歌的 Gemini 2.5-Flash(非思考模式)和 OpenAI 的 GPT-4o 相媲美的超强实力,这标志着在模型效率和性能优化上的一次重大突破。
* 在线运行:
https://go.openbayes.com/h3EEI
项目示例
2. 一键部署 Qwen3-Coder-30B-A3B-Instruct
Qwen3-Coder-30B-A3B-Instruct 在代理编码、代理浏览器使用和其他基础编码任务上的开放模型中具有显着的性能。能够高效地处理多种编程语言的编码任务。其强大的上下文理解和逻辑推理能力使其在复杂项目开发和代码优化中表现出色。
* 在线运行:
https://go.openbayes.com/YKTDS
项目示例
3. 使用 vLLM + Open WebUl部署 EXAONE-4.0-32B
EXAONE-4.0 模型融合通用自然语言处理能力与经 EXAONE Deep 验证的高级推理能力,在数学、科学及编程等高难度领域实现突破。该模型支持 MCP 与函数调用功能,为 Agentic AI 提供技术基础,其发布的 32B 专业模型,已通过六项国家专业证照笔试,其全球最新高难度基准测试成绩如下:知识推理:MMLU-Pro 81.8 分,编程能力:LiveCodeBench v6 66.7 分,科学素养:GPQA-Diamond 75.4 分,数学能力:AIME 2025 85.3 分。
* 在线运行:
https://go.openbayes.com/coLcJ
项目示例
4. DiffuCode-7B-cpGRPO:基于掩码扩散技术的代码生成模型
DiffuCoder-7B-cpGRPO 旨在通过迭代式降噪的方式进行代码的生成与编辑,而非传统的从左到右的自回归(Autoregressive)生成。DiffuCoder-7B-cpGRPO 的一个显著特点是它不严格依赖从左到右的生成方式来生成代码,这使得它在主流编程跑分测试中,相较于其他基于扩散的编程模型,得分提高了 4.4%。这种非顺序性的代码生成能力,使其在代码编辑和生成任务中展现出更高的灵活性和效率。
* 在线运行:
https://go.openbayes.com/fjzWv
项目示例
更多推荐
所有评论(0)