阿里云Qwen2两小时登顶HuggingFace开源大模型榜首，你怎么看？

点击上方关注 “终端研发部”设为“星标”，和你一起掌握更多数据库知识果然还是阿里牛逼！每一次的更新都没有让我们失望桶义千问作为一个开源模型，超越了美国最强的开源模型标杆Llama3-70B，甚至超过了百度文心4.0等中国闭源大模型。Qwen2发布后两小时，Hugging Face联合创始人兼首席执行官克莱门特·德朗格（Clément Delangue）发推宣布，各位，HF开源大模型榜单新的第一出来

androidstarjack

782人浏览 · 2024-06-11 16:35:53

androidstarjack · 2024-06-11 16:35:53 发布

点击上方关注 “终端研发部”

设为“星标”，和你一起掌握更多数据库知识

果然还是阿里牛逼！每一次的更新都没有让我们失望

桶义千问作为一个开源模型，超越了美国最强的开源模型标杆Llama3-70B，甚至超过了百度文心4.0等中国闭源大模型。

Qwen2发布后两小时，Hugging Face联合创始人兼首席执行官克莱门特·德朗格（Clément Delangue）发推宣布，各位，HF开源大模型榜单新的第一出来了，Qwen2-72B！Qwen-VL在全球三个多模态大语言模型评测中也登过顶；

补充一个知识点：

HuggingFace的开源大模型排行榜（Open LLM Leaderboard）是目前大模型领域最具权威性的榜单，收录了全球上百个开源大模型，测试维度涵盖阅读理解、逻辑推理、数学计算、事实问答等六大评测。

这次阿里亮瞎了大家的双眼！

根据官方披露，通义千问Qwen2系列模型大幅提升了代码、数学、推理、指令遵循、多语言理解等能力。在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等国际权威测评中，Qwen2-72B一举斩获十几项世界冠军。

Qwen1.5-110B登顶过另一个国际权威排行榜榜首；

CodeQwen1.5登顶过 Bigcode 模型排行榜

早在去年12月份，通义千问（Qwen-72B）表现抢眼，以73.6的综合得分在所有预训练模型中排名第一。

通义千问-72B登顶HuggingFace的Open LLM Leaderboard

Qwen2亮点省流总结：

- 5个尺寸的预训练和指令微调模型, 包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B；

- 在中文英语的基础上，训练数据中增加了27种语言相关的高质量数据；

- 多个评测基准上的领先表现；

- 代码和数学能力显著提升；

- 增大了上下文长度支持，最高达到128K tokens（Qwen2-72B-Instruct）。

自发布以来，Qwen系列开源模型的累计下载量突破了1600万，涌现了超过1500款基于Qwen二次开发的模型和应用。来自开发者的“催更”也在倒逼阿里云更紧迫的去迭代模型能力。

轮大模型开源能力，还是性能，还得是阿里！

希望阿里能带给我们更多的惊喜和意外，干！

回复 【idea激活】即可获得idea的激活方式
回复 【Java】获取java相关的视频教程和资料
回复 【SpringCloud】获取SpringCloud相关多的学习资料
回复 【python】获取全套0基础Python知识手册
回复 【2020】获取2020java相关面试题教程
回复 【加群】即可加入终端研发部相关的技术交流群
阅读更多
用 Spring 的 BeanUtils 前，建议你先了解这几个坑！

lazy-mock ，一个生成后端模拟数据的懒人工具

在华为鸿蒙 OS 上尝鲜，我的第一个“hello world”，起飞！

字节跳动一面：i++ 是线程安全的吗？

一条 SQL 引发的事故，同事直接被开除！！

太扎心！排查阿里云 ECS 的 CPU 居然达100%

一款vue编写的功能强大的swagger-ui，有点秀（附开源地址）


相信自己，没有做不到的，只有想不到的在这里获得的不仅仅是技术！



喜欢就给个“在看”

技术共进，成长同行——讯飞AI开发者社区

更多推荐

PHP与人工智能：结合案例与可能性探索

讯飞AI开发者社区

[论文阅读] 人工智能 + 软件工程 | 真实场景下GitHub Copilot生产力之谜：2年数据揭示客观提交无提升，开发者却直呼“好用”

讯飞AI开发者社区

上下文工程驱动智能体向通用人工智能

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运