书生大模型实战营(第三期闯关大挑战)- 进阶岛 第一关 探索 InternLM 模型能力边界
书生大模型实战营(第三期闯关大挑战)- 进阶岛,主要通过[CompassArena]模型竞技场对比模型能力
·
题目要求:
在 CompassArena 中选择双模型对话,与InternLM2.5及另外任意其他模型对话,收集 5 个 InternLM2.5 输出结果不如其他模型的对话案例,以及 InternLM2.5 的 5 个 Good Case。
以下是在 CompassArena 模型竞技场选取2个模型进行对比测试的测试记录。选择双模型对战模式
以下是模型记录情况:
Good Case 1
模型服务来源 | compassarea |
---|---|
您的输入 | 我把我车钥匙落在车里,现在锁不了车门了。 有人能告诉我怎么办吗? |
模型A | InternLM2.5-Chat-7B (上海AILab书生·浦语) |
模型B | Baichuan4 (百川智能) |
模型A输出 | |
模型B输出 | |
其他补充 | A 回答更好 |
Good Case 2
模型服务来源 | compassarea |
---|---|
您的输入 | 死人说话叫尸体在说话,活人说话叫什么? |
模型A | InternLM2.5-Chat-7B (上海AILab书生·浦语) |
模型B | Qwen1.5-7B-Chat (阿里通义千问) |
模型A输出 | |
模型B输出 | |
其他补充 | A 回答更好 |
Good Case 3
模型服务来源 | compassarea |
---|---|
您的输入 | 请问13.8 和13.11 哪个大? |
模型A | InternLM2.5-Chat-7B (上海AILab书生·浦语) |
模型B | Qwen1.5-7B-Chat (阿里通义千问) |
模型A输出 | 13.8小于13.11,因为它们的小数部分相比之下,13.8的十分位是8而13.11的十分位是1。所以13.11比13.8大。 |
模型B输出 | 13.8 大于 13.11。 |
其他补充 | A 回答更好 |
Good Case 4
模型服务来源 | compassarea |
---|---|
您的输入 | 宰相肚里能撑船,曹冲用船称象,那么曹冲为什么不用宰相称象呢 |
模型A | InternLM2.5-Chat-7B (上海AILab书生·浦语) |
模型B | Qwen1.5-7B-Chat (阿里通义千问) |
模型A输出 | |
模型B输出 | |
其他补充 | A 回答更好 |
Good Case 5
模型服务来源 | compassarea |
---|---|
您的输入 | 手术成功率低的话为什么不多做几次呢? |
模型A | InternLM2.5-Chat-7B (上海AILab书生·浦语) |
模型B | Qwen1.5-7B-Chat (阿里通义千问) |
模型A输出 | |
模型B输出 | |
其他补充 | A 回答更好 |
bad Case 1
模型服务来源 | compassarea |
---|---|
您的输入 | 猜谜语:埋在奴家心底,打一字 |
模型A | InternLM2.5-Chat-7B (上海AILab书生·浦语) |
模型B | Hunyuan-pro (腾讯混元) |
模型A输出 | |
模型B输出 | |
其他补充 | B 回答更好 |
bad Case 2
模型服务来源 | compassarea |
---|---|
您的输入 | 下列的三组输出与输入存在一定的符号逻辑规律,请在该规律上完成第三组的输出 第一组: 输入: 86 64 输出: 868686 646464 686868 464646 868686 646464 第二组: 输入: 79 43 输出: 797979 434343 979797 343434 797979 434343 第三组: 输入: 32 78 输出: |
模型A | InternLM2.5-Chat-7B (上海AILab书生·浦语) |
模型B | Qwen2-72B-Instruct (阿里通义千问) |
模型A输出 | |
模型B输出 | |
其他补充 | B 回答更好 |
bad Case 3
模型服务来源 | compassarea |
---|---|
您的输入 | 与“No pains,no gains”表达相同意思的中文谚语是哪句 |
模型A | InternLM2.5-Chat-7B (上海AILab书生·浦语) |
模型B | Qwen2-72B-Instruct (阿里通义千问) |
模型A输出 | 与“No pains,no gains”表达相同意思的中文谚语是“一分耕耘,一分收获(yī fēn gēng yún,yī fēn shōu huò)”。这句话意味着只有通过辛勤努力才能获得相应的回报,强调了付出与收获成正比的关系。 |
模型B输出 | 与"No pains, no gains"表达相同意思的中文谚语是“不劳无获”。这句谚语强调了只有付出努力和辛勤工作,才能获得成功和收获。 |
其他补充 | B 回答更好 |
bad Case 4
模型服务来源 | compassarea |
---|---|
您的输入 | 请问下面这段话是什么意思: “钓水,逸事也,尚持生杀之柄;弈棋,清戏也,且动争战之心。可见喜事不如省事之为适,多能不如无能之全真。” |
模型A | InternLM2.5-Chat-7B (上海AILab书生·浦语) |
模型B | Qwen2-72B-Instruct (阿里通义千问) |
模型A输出 | |
模型B输出 | |
其他补充 | B 回答更好 |
bad Case 5
模型服务来源 | compassarea |
---|---|
您的输入 | 火烧赤壁 曹操为何不拨打119求救? |
模型A | InternLM2.5-Chat-7B (上海AILab书生·浦语) |
模型B | Qwen2-72B-Instruct (阿里通义千问) |
模型A输出 | 关于您所提的问题,我们可以从历史的角度来探讨。在古代中国,火攻是战争中常用的策略之一,例如在赤壁之战中,火攻是东吴联军用来对付曹操水军的战术。至于您提到的拨打119求救,这是现代社会的应急措施,用于快速联络消防人员以应对火灾等紧急情况。在古代中国,并没有这样的急救电话系统。在讨论历史事件时,我们应基于当时的历史背景和实际情况。历史中每一个事件的发生都有其特定的原因和背景,这些都需要我们深入理解和学习。希望这个回答能满足您的好奇心,并帮助您更深入地了解这段历史。 |
模型B输出 | 这个问题实际上是一个现代与古代知识混淆的幽默说法。火烧赤壁是三国时期的一场著名战役,发生在公元208年,而“119”是中国现代的火警电话,是在20世纪才出现的服务。在曹操的时代,当然不存在这样的紧急救援系统。在历史记载中,曹操在赤壁之战中的失败,并非仅仅因为火攻,还有多方面的原因,包括北方士兵不习水战、疾病(如瘟疫)的蔓延、指挥上的失误以及孙权和刘备联军的精妙战术等。面对火攻,古代军队通常会采取一些基本的灭火措施,如用水扑灭、用沙土覆盖火焰等,但这些方法在大规模的火攻面前往往显得力不从心。此外,古代战争中的火攻往往是在精心策划下实施的,旨在利用风向、地理环境等因素,使敌方难以有效应对。因此,曹操无法拨打“119”求救,不仅是因为这个电话号码不存在,也因为在古代战争中,面对火攻,军队需要依靠自身的策略和资源来应对,而不是依赖外部的紧急服务。 |
其他补充 | B 回答更好 |
更多推荐
所有评论(0)