我的大模型应用到底行不行？LLM应用评估工具Ragas完整指南

Ragas是一个专业的大语言模型(LLM)应用评估工具包，提供端到端的解决方案。它能自动生成测试数据，支持多维度评估指标(如准确性、相关性、忠实度等)，并与LangChain等主流框架无缝集成。Ragas解决了传统评估方法的主观性、测试数据匮乏等问题，通过数据驱动的方式持续优化LLM应用性能。其核心功能包括智能测试数据生成、批量评估执行、以及生产环境下的性能追踪。开发者可以快速安装并通过Pytho

布朗XD

1292人浏览 · 2025-07-04 16:42:42

布朗XD · 2025-07-04 16:42:42 发布

我的大模型应用到底行不行？LLM应用评估工具Ragas完整指南

🚀 Ragas简介

什么是Ragas？

Ragas是一个专门用于评估和优化大语言模型（LLM）应用的综合性工具包。它解决了AI应用开发中的核心痛点：如何客观、准确地评估LLM应用的性能。

核心设计理念

数据驱动评估：用客观的量化指标替代主观的"感觉检查"
端到端解决方案：从测试数据生成到评估执行的完整流程
生产级优化：支持基于真实数据的持续改进

主要解决的问题

主观评估问题：传统的人工评估耗时且不一致
测试数据匮乏：缺乏高质量的测试数据集
评估维度单一：需要多角度综合评估
缺乏反馈机制：无法基于评估结果持续优化

🎯 核心功能与生态

核心功能

1. 客观评估指标 🎯

基于LLM的指标：利用大语言模型进行智能评估
传统评估指标：BLEU、ROUGE等经典指标
多维度评估：涵盖准确性、相关性、忠实度等多个维度

2. 智能测试数据生成 🧪

自动化生成：基于知识图谱和场景的测试数据创建
多样化覆盖：涵盖各种复杂场景和边界情况
生产对齐：与实际应用场景高度匹配

3. 无缝集成 🔗

框架兼容：支持LangChain、LlamaIndex等主流框架
可观测性：集成LangSmith、Langfuse等监控工具
多平台支持：支持OpenAI、Azure、本地模型等

4. 数据驱动优化 📊

生产数据利用：基于真实使用数据的持续改进
反馈循环：建立评估-优化-验证的闭环流程
性能追踪：长期跟踪应用性能变化

技术架构

┌─────────────────────────────────────────────────────────────┐
│                    Ragas 架构图                               │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐           │
│  │    评估层    │  │   生成层    │  │   优化层    │           │
│  │             │  │             │  │             │           │
│  │ • 多维指标   │  │ • 场景生成   │  │ • 指令优化   │           │
│  │ • 批量评估   │  │ • 数据合成   │  │ • 示例学习   │           │
│  │ • 实时监控   │  │ • 知识图谱   │  │ • 反馈循环   │           │
│  └─────────────┘  └─────────────┘  └─────────────┘           │
│                                                             │
│  ┌─────────────────────────────────────────────────────────┐ │
│  │                   核心抽象层                             │ │
│  │                                                         │ │
│  │  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐     │ │
│  │  │   指标基类   │  │   数据模型   │  │   执行引擎   │     │ │
│  │  │             │  │             │  │             │     │ │
│  │  │ • 统一接口   │  │ • 类型安全   │  │ • 异步并发   │     │ │
│  │  │ • 可扩展性   │  │ • 标准化    │  │ • 容错机制   │     │ │
│  │  └─────────────┘  └─────────────┘  └─────────────┘     │ │
│  └─────────────────────────────────────────────────────────┘ │
│                                                             │
│  ┌─────────────────────────────────────────────────────────┐ │
│  │                   集成层                                 │ │
│  │                                                         │ │
│  │  LangChain │ LlamaIndex │ OpenAI │ Azure │ 本地模型       │ │
│  └─────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────┘

🔥 快速入门

安装

pip install ragas

基础使用示例

1. 单样本评估

from ragas import SingleTurnSample
from ragas.metrics import AspectCritic
from ragas.llms import LangchainLLMWrapper
from langchain_openai import ChatOpenAI

# 准备测试数据
test_data = {
    "user_input": "总结以下文本\n该公司在2024年Q3季度业绩增长8%，主要得益于亚洲市场的强劲表现。该地区的销售额对整体增长贡献显著。分析师将这一成功归因于战略性营销和产品本地化。亚洲市场的积极趋势预计将持续到下个季度。",
    "response": "公司在2024年Q3实现8%的增长，主要由于有效的营销策略和产品适应性，预计下个季度将继续增长。"
}

# 配置评估器
evaluator_llm = LangchainLLMWrapper(ChatOpenAI(model="gpt-4o"))
metric = AspectCritic(
    name="summary_accuracy",
    llm=evaluator_llm, 
    definition="验证摘要是否准确地捕捉了原文的关键信息。"
)

# 执行评估
sample = SingleTurnSample(**test_data)
score = await metric.single_turn_ascore(sample)
print(f"摘要准确性得分: {score}")  # 输出: 1 (通过) 或 0 (失败)

2. 数据集批量评估

from ragas import evaluate, EvaluationDataset
from ragas.metrics import AspectCritic, BleuScore

# 准备测试数据集
test_dataset = [
    {
        "user_input": "总结以下文本\n公司Q2收入增长15%...",
        "response": "Q2收入增长15%，主要得益于新产品线的成功推出。"
    },
    {
        "user_input": "总结以下文本\n北美市场销售下降5%...",
        "response": "北美市场面临挑战，公司正在调整策略以应对。"
    }
]

# 转换为评估数据集
eval_dataset = EvaluationDataset.from_list(test_dataset)

# 配置多个评估指标
metrics = [
    AspectCritic(name="accuracy", llm=evaluator_llm, definition="验证摘要准确性"),
    BleuScore()
]

# 执行批量评估
results = evaluate(eval_dataset, metrics=metrics)
print(results)
# 输出: {'accuracy': 0.85, 'bleu_score': 0.23}

# 查看详细结果
results_df = results.to_pandas()
print(results_df)

3. RAG应用评估

from ragas.metrics import (
    answer_correctness,
    context_precision,
    faithfulness,
    answer_relevancy,
    context_recall
)

# RAG应用测试数据
rag_data = {
    "user_input": "什么是光合作用？",
    "response": "光合作用是植物利用阳光和二氧化碳制造葡萄糖的过程。",
    "retrieved_contexts": [
        "光合作用是植物、藻类和某些细菌将光能转化为化学能的过程。",
        "在光合作用中，植物吸收二氧化碳和水，在阳光照射下产生葡萄糖和氧气。"
    ],
    "reference": "光合作用是植物利用阳光、二氧化碳和水制造葡萄糖并释放氧气的生物过程。"
}

# 配置RAG专用指标
rag_metrics = [
    answer_correctness,    # 答案准确性
    context_precision,     # 上下文精确度
    faithfulness,          # 忠实度
    answer_relevancy,      # 答案相关性
    context_recall         # 上下文召回率
]

# 执行RAG评估
rag_sample = SingleTurnSample(**rag_data)
rag_results = evaluate([rag_sample.to_dict()], metrics=rag_metrics)
print(rag_results)

📊 核心评估指标详解

1. 答案准确性（Answer Correctness）

核心思想

结合事实性准确性和语义相似性来综合评估答案质量。

计算方法

权重分配：默认 [0.75, 0.25]，分别对应事实性和语义相似性
事实性评估：将答案和参考答案分解为独立声明，分类为TP/FP/FN
语义相似性：使用embedding计算答案与参考答案的相似度

实际案例

# 案例：科学知识问答
user_input = "太阳的能量来源是什么？"
response = "太阳通过核裂变产生能量，类似于地球上的核反应堆。"
reference = "太阳通过核聚变产生能量，氢原子聚合形成氦原子并释放巨大能量。"

# 评估过程：
# 1. 声明分解
#    答案: ["太阳通过核裂变产生能量", "类似于地球上的核反应堆"]
#    参考: ["太阳通过核聚变产生能量", "氢原子聚合形成氦原子", "释放巨大能量"]

# 2. 分类结果
#    TP: [] (没有正确匹配的声明)
#    FP: ["太阳通过核裂变产生能量"] (错误信息)
#    FN: ["太阳通过核聚变产生能量"] (遗漏的正确信息)

# 3. 最终得分：事实性分数很低 + 语义相似性中等 = 总体低分

2. 上下文精确度（Context Precision）

核心思想

评估检索到的上下文片段对回答问题的有用性，使用平均精确率（Average Precision）计算。

计算方法

对每个上下文片段判断其是否对回答问题有用
计算平均精确率：考虑有用片段的位置权重
排序靠前的有用片段获得更高权重

实际案例

# 案例：体育赛事查询
user_input = "谁赢得了2020年ICC世界杯？"
retrieved_contexts = [
    "2022年ICC T20世界杯于2022年10月16日至11月13日在澳大利亚举行，英格兰队获得冠军。",
    "印度板球队在2019年世界杯中表现出色，但未能夺冠。",
    "澳大利亚队是板球历史上最成功的队伍之一，曾多次获得世界杯冠军。"
]
reference = "英格兰队"

# 评估过程：
# Context 1: 有用(1) - 虽然年份不完全匹配，但提供了相关的比赛信息
# Context 2: 无用(0) - 年份不符，且未提供2020年信息
# Context 3: 无用(0) - 过于泛化，没有具体的2020年信息

# 计算: AP = (1*1/1 + 0*0/2 + 0*0/3) / 1 = 1.0

3. 忠实度（Faithfulness）

核心思想

评估生成的答案是否严格基于提供的上下文，避免幻觉和虚假信息。

计算方法

将答案分解为独立的声明
使用自然语言推理判断每个声明是否能从上下文中推断出来
计算可推断声明的比例

实际案例

# 案例：人物传记问答
user_input = "告诉我关于爱因斯坦的信息"
response = "爱因斯坦1879年出生于德国，是著名的理论物理学家。他在1905年发表了4篇重要论文，并在1921年获得诺贝尔物理学奖。"
retrieved_contexts = [
    "阿尔伯特·爱因斯坦（1879年3月14日-1955年4月18日）是德国出生的理论物理学家。",
    "他因为对理论物理的贡献，特别是光电效应定律的发现，获得了1921年诺贝尔物理学奖。"
]

# 评估过程：
# 声明分解：
# 1. "爱因斯坦1879年出生于德国" ✓ (可从上下文推断)
# 2. "他是著名的理论物理学家" ✓ (可从上下文推断)
# 3. "他在1905年发表了4篇重要论文" ✗ (上下文中没有此信息)
# 4. "他在1921年获得诺贝尔物理学奖" ✓ (可从上下文推断)

# 忠实度 = 3/4 = 0.75

4. 答案相关性（Answer Relevancy）

核心思想

评估生成的答案与用户问题的相关程度，惩罚不完整、冗余或偏离主题的答案。

计算方法

基于答案反向生成问题（多次生成增加鲁棒性）
计算生成问题与原问题的余弦相似度
检查答案是否含有非承诺性语言（如"我不知道"）

实际案例

# 案例：地理知识问答
user_input = "法国的首都是哪里？"
response = "法国的首都是巴黎，这是一个美丽的城市，有很多著名的景点如埃菲尔铁塔、卢浮宫和香榭丽舍大街。巴黎还以其美食文化而闻名。"

# 评估过程：
# 1. 基于答案生成问题（执行3次）：
#    - "法国的首都是什么？" (高相关性)
#    - "巴黎有哪些著名景点？" (中等相关性)
#    - "巴黎的美食文化如何？" (低相关性)

# 2. 计算余弦相似度：
#    - 问题1与原问题相似度：0.95
#    - 问题2与原问题相似度：0.6
#    - 问题3与原问题相似度：0.3

# 3. 平均相似度：(0.95 + 0.6 + 0.3) / 3 = 0.62
# 答案包含了冗余信息，导致相关性降低

5. 上下文召回率（Context Recall）

核心思想

评估检索到的上下文是否覆盖了参考答案中的所有必要信息，衡量信息检索的完整性。

计算方法

将参考答案分解为独立声明
判断每个声明是否能从检索的上下文中推断出来
计算可推断声明的比例

实际案例

# 案例：科学概念解释
user_input = "爱因斯坦的主要贡献是什么？"
reference = "爱因斯坦发展了相对论，提出了著名的质能方程E=mc²，并因光电效应定律的发现获得了1921年诺贝尔物理学奖。"
retrieved_contexts = [
    "爱因斯坦以发展狭义相对论和广义相对论而闻名于世。",
    "他的质能方程E=mc²揭示了质量和能量之间的等价关系。"
]

# 评估过程：
# 参考答案声明分解：
# 1. "爱因斯坦发展了相对论" ✓ (可从上下文推断)
# 2. "他提出了著名的质能方程E=mc²" ✓ (可从上下文推断)
# 3. "他因光电效应定律的发现获得了1921年诺贝尔物理学奖" ✗ (上下文中没有此信息)

# 上下文召回率 = 2/3 = 0.67
# 检索到的上下文缺少诺贝尔奖相关信息

🎯 实战案例：完整的RAG应用评估

场景设置

假设我们有一个医疗知识问答的RAG应用，需要全面评估其性能。

import asyncio
from ragas import evaluate, EvaluationDataset
from ragas.metrics import (
    answer_correctness,
    context_precision,
    faithfulness,
    answer_relevancy,
    context_recall
)
from ragas.llms import LangchainLLMWrapper
from langchain_openai import ChatOpenAI

# 配置评估器
evaluator_llm = LangchainLLMWrapper(ChatOpenAI(model="gpt-4o"))
for metric in [answer_correctness, context_precision, faithfulness, answer_relevancy, context_recall]:
    if hasattr(metric, 'llm'):
        metric.llm = evaluator_llm

# 准备测试数据集
medical_qa_data = [
    {
        "user_input": "高血压的主要症状是什么？",
        "response": "高血压的主要症状包括头痛、头晕、心悸和视力模糊。严重时可能导致鼻血和呼吸困难。",
        "retrieved_contexts": [
            "高血压（高血压病）是一种常见的心血管疾病，主要症状包括头痛、头晕、心悸等。",
            "高血压患者可能出现视力模糊、鼻血、呼吸困难等症状。",
            "高血压如不及时治疗，可能导致严重的并发症。"
        ],
        "reference": "高血压的主要症状包括头痛、头晕、心悸、视力模糊。严重情况下可能出现鼻血、呼吸困难等症状。"
    },
    {
        "user_input": "糖尿病应该如何预防？",
        "response": "糖尿病预防主要包括健康饮食、规律运动、控制体重和定期体检。",
        "retrieved_contexts": [
            "糖尿病预防的关键是保持健康的生活方式，包括均衡饮食和规律运动。",
            "控制体重和定期进行血糖检测有助于糖尿病的早期预防。",
            "避免高糖高脂食物，多食用蔬菜水果。"
        ],
        "reference": "糖尿病预防应采取综合措施：保持健康饮食，规律运动，控制体重，避免高糖高脂食物，定期进行血糖检测。"
    }
]

# 执行评估
async def run_evaluation():
    dataset = EvaluationDataset.from_list(medical_qa_data)
    
    metrics = [
        answer_correctness,
        context_precision,
        faithfulness,
        answer_relevancy,
        context_recall
    ]
    
    results = evaluate(dataset, metrics=metrics)
    
    print("=== 评估结果 ===")
    print(f"答案准确性: {results['answer_correctness']:.3f}")
    print(f"上下文精确度: {results['context_precision']:.3f}")
    print(f"忠实度: {results['faithfulness']:.3f}")
    print(f"答案相关性: {results['answer_relevancy']:.3f}")
    print(f"上下文召回率: {results['context_recall']:.3f}")
    
    # 详细分析
    df = results.to_pandas()
    print("\n=== 样本级别详细结果 ===")
    print(df[['user_input', 'answer_correctness', 'faithfulness', 'answer_relevancy']].head())
    
    return results

# 运行评估
results = asyncio.run(run_evaluation())

结果分析与优化建议

# 基于评估结果的优化建议
def analyze_results(results):
    scores = {
        'answer_correctness': results['answer_correctness'],
        'context_precision': results['context_precision'],
        'faithfulness': results['faithfulness'],
        'answer_relevancy': results['answer_relevancy'],
        'context_recall': results['context_recall']
    }
    
    print("=== 性能分析与优化建议 ===")
    
    for metric, score in scores.items():
        print(f"\n{metric}: {score:.3f}")
        
        if metric == 'answer_correctness' and score < 0.8:
            print("❌ 答案准确性偏低")
            print("💡 建议：增强模型的事实性知识，优化prompt设计")
            
        elif metric == 'context_precision' and score < 0.7:
            print("❌ 上下文精确度不足")
            print("💡 建议：改进检索算法，提高相关文档排序")
            
        elif metric == 'faithfulness' and score < 0.8:
            print("❌ 忠实度需要改进")
            print("💡 建议：优化生成策略，增加基于上下文的约束")
            
        elif metric == 'answer_relevancy' and score < 0.8:
            print("❌ 答案相关性待提升")
            print("💡 建议：优化问题理解，减少冗余信息生成")
            
        elif metric == 'context_recall' and score < 0.7:
            print("❌ 上下文召回率不足")
            print("💡 建议：扩大检索范围，优化文档分割策略")
            
        else:
            print("✅ 性能良好")

# 执行分析
analyze_results(results)

持续监控与改进

# 建立监控机制
def setup_monitoring():
    """设置持续监控机制"""
    
    # 1. 定期评估
    schedule_config = {
        'daily_evaluation': True,
        'weekly_deep_analysis': True,
        'monthly_metric_review': True
    }
    
    # 2. 阈值告警
    alert_thresholds = {
        'answer_correctness': 0.75,
        'faithfulness': 0.80,
        'answer_relevancy': 0.75,
        'context_precision': 0.70,
        'context_recall': 0.65
    }
    
    # 3. 改进追踪
    improvement_metrics = [
        'user_satisfaction_score',
        'response_time',
        'error_rate',
        'coverage_rate'
    ]
    
    return {
        'schedule': schedule_config,
        'alerts': alert_thresholds,
        'tracking': improvement_metrics
    }

monitoring_config = setup_monitoring()
print("监控配置已设置:", monitoring_config)

🔮 总结

Ragas为LLM应用提供了一套完整的评估解决方案，通过多维度的客观指标，帮助开发者构建更可靠、更优质的AI应用。

核心价值

科学评估：用数据说话，告别主观判断
全面覆盖：从准确性到相关性的多维度评估
易于集成：与现有技术栈无缝结合
持续改进：支持基于评估结果的迭代优化

最佳实践

建立基准：为你的应用设定明确的性能基准
多指标结合：不要依赖单一指标，综合评估更准确
持续监控：将评估集成到CI/CD流程中
数据驱动：基于评估结果进行有针对性的优化

开始使用Ragas，让你的LLM应用更加可靠和高效！

更多信息请访问：

技术共进，成长同行——讯飞AI开发者社区

更多推荐

论文笔记：AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models（AlphaEdit）

论文发表于人工智能顶会ICLR（基于定位和修改的模型编辑方法（针对和等）会破坏LLM中最初保存的知识，特别是在顺序编辑场景。为此，本文提出AlphaEdit：1、在将保留知识应用于参数之前，将扰动投影到保留知识的零空间上。2、从理论上证明，这种预测确保了在查询保留的知识时，编辑后的LLM的输出保持不变，从而减轻中断问题。3、对各种LLM（包括LLaMA3、GPT2XL和GPT-J）的广泛实验表明，