深度学习 pytorch 困惑度计算方法

以下是我编写的计算困惑度 PPL的代码根据困惑度的定义：PPL=ecross_entropyPPL=e^{cross\_entropy}PPL=ecross_entropy其中cross_entropycross\_entropycross_entropy 就是交叉熵损失因此只需要对交叉熵损失求exp()注意：F.cross_entropy的参数 reduction必须要为 mean 即

一如年少模样丶

4144人浏览 · 2021-01-21 23:27:39

一如年少模样丶 · 2021-01-21 23:27:39 发布

以下是我编写的计算困惑度 PPL的代码
根据困惑度的定义：（其定义是其他形式的定义非书本上的定义，实验常用的就是这种形式）
来源解释：https://stackoverflow.com/questions/61988776/how-to-calculate-perplexity-for-a-language-model-using-pytorch

$PPL=e^{cross\_entropy}$
其中 $cross\_entropy$ 就是交叉熵损失因此只需要对交叉熵损失求exp()
注意：F.cross_entropy的参数 reduction必须要为 mean 即默认就为 Mean

from torch import Tensor
import numpy as np
import torch.nn.functional as F


def perplexity(outputs: Tensor, targets: Tensor, config=None):
    """
    计算语言模型困惑度
    :param outputs: [batch_size,seq_len,vocab_size]
    :param targets: [batch_size,seq_len]
    :param config:  配置文件 default:None
    :return: 困惑度数值
    """
    ce = F.cross_entropy(outputs.view(-1, outputs.size(-1)), targets.view(-1),
                         ignore_index=config.data.pad_id if config is not None else None)

    return torch.exp(ce)

技术共进，成长同行——讯飞AI开发者社区

更多推荐

AI智能体—人工智能工作流与人工智能智能体：真正的区别是什么？

本文探讨了人工智能工作流与智能体的核心区别。工作流是静态、可预测的执行序列（如预处理→嵌入→搜索→总结），适合批处理作业；而智能体能动态感知环境、自主决策（感知→推理→决策循环），具备适应性和工具选择能力。关键差异在于：工作流遵循固定路径，智能体则能根据目标调整策略。架构上，工作流使用Airflow等工具，智能体依赖LangChain等框架。智能体的自主性使其更适用于动态环境，代表下一代AI应用方