[JBHI 2022]A Pseudo Label-Wise Attention Network for Automatic ICD Coding

计算机-人工智能-伪注意力多标签ICD分类

夏莉莉iy

630人浏览 · 2025-09-24 02:29:19

夏莉莉iy · 2025-09-24 02:29:19 发布

论文网址：A Pseudo Label-Wise Attention Network for Automatic ICD Coding | IEEE Journals & Magazine | IEEE Xplore

论文代码：https://github.com/CSUBioGroup/LD-PLAM

2.3. Problem Statement and Notations

2.4. Methodology

2.4.1. Representation of EMRs

2.4.2. Representation of ICD Codes

2.4.3. Calculation of the Similarity Between EMR Vectors and ICD Vectors

2.4.4. Comparison Between Pseudo Label-Wise Attention and Label-Wise Attention

2.5. Experiments

2.5.1. Datasets

2.5.2. Baselines

2.5.3. Training Details

2.5.4. Comparison With Other Methods

2.5.5. Memory Analysis

2.5.6. Ablative Analysis

2.6. Discussion

2.6.1. Prediction of New ICD Codes

2.6.2. Effect of Label Frequency

2.6.3. Model Interpretability

2.6.4. Case Study

2.7. Conclusion

1. 心得

（1）很标准的一篇论文，看完有种切切实实该发这个期刊不高也不低的感觉

（2）实验比模型更ok

2. 论文逐段精读

2.1. Abstract

①为了减少计算开支，作者使用伪标签注意力，对相似的ICD编码用同样的注意力

②图片摘要：

2.2. Introduction

①挑战：总类别多单个体标签少（其实也多），代码预测频率分布不均，预测新样本或零样本分类

②现有工作爱为每个ICD代码都分配一个注意力权重，作者认为这是多余的。作者倾向为每个分支分配一个权重

2.3. Problem Statement and Notations

①临床记录： $w=\left ( w_1\,\, \, w_2\,\cdots w_{lr} \right )$ ，其中 $l_r$ 是临床记录总长度

②预测目标： $y=\left ( y_1\,\, \, y_2\,\cdots y_{n} \right )$ ，其中 $n$ 是ICD编码的总数，数值只会有0和1

③符号：

2.4. Methodology

①模型框架：

2.4.1. Representation of EMRs

①电子病历（Electronic Medical Records，EMR）处理：填充短病历长度，截断超出长度。但不是直接截断，要把不重要的单词删除。⭐使用术语频率-逆文档频率（TF-IDF）来衡量单词的重要性，它定义为术语频率和逆文档频率的乘积。（酱紫麻烦？）

②训练EMR：skip-gram和双向LSTM

③伪标签注意力：

$u_i=\mathrm{h}\left(\sum_{j=1}^{l_r}\alpha_{ij}x_j\right)$

$\alpha_i= \begin{pmatrix} \alpha_{i1} & \alpha_{i2} & \ldots & \alpha_{il_r} \end{pmatrix}=\mathrm{softmax}(xW_i+b_i)^\mathrm{T}$

其中 $x\in\mathbb{R}^{l_{r}\times d_{c}}$ 是双向LSTM的输出， $\mathrm{h}(\cdot)$ 是非线性层。（这个东西好奇怪）

2.4.2. Representation of ICD Codes

①作者将ICD整理为“ICD代码：ICD标题（描述）”

②使用RoBERTa对ICD集合进行映射：

$v_i=\frac{1}{l_d}\sum_{j=1}^{l_d}e_{ij}$

2.4.3. Calculation of the Similarity Between EMR Vectors and ICD Vectors

①计算EMR和ICD嵌入的相似性：

$s_{u,v_{i}}=\mathrm{f}\left(\sum_{j=1}^{m}\beta_{ij}u_{j}\right)\\\beta_{ij}=\frac{e^{u_{j}v_{i}^{\mathrm{T}}}}{\sum_{k=1}^{m}e^{u_{k}v_{i}^{\mathrm{T}}}}$

2.4.4. Comparison Between Pseudo Label-Wise Attention and Label-Wise Attention

①时间复杂度：

②标签注意力和伪标签注意力的区别：

2.5. Experiments

2.5.1. Datasets

①数据集统计：

其中MIMIC也被分为MIMIC-III full和MIMIC-III 50，湘雅也同样被分为这两种

2.5.2. Baselines

①列举一些基线

2.5.3. Training Details

①LSTM单元数量实验：{64,128,256}

②伪标签数量：{16,32,64,128,256,384,512}

③批次大小：{64,128,256}

④学习率：{0.0003,0.001,0.005,0.01}

⑤网格搜索表：

2.5.4. Comparison With Other Methods

①MIMIC数据集的表现：

②湘雅数据集表现：

③训练策略消融：

2.5.5. Memory Analysis

①不同标签数量下的内存占用：

2.5.6. Ablative Analysis

①标签注意力和伪标签注意力的内存占用和性能：

②伪标签数量对性能的影响：

③ICD标题的消融：

2.6. Discussion

2.6.1. Prediction of New ICD Codes

①将ICD代码分为三组：S（可见ICD代码，训练出现五次以上）、F（少量ICD代码，出现一到五次）和Z组（零样本ICD代码，未出现过）

②这些训练用例的分类结果：

2.6.2. Effect of Label Frequency

①模型对不同频率标签的预测AUC：

2.6.3. Model Interpretability

①⭐每个ICD编码对应的四个最关键的词：

2.6.4. Case Study

①伪注意力集成：

2.7. Conclusion

技术共进，成长同行——讯飞AI开发者社区

更多推荐

大数据领域数据架构的人工智能融合应用

随着企业数据规模以年均40%的速度爆炸式增长（Gartner, 2023），传统数据架构在处理多模态数据、支撑实时智能决策时面临效率瓶颈。如何通过AI实现数据治理的自动化与智能化机器学习如何优化数据存储与查询效率深度学习模型在实时数据流处理中的应用范式智能决策系统与数据中台的架构耦合机制背景部分定义核心概念与技术演进路径核心章节解析融合架构的技术组件与算法实现实战篇提供完整的端到端解决方案应用篇呈

讯飞AI开发者社区

JWT原理

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。