TensorFlow-GPU执行模型训练时报错

TensorFlow-GPU训练存储溢出

小轩爱学习

2110人浏览 · 2022-10-13 15:14:06

小轩爱学习 · 2022-10-13 15:14:06 发布

⚠ TensorFlow-GPU 执行模型训练时报错：

InternalError: Failed copying input tensor from /job:localhost/replica:0/task:0/device:CPU:0 to /job:localhost/replica:0/task:0/device:GPU:0 in order to run _EagerConst: Dst tensor is not initialized.

解决方案：『TensorFlow: Dst tensor is not initialized - Stack Overflow』
主要原因在于 batch_size 太大，内存无法负载，将 batch_size 适当调小即可正常运行。

【注】默认情况下，TF 会尽可能地多分配占用 GPU 内存，通过调整 GPUConfig 可以设置为按需分配内存，参考 TensorFlow 文档和 TensorFlow 代码。

另外，使用 Jupyter Notebook 进行长期模型训练时，可能由于 GPU 内存无法及时释放导致该报错。参考此答案可以解决此问题，定义如下函数：

from keras.backend import set_session
from keras.backend import clear_session
from keras.backend import get_session
import gc

# Reset Keras Session
def reset_keras():
    sess = get_session()
    clear_session()
    sess.close()
    sess = get_session()

    try:
        del classifier # this is from global space - change this as you need
    except:
        pass

    print(gc.collect()) # if it does something you should see a number as output

    # use the same config as you used to create the session
    config = tf.compat.v1.ConfigProto()
    config.gpu_options.per_process_gpu_memory_fraction = 1
    config.gpu_options.visible_device_list = "0"
    set_session(tf.compat.v1.Session(config=config))

需要清除 GPU 内存时，直接调用 reset_keras 函数即可。例如：

reset_keras()
model.fit(x_train_1, y_train_1,validation_data=(x_test_2,y_test_2), epochs=5)

reset_keras()
pred = model.predict(x_test_2)

在当显存较小时出现的问题，在这里做一个记录，方便之后查阅。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

1747张YOLO标注奶牛水牛识别数据集：精准标注跨场景动物检测模型训练专用计算机视觉数据集，助力智慧农业与畜牧业AI算法研发

讯飞AI开发者社区

YashanDB在医疗行业的应用与机遇

随着医疗行业数据规模的持续扩展和智能医疗应用的深化，数据库系统的性能和可靠性成为医疗信息化的核心竞争力。未来，随着医疗场景对人工智能、大数据实时分析等技术的不断融合，YashanDB将持续深化HTAP能力，增强分布式协作与资源整合能力，通过不断优化系统性能和安全保障，推动医疗行业数据管理水平的全面提升，为智慧医疗服务的广泛应用奠定坚实基础。YashanDB在医疗行业中，基于强大的逻辑架构，实现了客

讯飞AI开发者社区

Qoder账号被冻结？三步操作轻松解封

Qoder账号冻结原因及解封指南：账号冻结常见原因包括免费试用超限、多账号切换、操作超额及系统误判。解封步骤为登录后点击ReactivateAccount按钮，注意激活后额度清零。开发者提示：避免多号操作、合理分配调用量、保留误封记录。Qoder的封禁机制旨在防止滥用，开发者提前了解规则即可规避风险。遇到冻结按官方流程操作即可恢复使用。#Qoder# #人工智能#