GPU运维中,常用命令主要用于监控、管理和调试GPU硬件及其相关软件。

以下是一些常见的命令及其用途:

### 1. **NVIDIA-smi 命令**
`nvidia-smi` 是NVIDIA提供的命令行工具,用于监控和管理GPU状态。

- **查看GPU状态**:
  ```bash
  nvidia-smi
  ```
  显示GPU使用率、温度、内存占用等信息。

- **实时监控GPU状态**:
  ```bash
  watch -n 1 nvidia-smi
  ```
  每秒刷新一次GPU状态。

- **查看GPU详细信息**:
  ```bash
  nvidia-smi -q
  ```
  显示GPU的详细信息,包括温度、风扇速度、电源使用等。

- **监控GPU进程**:
  ```bash
  nvidia-smi pmon
  ```
  显示每个GPU上运行的进程及其资源使用情况。

- **设置GPU持久模式**:
  ```bash
  sudo nvidia-smi -pm 1
  ```
  启用持久模式,减少GPU初始化时间。

- **重置GPU**:
  ```bash
  sudo nvidia-smi -r -i <GPU_ID>
  ```
  重置指定GPU(`<GPU_ID>`为GPU编号)。

### 2. **CUDA 相关命令**
- **查看CUDA版本**:
  ```bash
  nvcc --version
  ```
  显示已安装的CUDA版本。

- **查看CUDA设备信息**:
  ```bash
  deviceQuery
  ```
  运行CUDA示例程序,显示CUDA设备信息。

### 3. **进程管理命令**
- **查找使用GPU的进程**:
  ```bash
  nvidia-smi | grep -A 10 Processes
  ```
  显示当前使用GPU的进程。

- **终止使用GPU的进程**:
  ```bash
  kill -9 <PID>
  ```
  终止指定进程(`<PID>`为进程ID)。

### 4. **系统监控命令**
- **查看系统GPU使用情况**:
  ```bash
  gpustat
  ```
  显示系统中所有GPU的使用情况(需安装`gpustat`工具)。

- **监控系统资源**:
  ```bash
  top
  ```
  显示系统资源使用情况,包括CPU、内存等。

### 5. **Docker 相关命令**
- **查看Docker容器中的GPU使用情况**:
  ```bash
  docker stats
  ```
  显示Docker容器的资源使用情况,包括GPU。

- **启动使用GPU的Docker容器**:
  ```bash
  docker run --gpus all <image_name>
  ```
  启动一个使用所有GPU的Docker容器。

### 6. **其他常用命令**
- **查看系统日志**:
  ```bash
  dmesg | grep -i nvidia
  ```
  查看与NVIDIA相关的系统日志信息。

- **检查NVIDIA驱动版本**:
  ```bash
  cat /proc/driver/nvidia/version
  ```
  显示已安装的NVIDIA驱动版本。

### 总结
这些命令涵盖了GPU运维中的监控、管理、调试等常见任务,帮助运维人员有效管理和优化GPU资源。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐