测试batch_isend_irecv多卡，多组通信

batch_isend_irecv支持同时配置多组P2P算子，但是其底层实现上也是拆开来做的。以下是NCCL的几种测试场景。

碳纤维石头君

516人浏览 · 2024-12-08 11:18:39

碳纤维石头君 · 2024-12-08 11:18:39 发布

batch_isend_irecv支持同时配置多组P2P算子，但是其底层实现上也是拆开来做的。以下是NCCL的几种测试场景。

配置多组p2p对

import os
import torch
import argparse
import torch.distributed as dist
from torch.distributed import ReduceOp
from datetime import datetime
import time
import argparse
import numpy as np
import torch.distributed
 

def main():
    dist.init_process_group(backend='nccl')
    if not torch.distributed.is_initialized():
        return

    torch.manual_seed(1)
    world_size = torch.distributed.get_world_size()
    rank = torch.distributed.get_rank()
    local_rank=int(os.environ['LOCAL_RANK'])
    print("local rank is:", local_rank)
    torch.cuda.set_device(local_rank)

    send_tensor = []
    recv_tensor = []
    
    ops_list = []
    for i in range(256):
        send_tensor.append(torch.ones((1280,1280), dtype=torch.float32, device=f'cuda') * rank + i * 0.001)
        recv_tensor.append(torch.randn((1280,1280), dtype=torch.float32, device=f'cuda'))
    
    for i in range(256):
        send_op = dist.P2POp(dist.isend, send_tensor[i], (rank + 1)%world_size)
        recv_op = dist.P2POp(dist.irecv, recv_tensor[i], (rank - 1 + world_size)%world_size)
        ops_list.append(send_op)
        ops_list.append(recv_op)
        
    reqs = dist.batch_isend_irecv(ops_list)
    torch.distributed.barrier()

    import time
    time.sleep(rank * 3)
    
    for i in range(256):
        print("recv tensor is:", i, recv_tensor[i].reshape(-1), torch.distributed.get_rank())

         
if __name__=='__main__':
    main()

配置连续多组通信

import os
import torch
import argparse
import torch.distributed as dist
from torch.distributed import ReduceOp
from datetime import datetime
import time
import argparse
import numpy as np
import torch.distributed
 

def main():
    dist.init_process_group(backend='nccl')
    if not torch.distributed.is_initialized():
        return

    torch.manual_seed(1)
    world_size = torch.distributed.get_world_size()
    rank = torch.distributed.get_rank()
    local_rank=int(os.environ['LOCAL_RANK'])
    print("local rank is:", local_rank)
    torch.cuda.set_device(local_rank)

    send_tensor = []
    recv_tensor = []
    
    ops_list = []
    for i in range(256):
        send_tensor.append(torch.ones((1280,1280), dtype=torch.float32, device=f'cuda') * rank + i * 0.001)
        recv_tensor.append(torch.randn((1280,1280), dtype=torch.float32, device=f'cuda'))
    
    for i in range(256):
        send_op = dist.P2POp(dist.isend, send_tensor[i], (rank + 1)%world_size)
        ops_list.append(send_op)
    for i in range(256):
        recv_op = dist.P2POp(dist.irecv, recv_tensor[i], (rank - 1 + world_size)%world_size)
        ops_list.append(recv_op)
        
    reqs = dist.batch_isend_irecv(ops_list)
    torch.distributed.barrier()

    import time
    time.sleep(rank * 3)
    
    for i in range(256):
        print("recv tensor is:", i, recv_tensor[i].reshape(-1), torch.distributed.get_rank())

         
if __name__=='__main__':
    main()

配置多卡多组通信

import os
import torch
import argparse
import torch.distributed as dist
from torch.distributed import ReduceOp
from datetime import datetime
import time
import argparse
import numpy as np
import torch.distributed
 

def main():
    dist.init_process_group(backend='nccl')
    if not torch.distributed.is_initialized():
        return

    torch.manual_seed(1)
    world_size = torch.distributed.get_world_size()
    rank = torch.distributed.get_rank()
    local_rank=int(os.environ['LOCAL_RANK'])
    print("local rank is:", local_rank)
    torch.cuda.set_device(local_rank)

    recv_tensors = [None for _ in range(world_size)]
    expected_tensors = [None for _ in range(world_size)]
    p2p_op_list = []
    for i in range(32):
        for src in range(0, world_size):
            send_tensor = torch.empty(rank + 1, rank + 1, rank + 1, dtype=torch.float).fill_(src).cuda(rank)
            recv_tensors[src] = torch.empty(src + 1, src + 1, src + 1, dtype=torch.float).fill_(-1).cuda(rank)
            expected_tensors[src] = torch.empty(src + 1, src + 1, src + 1, dtype=torch.float).fill_(rank)
            recv_op = dist.P2POp(dist.irecv, recv_tensors[src], src)
            p2p_op_list.append(recv_op)
            send_op = dist.P2POp(dist.isend, send_tensor, src)
            p2p_op_list.append(send_op)

    reqs = dist.batch_isend_irecv(p2p_op_list)
    for req in reqs:
        req.wait()

    import time
    time.sleep(rank * 3)
    
    for i in range(world_size):
        print("recv tensor is:", i, recv_tensors[i].reshape(-1), torch.distributed.get_rank())
        print("expect tensor is:", i, expected_tensors[i].reshape(-1), torch.distributed.get_rank())
        print("\n")

         
if __name__=='__main__':
    main()

技术共进，成长同行——讯飞AI开发者社区

更多推荐

[论文阅读] 人工智能 + 软件工程 | 真实场景下GitHub Copilot生产力之谜：2年数据揭示客观提交无提升，开发者却直呼“好用”

讯飞AI开发者社区

上下文工程驱动智能体向通用人工智能

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运