reddit에서 claude code를 이용해 CUDA 기반 신경망 백엔드를 AMD ROCm으로 30분 만에 이식했다는 글이 올라왔다. 단순 포팅 자체는 특별한 게 아니지만 claude code로 간단하게 포팅을 할 수 있다는 게 주목해야할 부분 같다.
https://www.reddit.com/r/AMD_Stock/comments/1qjc3s6/cuda_moat/
Reddit의 AMD_Stock 커뮤니티
AMD_Stock 커뮤니티에서 이 게시물을 비롯한 다양한 콘텐츠를 살펴보세요
www.reddit.com
이 LeelaChessZero(lc0) 프로젝트의 ROCm 백엔드 포팅 PR은 다음 링크에서 확인할 수 있다.
https://github.com/LeelaChessZero/lc0/pull/2375
feat: Add ROCm backend with attention network support by johnnytshi · Pull Request #2375 · LeelaChessZero/lc0
Implemented a complete ROCm backend for AMD GPUs, enabling support for modern attention-based chess networks on RDNA 3.5 and other AMD architectures. Implementation Details: Added full ROCm backen...
github.com
대상 프로젝트는 LeelaChessZero(lc0), 체스 AI의 신경망 추론 엔진으로, GPU 가속 백엔드(CUDA 등)를 통해 고성능 체스 네트워크를 실행한다고 한다. 또한 포팅 범위는 CUDA 백엔드를 ROCm 백엔드로 완전히 재작성했고, src/neural/backends/rocm/ 디렉토리에 Attention 기반 현대 체스 네트워크 지원을 추가(멀티헤드 셀프 어텐션, FFN, 임베딩 레이어 등 구현)했다고 한다.
ROCm 백엔드로 재작성한 방법은 따로 복잡한 것은 없고 단순히 코드를 던져서 단계적 수정 지시(에러 수정, ROCm HIP API 적용, 커널 재작성)로 수동 코딩 없이 완성했다고 한다. HIPify 같은 도구나 중간 번역 레이어 없이 직접 ROCm 네이티브 코드를 생성했다고 한다.
게시글에서 논의한 내용들 보면 기존 HIPify 같은 거랑 큰 차이도 없고 원래 단순한 포팅도 쉽다고는 하는데 이 포팅을 단순히 명령어 몇 번으로 진행할 수 있다고 하면 복잡한 상호연결 코드 구현이나 캐시 최적화도 금방 가능할 것 같은 느낌이 든다.
포팅에 대한 효과를 간단하게 정리하면 아래와 같다.
| 효과 | 설명 | 수치 및 예시 |
| 포팅 시간 단축 | 수동 코딩 없이 AI 에이전트가 CUDA 로직을 이해하고 ROCm/HIP으로 자동 변환 | 30분 만에 lc0 CUDA 백엔드 완전 포팅 |
| 설치/환경 단순화 | Hipify 등 복잡한 변환 도구나 중간 레이어 불필요, CLI 직접 상호작용 가능 | 기존 Hipify 설정 시간(수 시간) → 0 |
| 접근성 향상 | 개발자 학습 곡선 ↓, CUDA 지식만으로 ROCm 프로젝트 즉시 시작 가능 | 초보자도 커널 로직 유지하며 포팅 가능 |
| 비용 절감 | AMD GPU 하드웨어 전환 시 소프트웨어 재작성 비용 ↓, 오픈소스 ROCm 활용 | ROCm GPU 20-40% 저렴 (성능 유사 시) |
| 벤더 락인 완화 | CUDA 독점 생태계 탈피, AMD/Intel 등 다각화 용이 | lc0처럼 오픈소스 프로젝트 ROCm 지원 ↑ |
| 성능 영향 | Data layout 조정 등으로 로직 유지, 최적화 후 CUDA와 비슷 (10-30% 격차) | lc0 RDNA 3.5: CUDA 근접 nps 달성 가능 |
| 생태계 영향 | ROCm 채택 ↑, CUDA "moat" 약화 가능성 | AI 코딩 에이전트로 포팅 장벽 ↓ |
단순 개발자 입장에서는 크게 와닿는 내용이 없을 것 같기는 한데 아마 gpgpu 에 대해 연구하는 사람들 입장에서는 희소식이지 않을까 싶다.
'인공지능 (AI)' 카테고리의 다른 글
| OpenAI의 기업용 AI 에이전트 플랫폼 Frontier (0) | 2026.02.20 |
|---|---|
| 프롬프트를 기반으로 무한한 3D 세계를 생성해주는 구글의 Project Genie (0) | 2026.02.20 |
| 70B급 LLM을 단일 4GB GPU에서도 돌릴 수 있게 해주는 프레임워크, AirLLM (0) | 2026.02.19 |
| 개인 PC에서 huggingface를 통해 오픈 소스 ai 모델 다운 받기 (0) | 2026.02.04 |
| 상용 모델을 뛰어넘는 고성능 오픈소스 TTS 모델, Qwen3-TTS (0) | 2026.02.04 |