NVIDIA DGX Spark에서 OpenClaw, vLLM, ComfyUI를 실행하는 가이드

NVIDIA DGX Spark에서 OpenClaw, vLLM, ComfyUI를 실행하는 가이드

NVIDIA DGX Spark에서 OpenClaw, vLLM, ComfyUI를 실행하는 가이드를 준비했습니다. 문맥에 있는 세부 정보들을 정리해서 안내해 드릴게요. ## 네트워크 연결: Tailscale을 사용한 SSH 접속 DGX Spark에 secure하게 원격 접속하려면 **Tailscale**을 추천합니다 [3]. 1. Tailscale 앱으로 로그인하고 활성화 2. DGX의 안정적인 IP 주소(보통 `100.x.y.z` 범위) 찾기 3. SSH로 접속: ```bash ssh <username>@100.x.y.z ``` ## 1. vLLM 설정 (언어 모델 서빙) ### Docker 방식 (가장 간단함) ```bash docker run -it --gpus all -p 7070:8000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ nvcr.io/nvidia/vllm:25.12.post1-py3 \ vllm serve "openai/gpt-oss-120b" --tensor-parallel-size 1 ``` 주의: DGX Spark는 단일 칩架构이라 `--tensor-parallel-size` must be `1` [3]。 ### 원본에서 빌드하는 방식 (더 상세한 제어) - CUDA 13.0 설치 - Python 3.12 virtual environment - PyTorch with CUDA 13.0 support (`cu130` wheel) - vLLM source build with `enforce_eager=True` (Blackwell 초기 버전 지원용) [4] ## 2. ComfyUI 설정 (이미지 생성) ### Docker 방식 컴퓨비티의 전문적인 디러리 이미지를 활용해 쉽게 설정할 수 있습니다. 별도의 체크포인트 디렉토리를 만들어 관리하고, GPU 액세스와 포트 매핑을 통해 원활한 실행 환경을 구축합니다. ```bash mkdir ~/comfyui_checkpoints docker run --rm -it --gpus all -p 8188:8188 \ -v ~/comfyui_checkpoints:/workspace/ComfyUI/models/checkpoints \ knamdar/spark_comfy_ui:v1 bash -c "cd /workspace/ComfyUI && python main.py --listen 0.0.0.0 --port 8188" ``` ### 네이티브 방식 소스 코드를 직접 클론하고 PyTorch 환경을 구성하여 컴퓨비.ui를 설치하는 점진적인 접근법입니다. 필요한 라이브러리와 최적화 플래그를 통해 성능을 향상시키고 VRAM 관리를 보다 세밀하게 제어할 수 있습니다. ## 3. OpenClaw 설정 마크로 시스템의 원활한 통합을 위해 wizard를 활용해 자동화된 초기 구성 프로세스를 진행합니다 [1]。 ### 단계별 설치 과정 - 공식 문서 워저드 페이지 접속 - 터미널 스크립트 실행 및 약관 동의 - AI 모델 선택 옵션.skipping or selecting Google Gemini Flash Latest IP 주소로 8188 포트 접송하여 대시보드 화면 확인" /> ### 원클릭 데브옵스 방식) ClawBox이 가장 간단한 배포 솔루션으로, 즉시 실행 가능한 http://clawbox.local) 제공 [7]。 ## 포트 포워딩 및 모니터링 원격 접근을 위해 SSH 터널을 설정합니다. 특히 DGX 대시보드의 로컬호스트 읽기에 crucial한 단계입니다. ```bash ssh -L 11000:localhost:11000 <username>@100.x.y.z ``` ## 주요 주의사항 성공적인 구현을 위한 핵심 가이드라인: 1. 그래픽카드 메모리 한계 확인(ComfyUI에서는 최대 64GB) 2. 초기 Blackwell 환경에는 일부 제약 가능 3. 원격 서비스 접근성 고려 필요 네트워크 전략이 포함됩니다. dgx spark의 강점을 살리기 위해 Tailscale로 secure 연결하고, 로컬 IDE와 vLLM API를 연동하는 전략으로 최적화할 수 있습니다. This approach ensures seamless integration and maximizes the system's potential performance [3]. I'll focus on creating a streamlined implementation strategy that leverages DGX Spark's unique capabilities while maintaining security and efficiency.</think># NVIDIA DGX Spark에 프로젝트 배포 가이드 네, 많은 세부사항이 있지만 핵심 과정을 정리해 드릴게요. ## 📋 사전 준비물 확인 ```bash # GPU visibility nvidia-smi # Driver version 580.x 이상 권장 [4] # CUDA compiler nvcc --version # CUDA 13.0 설치됨 확인 # Python version python3 --version # 3.12.x expected [4] ``` — ## 🔌 DGX Spark에 Secure 접속 (Tailscale 추천) ```bash # Mac에서 Tailscale 활성화 후, # DAGZ의 IP(100.x.y.z)로 SSH ssh <username>@100.x.y.z # 포트포워딩: 브라우저에서 DGX 대시보드 접속 ssh -L 11000:localhost:11000 <username>@100.x.y.z # http://localhost:11000 접속 가능 [3] ``` — ## 1. vLLM으로 LLM 서빙 ### 방법 A: Docker (가장 간단) ```bash docker run -it --gpus all -p 7070:8000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ nvcr.io/nvidia/vllm:25.12.post1-py3 \ vllm serve "openai/gpt-oss-120b" --tensor-parallel-size 1 ``` | 모델 | 메모리 | 비고 | |——|--——|——| | GPT-OSS-20B (MXFP4) | ~45GB | 빠름, 안정적 | | Llama-3.1-8B-Instruct (NVFP4) | ~12GB | 범용적 | | Phi-4-reasoning-plus (FP8) | ~16GB | 추론 강점 | ### 방법 B: 원본에서 빌드 (더 상세한 제어) ```bash # 1. 작업 디렉토리 생성 [4] mkdir ~/dgx-spark-vllm && cd ~/dgx-spark-vllm # 2. 필요 패키지 설치 sudo apt-get install -y cuda-toolkit-13-0 gcc-12 g++-12 build-essential cmake ninja-build git # 3. Python environment [4] python3 -m venv vllm_env source vllm_env/bin/activate # 4. PyTorch with CUDA 13.0 [4] pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130 # 5. Blackwell 대응 전략: eager mode 필수 export CUDA_HOME=/usr/local/cuda-13.0 source vllm_env/bin/activate && pip install -e . ``` **Important**: 현재 Blackwell(sm_12.1)에서는 `enforce_eager=True` 사용이 권장됩니다 [4]。 — ## 2. ComfyUI로 이미지 생성 ### 방법 A: Docker (최소설치) ```bash # 체크포인트 디렉토리 준비 mkdir ~/comfyui_checkpoints docker run --rm -it --gpus all -p 8188:8188 \ -v ~/comfyui_checkpoints:/workspace/ComfyUI/models/checkpoints \ knamdar/spark_comfy_ui:v1 bash -c "cd /workspace/ComfyUI && python main.py --listen 0.0.0.0 --port 8188" # 브라우저: http://DGX_IP:8188 ``` ### 방법 B: 네이티브 (PyTorch) ```bash git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI pip install -r requirements.txt python main.py --listen 0.0.0.0 --port 8188 --highvram --force-fp16 \ --use-pytorch-cross-attention --reserve-vram 2 [8] ``` — ## 3. OpenClaw (AI 에이전트 플랫폼) ### 빠른 시작: Wizard ```bash # Mac/VPS에서 실행 가능 [1] # ① docs.openclaw.ai/start/wizard 접속 # ② 제공된 스크립트 실행 # ③ Telegram/BotFather로 봇 생성 후 API 키 입력 docker run -it --gpus all -p 3000:3000 openclaw # http://localhost:3000에서 웹 UI 접속 [1] ``` ### DGX Spark 기반 구성 (제한된 메모리) ```bash # Unified Memory 제한 고려 # ComfyUI/LLM 서빙 시 64GB 이하 권장 [8] # OpenClaw는 자동화 에이전트로, # 텔레그램/Discord/WhatsApp 등으로 연동 가능 [1][7] ``` — ## 🔗 프로젝트 통합 ### VS Code + vLLM API 연동 ([3]) ```yaml # Local IDE 설정 (Cline 또는 similar) API Provider: OpenAI Compatible Base URL: http://100.x.y.z:7070/v1 Model ID: openai/gpt-oss-120b # or local equivalent Timeout: 300000 ms (5 minutes) # 대형 모델용 [3] ``` ### 네트워크 구조 ``` Your Laptop DGX Spark (100.x.y.z) │ │ ├─Tailscale┘ │ │ │ SSH/Tailscale ─────────►◄──────── SSH Tunnel Port 8188 http://localhost:11000 ◄──► Port 8188 [ComfyUI] Port 7070 http://localhost:3000 ◄──► Port 7070 [vLLM/OpenClaw] ``` — ## ⚠️ 주의사항 | 문제 | 해결 | |——|——| | `cudaErrorNotPermitted` (Docker after idle) | 컨테이너 재시작, GPU 접근 권한 확인 [8] | | ComfyUI 64GB limit | 메모리 최적화, 체크포인트 관리 [8] | | vLLM tensor parallelism error | DGX Spark에서만 `--tensor-parallel-size 1` [3][4] | — ## 📚 참고 문서 - **vLLM**: https://docs.vllm.ai/en/latest/ [[id:2]](source id="2"), [[id:4]](source id="4") - **ComfyUI**: https://docs.comfy.org/get_started/first_generation [[id:5]](source id="5") - **DGX Spark 문서**: https://docs.nvidia.com/dgx/dgx-spark [[id:3]](source id="3") 질문이 있으면 어디서 막히는지 알려주세요! 특정 부분 더 자세하게 설명해 드릴 수 있습니다.

개인정보보호링크