매뉴얼 · 사용 가이드

로컬 LLM으로 코딩하기

로컬 LLM(사내 DGX-SPARK(GB10))을 IntelliJ·터미널에서 코딩 어시스턴트로 사용하는 방법입니다. 모든 요청은 사내 DGX-SPARK(GB10)에서 처리되며 외부로 나가지 않습니다.

1 · 개요

이 서버 한 대가 ① 로컬 LLM 서빙 ② 인라인 자동완성 모델 ③ 개발툴 배포(데브포탈)를 모두 제공합니다.

구성	내용
포털	`https://dev.kopens.ai`
LLM API (OpenAI 호환)	`https://api.kopens.ai/v1`
LLM API (Anthropic 호환)	`https://api.kopens.ai/v1/messages`
API 키	`sk-pp-master`
채팅 모델	`gpt-4o` (고성능 채팅·에이전트)
자동완성 모델	`code-completion` (저지연 인라인 자동완성)

2 · 설치

Windows

irm https://dev.kopens.ai/install.ps1 | iex

macOS / Linux

curl -fsSL https://dev.kopens.ai/install.sh | bash

설치 후 새 터미널을 열고, IntelliJ는 재시작하세요(환경변수/플러그인 적용).

설치 스크립트가 하는 일: Node.js 확인 → OpenCode·Claude Code 설치 → Continue·OpenCode·Claude Code 설정파일 생성(모두 이 DGX-SPARK(GB10)의 LLM을 가리킴).

3 · IntelliJ (Continue) — 자동완성 + 채팅

IntelliJ → Settings → Plugins → Marketplace → Continue 설치 후 재시작
설치 스크립트가 ~/.continue/config.yaml를 이미 생성해 둠 (채팅=gpt-4o, 자동완성=code-completion)
코드 입력 중 회색 인라인 제안이 뜨면 Tab으로 수락
채팅: 우측 Continue 패널 또는 코드 선택 후 Cmd/Ctrl+L

자동완성이 안 보이면 Continue 하단 상태바에서 모델이 Kopens Autocomplete로 선택됐는지 확인하세요.

4 · OpenCode (터미널 에이전트)

opencode            # 프로젝트 폴더에서 실행 (TUI)

기본 모델이 kopens/gpt-4o로 설정되어 있습니다. 설정: ~/.config/opencode/opencode.json

5 · Claude Code

claude              # 프로젝트 폴더에서 실행

환경변수(ANTHROPIC_BASE_URL 등)로 로컬 모델에 연결됩니다. 새 터미널에서 적용됩니다.

6 · 직접 API 호출 (선택)

어떤 OpenAI 호환 도구든 아래로 연결하면 됩니다.

curl https://api.kopens.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-pp-master" \
  -H "Content-Type: application/json" \
  -d '{"model":"gpt-4o","messages":[{"role":"user","content":"hi"}],"max_tokens":2000}'

참고: 채팅 모델은 추론(Thinking)형이라 max_tokens를 넉넉히(2000+) 주세요. 너무 작으면 사고과정만 차고 본문이 안 나올 수 있습니다.

7 · 문제 해결

증상	조치
명령어 not found	새 터미널을 여세요(PATH/환경변수 갱신). Node.js 설치 확인.
연결 실패	이 서버(`https://api.kopens.ai`)에 네트워크 접근 가능한지 확인.
자동완성 없음	Continue 플러그인 설치/재시작, `~/.continue/config.yaml` 확인.
응답이 비어있음	`max_tokens`를 늘리세요(2000+).