로컬 LLM(사내 DGX-SPARK(GB10))을 IntelliJ·터미널에서 코딩 어시스턴트로 사용하는 방법입니다. 모든 요청은 사내 DGX-SPARK(GB10)에서 처리되며 외부로 나가지 않습니다.
이 서버 한 대가 ① 로컬 LLM 서빙 ② 인라인 자동완성 모델 ③ 개발툴 배포(데브포탈)를 모두 제공합니다.
| 구성 | 내용 |
|---|---|
| 포털 | https://dev.kopens.ai |
| LLM API (OpenAI 호환) | https://api.kopens.ai/v1 |
| LLM API (Anthropic 호환) | https://api.kopens.ai/v1/messages |
| API 키 | sk-pp-master |
| 채팅 모델 | gpt-4o (고성능 채팅·에이전트) |
| 자동완성 모델 | code-completion (저지연 인라인 자동완성) |
irm https://dev.kopens.ai/install.ps1 | iex
curl -fsSL https://dev.kopens.ai/install.sh | bash
설치 스크립트가 하는 일: Node.js 확인 → OpenCode·Claude Code 설치 → Continue·OpenCode·Claude Code 설정파일 생성(모두 이 DGX-SPARK(GB10)의 LLM을 가리킴).
~/.continue/config.yaml를 이미 생성해 둠 (채팅=gpt-4o, 자동완성=code-completion)opencode # 프로젝트 폴더에서 실행 (TUI)
기본 모델이 kopens/gpt-4o로 설정되어 있습니다. 설정: ~/.config/opencode/opencode.json
claude # 프로젝트 폴더에서 실행
환경변수(ANTHROPIC_BASE_URL 등)로 로컬 모델에 연결됩니다. 새 터미널에서 적용됩니다.
어떤 OpenAI 호환 도구든 아래로 연결하면 됩니다.
curl https://api.kopens.ai/v1/chat/completions \
-H "Authorization: Bearer sk-pp-master" \
-H "Content-Type: application/json" \
-d '{"model":"gpt-4o","messages":[{"role":"user","content":"hi"}],"max_tokens":2000}'
max_tokens를 넉넉히(2000+) 주세요. 너무 작으면 사고과정만 차고 본문이 안 나올 수 있습니다.| 증상 | 조치 |
|---|---|
| 명령어 not found | 새 터미널을 여세요(PATH/환경변수 갱신). Node.js 설치 확인. |
| 연결 실패 | 이 서버(https://api.kopens.ai)에 네트워크 접근 가능한지 확인. |
| 자동완성 없음 | Continue 플러그인 설치/재시작, ~/.continue/config.yaml 확인. |
| 응답이 비어있음 | max_tokens를 늘리세요(2000+). |