내 컴퓨터 성능이 Ollama를 이용하기에는 부족한가요? 그럼 최근 AI 추론에 진심인 NVIDIA의 서비스를 사용해보세요. 신용카드 등록 필요없이 최신 모델을 써볼 수 있습니다. OpenAI의 GPT-OSS, 알리바바의 Qwen 3.5, Z.ai의 GLM-5, NVIDIA의 NeMoTron-3-Super 등의 바이브코딩을 위한 고급 모델을 쓸 수 있습니다. OpenAI API를 써보셨다구요? 그럼 바로 시작할 수 있습니다. 이 포스트는 저 같은 GPU Poor 개발자를 위한 무료 LLM API를 소개하는 유용한 글입니다.

공식 사이트는 https://build.nvidia.com 입니다.
Try NVIDIA NIM APIs
Experience the leading models to build enterprise generative AI apps now.
build.nvidia.com
NVIDIA NIM은 엔비디아에서 최적화한 모델 컨테이너 서비스입니다. 'NVIDIA GPU에서 제일 잘 돌아가는 LLM 도커를 만들어 드릴게요. 여러분은 구독하고 실행만 하시면 됩니다!' 라는 비즈니스 모델이었습니다. 그리고 2024 NVIDIA GTC를 기점으로 개발자를 위한 무료 API를 제공하고 있습니다. (쿼터는 매우 넉넉합니다)
회원가입하시고 API키를 발급받으시면 바로 사용할 수 있습니다. (단, 오남용을 막기 위해 휴대전화번호 인증이 필요합니다)

키는 6개월간 유효합니다. API의 형식은 OpenAI 호환 API 입니다.
- api_type: openai
- base_url: https://integrate.api.nvidia.com/v1 (curl, openai sdk, langchain, pydantic ai 등 대부분의 OpenAI 호출법을 호환합니다.)
- models: https://integrate.api.nvidia.com/v1/models (이 주소에서 지금 사용할 수 있는 모델 정보를 제공합니다. 100개 이상의 모델을 지원합니다.)
- 카탈로그: https://build.nvidia.com/models (추론, 임베딩, 이미지 생성, 음성 생성 등 다양한 모델이 있습니다)
- 가이드라인: 평가나 프로토타이핑용으로 설계하였습니다. 프로덕션에 사용하면 이용약관에 위배됩니다.
대표적인 모델인 `nvidia/nemotron-3-super-120b-a12b`를 사용할 수 있습니다. 이 주소로 접속하시면 바로 대화형 UI가 나옵니다.

웹 기반의 AI 서비스처럼 여러 질문을 할 수 있습니다.

그리고 오른쪽 위의 'View Code'를 누르면 다음과 같은 코드 예제도 볼 수 있습니다.
from openai import OpenAI
client = OpenAI(
base_url = "https://integrate.api.nvidia.com/v1",
api_key = "$NVIDIA_API_KEY"
)
completion = client.chat.completions.create(
model="nvidia/nemotron-3-super-120b-a12b",
messages=[{"role":"user","content":""}],
temperature=1,
top_p=0.95,
max_tokens=16384,
extra_body={"chat_template_kwargs":{"enable_thinking":True},"reasoning_budget":16384},
stream=True
)
for chunk in completion:
if not chunk.choices:
continue
reasoning = getattr(chunk.choices[0].delta, "reasoning_content", None)
if reasoning:
print(reasoning, end="")
if chunk.choices[0].delta.content is not None:
print(chunk.choices[0].delta.content, end="")
Shell 및 Python/TypeScript를 위한 랭체인 코드도 예시로 제공하고 있습니다.

이 가이드를 이용하면 NIM APIs를 여러분이 개발하고 싶은 AI 에이전트의 LLM 공급자로 쓸 수 있습니다.
위 API를 codex에 연동하여 사용할 수도 있습니다. 또 claude-code-proxy와 함께 사용한다면 claude code와도 함께 사용할 수 있습니다. 이는 다음 포스트에서 다뤄보겠습니다.
감사합니다.
'LLMOps' 카테고리의 다른 글
| 🦙 올라마(Ollama)#5: 사설망에서 올라마(Ollama) LLM 사용하기 (2) | 2024.11.23 |
|---|---|
| 🦙 올라마(Ollama)#3: 내 컴퓨터에서 도커로 올라마 사용하기 (6) | 2024.11.17 |
| 🦙 올라마(Ollama)#2: 내 컴퓨터에서 코드로 올라마 사용하기 (14) | 2024.11.16 |
| 🦙 올라마(Ollama): 나만의 GPT를 서비스 할 수 있는 도구를 소개합니다 (3) | 2024.11.15 |
어제보다 오늘 더 공부 잘하는 코딩냥이. 어제보다 오늘 더 일 잘하는 코딩냥이.
포스팅이 좋았다면, 오류를 발견했다면, 더 좋은 아이디어가 있다면 댓글 부탁드립니다!