Ollama 사용 가이드 - llama3 버전 V.2
시작 전 확인사항
이 가이드를 따라하기 위해 아래 항목이 준비되어 있어야 합니다.
| 항목 | 설명 |
|---|---|
| Gcube 계정 | gcube.ai 회원가입 필요 |
| SSH 터미널 프로그램 | Putty 또는 동일한 기능의 터미널 프로그램 |
| 크레딧 잔액 | Gcube 플랫폼 이용 시 GPU 사용 비용 발생 (시간 단위 과금) |
💡 Putty 다운로드: https://putty.softonic.kr/에서 무료로 다운로드할 수 있습니다.
개요
Ollama란?
Ollama는 로컬 환경에서 오픈소스 AI 언어 모델을 다운로드하고 실행할 수 있게 해주는 플랫폼입니다.
이 가이드에서는 Gcube 클라우드 GPU 환경 위에서 Ollama를 실행하고,
SSH를 통해 접속하여 Llama3 모델을 사용하는 방법을 안내합니다.
Ollama에서 사용할 수 있는 대표적인 AI 모델은 다음과 같습니다.
| 모델 | 개발사 | 특징 |
|---|---|---|
| Llama 3 | Meta | 자연어 처리 성능 우수 |
| Phi 3 | Microsoft Research | 추론 및 언어 이해 능력 강점 |
| Mistral | Mistral AI | 다양한 언어 작업에 최적화 |
| Gemma 2 | 자연어 처리 및 생성 작업에 강점 | |
| CodeGemma | 코드 생성 및 완성에 특화 |
0단계 — Gcube 계정 생성 및 로그인
0-1. 회원가입
https://gcube.ai 에 접속 후 우측 상단 "회원가입" 버튼을 클릭합니다.
이메일 인증을 완료하면 계정이 생성됩니다.
0-2. 로그인
회원가입 완료 후 동일한 페이지에서 로그인합니다.
0-3. 크레딧 확인
Gcube는 GPU 사용 시간에 따라 요금이 부과됩니다. 사용 전 대시보드에서 크레딧 잔액을 확인하세요.
요금 주의
워크로드는 배포 후부터 중지할 때까지 시간 단위로 과금됩니다.
사용 후 반드시 워크로드를 중지하세요. 중지 방법은 워크로드-워크로드 중지 항목을 참고하세요.
1단계 — Gcube 플랫폼에서 워크로드 등록하기
1-1. 워크로드 페이지 접속
https://gcube.ai/ko/demand/workload/list 에 접속합니다.
①새 워크로드를 등록하거나, ②기존에 등록된 워크로드를 선택해 수정합니다.

1-2. 설명 입력
워크로드 이름을 입력합니다.

1-3. 컨테이너 설정
아래 내용을 순서대로 입력합니다.
| 항목 | 입력값 |
|---|---|
| 저장소 유형 | 도커허브 |
| 컨테이너 이미지 | ollama/ollama:latest |
| 컨테이너 포트 | 11434 (이미지 검증 후 자동 입력됨) |
💡 컨테이너 이미지 입력 후 옆의 이미지검증을 눌러 이미지 검증을 진행하세요.
검증이 완료되면 컨테이너 포트(11434)가 자동으로 입력됩니다.공식 이미지 참조: https://hub.docker.com/r/ollama/ollama

1-4. 옵션 설정
옵션 항목은 이 가이드에서 별도로 설정하지 않아도 됩니다. 각 항목의 의미는 아래를 참고하세요.
| 옵션 | 설명 |
|---|---|
| 컨테이너 명령 | 컨테이너 실행 시 시작될 명령어 (Dockerfile의 CMD) |
| 최대 동시 접속 수 | 컨테이너에 동시에 접속할 수 있는 최대 사용자 수 설정 |
| 컨테이너 환경변수 | 컨테이너 내부에서 사용할 환경변수 (Dockerfile의 ENV) |
| 개인 Storage | 컨테이너가 재시작되거나 삭제되어도 데이터가 유지되는 개인 전용 저장 공간 |
| 저장소 인증 | 프라이빗 컨테이너 이미지 저장소에 접근하기 위한 인증 정보 설정 |

1-5. 목적 스펙 선택
사용 목적에 맞는 GPU 스펙을 선택합니다.
| 티어 | 설명 |
|---|---|
| Tier 1 | 고성능 |
| Tier 2 | 고신뢰성 |
| Tier 3 | 개인 사용자 |
추천
처음 사용하신다면 Tier 2 — RTX 5090 을 선택하세요. 이 가이드의 예제도 해당 스펙을 기준으로 합니다.

1-6. 최종 확인 및 배포
선택한 스펙의 시간당 예상 금액을 확인합니다.
요금 안내
표시되는 금액은 시간당 최대 요금입니다. 실제 사용 시간에 비례해 청구되므로, 테스트 후에는 워크로드를 반드시 중지하세요.
내용이 맞으면 '즉시배포' 를 선택해 등록 및 배포를 완료합니다.

2단계 — Llama3 모델 실행하기
2-1. 생성된 워크로드 확인
워크로드 페이지에서 방금 만든 워크로드 이름을 클릭하면 세부 정보로 진입합니다.

세부 정보 화면에서 확인할 수 있는 주요 항목은 다음과 같습니다.
- 개요: 워크로드 번호, 상태, 서비스 URL 등
- 컨테이너: 이미지, 포트, 생성/배포/종료 일시 등
- 목적스펙: GPU 정보 등
- 배포상태: 파드 상태, 컨테이너 로그, 터미널, SSH 정보 등

2-2. SSH 접속 정보 확인
파드 상태가 ①'실행' 으로 표시되면, ②컨테이너 SSH 를 클릭합니다.
💡 배포 직후에는 파드가 준비되는 데 수 분이 걸릴 수 있습니다. '실행' 상태가 될 때까지 기다린 후 진행하세요.
공인 IP ③조회 및 접속 정보를 ④등록하면 아래와 같은 SSH 접속 정보를 확인할 수 있습니다.
- IP 주소
- Port
- 사용자 아이디
- 사용자 비밀번호
이 정보를 메모해두세요. 다음 단계에서 터미널 프로그램에 입력합니다.


2-3. Putty로 컨테이너 접속
Putty를 실행한 후 위에서 확인한 SSH 접속 정보를 입력합니다.
| 번호 | Putty 항목 | 입력값 |
|---|---|---|
| 1 | Host Name | SSH 접속 정보의 IP 주소 |
| 2 | Port | SSH 접속 정보의 Port 번호 |

Open 버튼을 클릭하면 터미널 창이 열립니다.
③사용자 아이디와 ④비밀번호를 순서대로 입력하면 컨테이너에 접속됩니다.

2-4. Llama3 모델 다운로드 및 실행
터미널에 아래 명령어를 입력합니다. 모델 크기는 약 4.7GB이며, 다운로드에 수 분이 소요될 수 있습니다.

다운로드가 완료되면 모델이 자동으로 실행되며, 터미널에서 바로 AI와 대화할 수 있습니다.
3단계 — Llama3와 대화하기
모델 실행 후 터미널에 질문을 입력하면 Llama3가 응답합니다. ChatGPT처럼 자연어로 질문하면 됩니다.
사용 예시

대화를 종료하려면 아래 명령어를 입력합니다.
4단계 — 워크로드 중지 및 삭제
반드시 확인하세요
워크로드를 중지하지 않으면 사용하지 않는 동안에도 요금이 계속 부과됩니다.
4-1. 워크로드 중지
워크로드 관리에서 배포중인 워크로드의 "배포 중지" 버튼을 클릭합니다.
워크로드 상태가 '배포 중지'로 바뀌면 과금이 멈춥니다.
💡 중지 후 재시작 시 모델을 다시 다운로드해야 할 수 있습니다.
자주 사용한다면 중지보다 사용 중 유지 후 삭제하는 방식을 고려하세요.

4-2. 워크로드 삭제
더 이상 사용하지 않을 경우 워크로드 목록에서 해당 워크로드를 삭제합니다.
삭제 시 컨테이너 내부 데이터(다운로드된 모델 포함)가 모두 제거됩니다.
문제 해결 (FAQ)
Q. 파드 상태가 '실행'이 되지 않아요.
배포 직후에는 준비 시간이 필요합니다. 수 분 후 페이지를 새로고침해 보세요.
그래도 해결되지 않으면 배포상태 탭의 컨테이너 로그를 확인하세요.
Q. Putty에서 접속이 안 돼요.
아래 항목을 순서대로 확인하세요.
- 워크로드 파드 상태가 '실행' 중인지 확인
- IP 주소와 Port 번호가 정확히 입력되었는지 확인
- SSH 접속 정보 화면에서 정보를 다시 조회한 후 재시도
Q. 모델 다운로드가 너무 느려요.
Llama3 모델은 약 4.7GB입니다.
네트워크 환경에 따라 시간이 걸릴 수 있으며, 터미널을 닫지 말고 완료될 때까지 기다리세요.
Q. 워크로드를 중지했다가 다시 시작하면 모델을 다시 설치해야 하나요?
컨테이너를 중지(Stop) 했다가 재시작하면 기존 데이터가 유지되지 않을 수 있습니다.
삭제(Delete) 한 경우에는 반드시 모델을 다시 다운로드해야 합니다.