IDE에 로컬 LLM 연결 시도 후기

Cursor나 VS Code에 로컬 LLM을 연결해서 Code AI 어시스턴트를 쓰면 어떨까 싶었는데,

찾아보니 역시나 다른 사람들이 만들어 놓은게 많아서 적용을 시도해보았다.

Ollama 라이브러리에서 Code로 검색해보니 여러가지 모델들이 있어서 옮겨 적는다. (링크)

Ollama Code LLM

2025.04.29 인기도 순 기준

Qwen2.5-Coder - 0.5B, 1.5B, 3B, 7B, 14B, 32B
Code Llama - 7B, 13B, 34B, 70B
StarCoder2 - 3B, 7B, 15B
DeepSeek-Coder-V2 - 16B, 236B
DeepSeek-Coder - 1.3B, 6.7B, 33B
CodeGemma - 2B, 7B
Codestral - 22B
Granite Code - 3B, 8B, 20B, 34B
StarCoder - 1B, 3B, 7B, 15B
CodeGeeX 4- 9B
CodeQwen1.5 - 7B
Stable Code - 3B
WizardCoder - 33B
SQLCoder - 7B, 15B
DolphinCoder - 7B, 15B
Phind Code Llama - 34B
Yi-Coder - 1.5B, 9B
DeepCoder - 1.5B, 14B
CodeUp - 13B
OpenCoder - 1.5B, 8B
Magicoder - 7B
CodeBooga - 34B

Ollama + Cursor + Cline

다음의 링크1, 링크2를 따라서 우선 ollama-docker를 설치했다.

본인은 윈도우 10에 WSL2랑 Docker Desktop을 사용하고 있다.

도커 데스크탑에서 설정 -> Resources에서 WSL Integration을 enable로 해주고 GPU 작동을 테스트했다.

RTX 4090이 24GB 램이라서 모델은 Qwen2.5-Coder - 14B로 선택했다.

허깅페이스에 등록된 모델카드 (링크)에는 BF16인데 용량이15GB라서 뭔가 이상하다 싶었다.

확인해보니 ollama에서는 Q4_K_M된 모델을 사용한다. 그래서 용량이 급격하게 줄었다.

( Q4_K_M 형식 양자화 (Quantization)에 대한 관련글은 다음을 참고: 링크1, 링크2, 링크3, 링크4 )

모델 자체 크기 15GB에 KV 캐싱이나 오버헤드를 고려해서 넉넉하게 잡았다.

여튼 ollama-docker를 설치하고,

yaml을 gpu 있는 버젼과 아닌 버젼을 모두 고쳐서 시도해봤는데도 연결이 되지 않았다.

ngrok은 주소를 열어줘야하는게 찜찜해서 건너뛰었다.

Cline이랑 연결할 수 있길래 시도해봤는데 바이브 코딩을 위한 도구라서 그런지 Cursor의 AI 대용으로는 쓰기 부적합한것 같다.

추가적으로 대화마다 캐싱되는걸 관리해줘야 하는건지, VRAM을 어떻게 초기화해주어야 배치 사이즈를 관리해서

KV 캐싱을 줄일 수 있는지 등등 고려할 점이 정말 많아서 로컬로 사용하는게 만만치 않구나 싶었다.

그래도 ollama가 어떤건지 설치 해보고 Open Web UI라는 유용한 툴이 어떤건지 구경할 수 있어서 나름의 수확이 있었다.

백그라운드 ollama 종료 방법

sudo systemctl stop ollama

업데이트

허깅페이스의 llm-vscode와 Continue라는 VS Code의 확장이 있다는걸 발견했다. 추가로 알아봐야겠다.

References:

https://github.com/ollama/ollama

https://changsroad.tistory.com/550

https://changsroad.tistory.com/502

https://anpigon.tistory.com/444

https://docs.openwebui.com/

https://github.com/mythrantic/ollama-docker

https://medium.com/@hyperfox_/run-cursor-ai-for-free-with-open-source-llm-55396c1411b1

https://qwenlm.github.io/blog/qwen2.5-coder-family/

https://www.geuni.tech/en/deepseek-r1-ollama-vscode-setup

https://wikidocs.net/279368

https://cursor.directory/mcp/ollama

https://wikidocs.net/251903

https://github.com/ggml-org/llama.cpp/blob/master/examples/quantize/README.md

https://github.com/ggml-org/llama.cpp/pull/1684

https://dytis.tistory.com/72

https://blog.omoknooni.me/148

'AI Codes' 카테고리의 다른 글

코드와 데이터 라이센스 관련 리서치 (0)	2025.06.10

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

공부 기록하는 블로그

IDE에 로컬 LLM 연결 시도 후기

Ollama Code LLM

Ollama + Cursor + Cline

'AI Codes' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역