Cursor나 VS Code에 로컬 LLM을 연결해서 Code AI 어시스턴트를 쓰면 어떨까 싶었는데,
찾아보니 역시나 다른 사람들이 만들어 놓은게 많아서 적용을 시도해보았다.
Ollama 라이브러리에서 Code로 검색해보니 여러가지 모델들이 있어서 옮겨 적는다. (링크)
Ollama Code LLM
2025.04.29 인기도 순 기준
- Qwen2.5-Coder - 0.5B, 1.5B, 3B, 7B, 14B, 32B
- Code Llama - 7B, 13B, 34B, 70B
- StarCoder2 - 3B, 7B, 15B
- DeepSeek-Coder-V2 - 16B, 236B
- DeepSeek-Coder - 1.3B, 6.7B, 33B
- CodeGemma - 2B, 7B
- Codestral - 22B
- Granite Code - 3B, 8B, 20B, 34B
- StarCoder - 1B, 3B, 7B, 15B
- CodeGeeX 4- 9B
- CodeQwen1.5 - 7B
- Stable Code - 3B
- WizardCoder - 33B
- SQLCoder - 7B, 15B
- DolphinCoder - 7B, 15B
- Phind Code Llama - 34B
- Yi-Coder - 1.5B, 9B
- DeepCoder - 1.5B, 14B
- CodeUp - 13B
- OpenCoder - 1.5B, 8B
- Magicoder - 7B
- CodeBooga - 34B
Ollama + Cursor + Cline
다음의 링크1, 링크2를 따라서 우선 ollama-docker를 설치했다.
본인은 윈도우 10에 WSL2랑 Docker Desktop을 사용하고 있다.
도커 데스크탑에서 설정 -> Resources에서 WSL Integration을 enable로 해주고 GPU 작동을 테스트했다.
RTX 4090이 24GB 램이라서 모델은 Qwen2.5-Coder - 14B로 선택했다.
허깅페이스에 등록된 모델카드 (링크)에는 BF16인데 용량이15GB라서 뭔가 이상하다 싶었다.
확인해보니 ollama에서는 Q4_K_M된 모델을 사용한다. 그래서 용량이 급격하게 줄었다.
( Q4_K_M 형식 양자화 (Quantization)에 대한 관련글은 다음을 참고: 링크1, 링크2, 링크3, 링크4 )
모델 자체 크기 15GB에 KV 캐싱이나 오버헤드를 고려해서 넉넉하게 잡았다.
여튼 ollama-docker를 설치하고,
yaml을 gpu 있는 버젼과 아닌 버젼을 모두 고쳐서 시도해봤는데도 연결이 되지 않았다.
ngrok은 주소를 열어줘야하는게 찜찜해서 건너뛰었다.
Cline이랑 연결할 수 있길래 시도해봤는데 바이브 코딩을 위한 도구라서 그런지 Cursor의 AI 대용으로는 쓰기 부적합한것 같다.
추가적으로 대화마다 캐싱되는걸 관리해줘야 하는건지, VRAM을 어떻게 초기화해주어야 배치 사이즈를 관리해서
KV 캐싱을 줄일 수 있는지 등등 고려할 점이 정말 많아서 로컬로 사용하는게 만만치 않구나 싶었다.
그래도 ollama가 어떤건지 설치 해보고 Open Web UI라는 유용한 툴이 어떤건지 구경할 수 있어서 나름의 수확이 있었다.
백그라운드 ollama 종료 방법
sudo systemctl stop ollama
업데이트
허깅페이스의 llm-vscode와 Continue라는 VS Code의 확장이 있다는걸 발견했다. 추가로 알아봐야겠다.
References:
https://github.com/ollama/ollama
https://changsroad.tistory.com/550
https://changsroad.tistory.com/502
https://anpigon.tistory.com/444
https://github.com/mythrantic/ollama-docker
https://medium.com/@hyperfox_/run-cursor-ai-for-free-with-open-source-llm-55396c1411b1
https://qwenlm.github.io/blog/qwen2.5-coder-family/
https://www.geuni.tech/en/deepseek-r1-ollama-vscode-setup
https://cursor.directory/mcp/ollama
https://github.com/ggml-org/llama.cpp/blob/master/examples/quantize/README.md
https://github.com/ggml-org/llama.cpp/pull/1684
'AI Codes' 카테고리의 다른 글
코드와 데이터 라이센스 관련 리서치 (0) | 2025.06.10 |
---|