어플리케이션, 앱 (Application)/잡담

단일 모델 기준 코드 작성 성능에 대한 비교

sobal 2025. 5. 4. 04:08

대학교에서 사용자 맞춤형 동화 생성 및 낭독 서비스를 개발하면서 여러 생성형 모델을 써본 경험을 간단히 써보고자 한다.

생성형 모델의 원조격이라 할 수 있는 gpt, 그중에서도 o4-mini-high와 o3를 많이 쓰고 프로젝트 형식으로도 많이 써봤는데 일단 프로젝트 지식에 넣을 수 있는 파일이 20개 밖에 안 되는 것도 아쉽고 코드 작성도 매번 같은 기능을 다르게 작성하는 탓에 프로젝트에 제대로 써먹기 어려웠다. 작정하고 프롬프팅 하면 뭐 달라질 것 같긴 한데 기본적으로 코드를 정확하게 작성을 안 해줘서 계속해서 쓰기에는 영 부족한 점이 많다.

그리고 무슨 명령을 내려도 UI/UX는 진짜 멍멍이 판이다 그냥 사람이 하는 게 더 빠르고 더 낫다. 그래도 성능 자체는 부족한 게 아니라 UI/UX를 신경 쓰지 않고 기능 구현에만 집중하거나 에러 찾을 때, 단일 기능을 추가할 때 쓸 만 하긴 하다.  

클로드 3.7은 최근 들어 자주 쓰게 됐는데 프로젝트 하나당 저장할 수 있는 문자 수는 영어 기준으로 대략 50만 자 이상이고 용량으로 따지면 500KB 이상이어서 소규모 프로젝트의 경우 프로젝트 기능으로 수월하게 작업할 수 있다. 그리고 GPT와 다르게 기존 코드를 변형해서 알려주는 일이 현재 기준으로는 거의 없고 UI/UX 구현의 경우 거의 1 티어라 할 수 있어서 개발을 진행하기에 매우 적합했다. 물론 어떤 하드 한 기능을 구현할 거면 다른 모델들이랑 더 자세하게 비교해 보는 게 좋을 것 같다.

나머지 Gemini(혹은 Firbase studio) 나 grok, deepseek의 경우 모두 성능이 뛰어나고 각각의 장점이 있지만 아직은 뭔가 메인으로 쓰기에는 애매한 느낌이 있어서 보조로만 쓰고 있고 어느 정도 개발자들의 후기가 쌓이면 한 번 제대로 분석해보고자 한다.

이젠 많은 사람들이 Cursor와 Windsurf를 많이 쓰지만 아직 비용적인 문제도 있고 AI모델은 같다는 점, 안드로이드 스튜디오의 편리성 등등 때문에 본격적으로는 쓰지 않고 있다.

그래서 결론은? 현재 기준으로 앱 개발에 있어서는 클로드가 제일 도움이 많이 된다!