안녕하세요.
오늘따라 ChatGPT를 쓰면서 다른 분들은 개발에 있어서 어떤 AI 모델을 쓰시는지 궁금해서 여쭤봅니다.
저는 OpenAI ChatGPT만 결제해서 Plus Plan으로 사용하고 있습니다.
주로 C++, MFC에 대해서 질문하고 어쩌다 보니 C#은 사용하지 않게 되었지만 가끔식 공부하면서 C#도 물어봅니다.
GPT를 검색 엔진처럼 생각하고 사용하고 있는데, 구글에서 검색해도 이상한 자료가 있을 수 있고, 또 AI도 인터넷상의 많은 자료를 바탕으로 학습했을 거라고 생각해서 요즘은 구글링보다 GPT를 더 많이 사용합니다.
제가 GPT를 쓰면서 느낀 점은, 현재 범용적으로 사용되는 ChatGPT 4o 모델은 개발에 관해서는 성능이 별로인 것 같아요.
반면, o3-mini-high는 나름 만족하면서 사용 중입니다.
그런데 GPT한테 물어봤을 때, ChatGPT 4o가 더 범용적인 학습 모델이므로 IT 개발에도 적합하다고 하네요?
말만 그럴싸하게 하지, 내용은 별로라고 느꼈는데… 열받게 했을 때도 많고…
일단 생성형 AI 모델의 특성을 먼저 이해하셔야 할 것 같아요. GPT-3 이후 출시된 모든 모델들은 일정 응답 시간 내에 결과를 도출하도록 설계된 모델들입니다. 그래서 답변 속도는 빠르지만, 어떻게든 답을 이끌어내도록 설계되어있어서 지식이 부족하거나 프롬프트에 추가 데이터가 없을 경우 말을 지어내는 환각 증상이 좀 더 잘 드러나는 편입니다.
반면에 최근 출시된 GPT-o1이나 -o3-* 시리즈들은 사용자의 질문에 대한 답을 바로 꺼내지 않고 몇 번의 thinking (결과 검토) 과정을 거쳐서 답을 정제하는 동작을 수행하기 때문에 말씀하신대로 결과에서 차이가 나타납니다. 그러나, 그렇다고 하더라도 여전히 학습된 데이터가 충분하지 않다면 비슷한 결과를 낼 수도 있습니다.
많이 경험하셨겠지만 GPT는 방대한 데이터셋을 "요약"하고 "정리"하는 데에 특화된 도구입니다. 많은 상황에서 GPT의 이런 능력은 방대한 검색 결과를 정리하고 이해하는 데 드는 수고를 덜어주긴 하지만, 그렇다고 해서 검색을 대체하지는 못합니다. 특히 정보를 획득함에 있어서 원래 어떤 내용이었는지 아는 것이 매우 중요한데, GPT는 "확률"을 기반으로한 의사 결정을 수행하므로 사람의 의중을 100% 다 이해하지 못하는 경우도 생깁니다.
제 경우에는 GPT를 “나침반” 정도의 의미로만 해석하고 사용하는 것 같습니다. GPT에 모든 의사 결정을 맡기는 것은 마치 러시안 룰렛 게임을 하는 것과 같이 복불복이라고 생각합니다. (아무리 모델이 잘 나오고 딥 리서치가 정교한 결과를 낸다 한들요.)
또한 말씀하신대로 GPT를 신뢰할 수 있으려면, 모든 GPT류 서비스에서 아래 문구가 제거되더라도 소송을 당하지 않을 수 있어야 한다는 전제가 붙는다고도 생각합니다.