본문 바로가기

암호화폐 기초

오픈AI, 새로운 모델 o1출시…GPT 4o과의 차이점은?

오픈AI는 새 챗GPT에 탑재된 새 모델 ‘오픈AI o1’을 공개했습니다. ‘오픈AI o1’은 기존 모델과 달리 추론 능력에 초점을 두고 더 복잡한 문제를 처리할 수 있으며 수학과 코딩 등 기술적 문제 해결에 강점을 보입니다. 이는 바로 과거 오픈 AI가 연구 중이었던 AI 프로젝트 ‘스트로베리(Strawberry)’입니다.

또한 ‘오픈AI o1’ 모델은 기존 대규모언어모델(LLM) 기반 AI 모델의 약점으로 꼽힌 분석 능력을 대폭 향상했습니다. 가격과 속도 등을 중심으로 이뤄지던 생성형 AI 개발이 논증 분야로 옮겨가면서 인간의 일을 대신 수행하는 ‘AI 에이전트’의 등장이 빨라질 것이라는 전망이 나옵니다.

본문에는 오픈AI o1 기능 및 사용 방법, 장단점, GPT 4o과의 차이점에 대해서 알아봅니다.

 

‘오픈AI o1’ 모델 소개

12일(현지시각) 오픈AI가 챗GPT에 탑재된 새 모델 ‘오픈AI o1’을 공개했습니다. 오픈AI 내부에서 이 모델을 ‘오픈AI o1-프리뷰(preview)’로 정의하며 현재 제품이 초기 단계에 있음을 강조했습니다.

o1은 오픈AI가 그동안 ‘스트로베리’(Strawberry)라는 코드명으로 추론 능력에 초점을 두고 개발해 온 AI 모델으로 ‘o1’을 기반으로 수학과 코딩, 코딩 관련 작업을 통해 ‘추론’할 수 있습니다.

기존 모델과 달리 GPT라는 단어가 빠졌습니다. 이 모델이 추론에 특화된 자신들의 첫번째 모델이기 때문에 기존의 GPT라는 이름을 버리고 새롭게 시작하는 의미에서 ‘o1’이라 이름 붙였다는 설명입니다. o1 이라는 이름은 다시 1로 초기화한다는 의미를 담았습니다.

o1 모델에 가장 큰 특징 중에 하나는 질문을 하면 응답 시간이 걸릴 수 있으나 영어로 문제를 생각하고 분석하고 각도를 찾아 최선의 해답을 제시합니다. 즉, 이용자의 질문에 대한 답을 내놓기까지는 기존 모델보다 시간이 걸리지만, 단계적인 사고 과정을 통해 어려운 문제를 해결합니다.

특히 과학, 코딩, 수학 분야에서 이전 모델보다 복잡한 추론을 수행하고 더 어려운 문제도 해결할 수 있다는 것이 회사 측 설명입니다.

 

🎁투세븐빗 가입하시고 10%USDT 받으세요

투세븐빗 암호화폐 코인선물 거래소 신규 유저 한정 이벤트(입금 및 거래 시 10% 첫충전 추가 USDT 보상) <<<<

 

오픈AI o1 모델 예시

오픈AI는 각종 데모영상을 통해 o1이 가진 추론능력을 공개했습니다.

“Strawberry에 몇 개의 ‘r’ 이 있나?”라는 질문에 정확히 “3개”라고 답하는가 하면 기존 AI 모델이 풀지 못한 복잡한 퍼즐도 단계별로 풀어나갔습니다.

특히, 한국인도 제대로 이해하지 못할 수 있는 한국어를 영어로 번역했습니다.

“직우상 얻떤 번역깃돋 일끌 슈 없쥐많 한국인듦은 쉽게 앗랍볼 수 있는 한끌의 암혼화 방펍잇 잊다”(지구상 어떤 번역기도 읽을 수 없지만 한국인들은 쉽게 알아볼 수 있는 한글의 암호화 방법이 있다)라는 문장을 “No Translator on Earth can do this, but Koreans can easily recognize it”이라고 맞게 번역했습니다.

 

오픈AI o1 모델 주요 포인트 및 기능

‘생각의 사슬’(chain of thought)

이번 ‘o1’ 모델은 문제 해결을 위한 ‘생각의 사슬(CoT)’ 방식을 자체적으로 적용해 단계별로 추론하는 능력을 갖춘 것을 전해졌습니다.

CoT는 생성형 AI가 복잡한 문제를 세분화해 오류를 수정하고 실수를 인정하며 해답 찾는 과정을 뜻합니다. 복잡한 문제를 낱개로 잘라 하나씩 답을 푸는 형태입니다. 이를 통해 복잡한 문제도 차근차근 해결합니다.

이는 마치 사람이 어려운 질문에 답하기 위해 오랫동안 생각하는 것처럼 생각의 꼬리를 무는 형식입니다. 챗GPT-4o 등 기존 챗봇보다 답변 시간이 오래 걸리지만 더욱 자세하고 정확한 답변을 얻을 수 있는 이유입니다.

오픈AI는 RL을 통해 o1 성능이 지속적으로 향상되는 것을 발견했다고 설명했습니다. 오픈AI 미라 무라티 최고기술책임자(CTO)는 “o1의 추론 과정을 개선하기 위해 RL을 선택했다”며 “모델이 정답을 맞히면 긍정적인 피드백을, 틀릴 경우 부정적인 피드백을 주는 식으로 기능을 개선했다”고 설명했습니다.

모델 벤치마크 테스트

벤치마크에서는 기존 모델과 차원이 다른 성과를 거뒀다고 밝혔다, o1 모델은 물리학, 화학, 생물학 등 까다로운 벤치마크 과제에서 박사 과정 학생과 비슷한 수준을 보였으며, 국제 수학 올림피아드(IMO) 예선 시험에서 83%의 성적을 받아, 이전 모델인 ‘GPT-4o’의 13%를 크게 넘어섰습니다.

또한 ‘PhD-Level Science Questions (GPQA Diamond)’라는 벤치마크 테스트에서 실제 해당 분야 박사 학위를 취득했거나 취득 중인 전문가들도 이 벤치마크에 대한 평균 정답률은 65%에 불과했던 반면, 이번 o1 모델은 화학 64.7%, 물리 92.8%, 생물 69.2%라는 엄청난 점수를 달성했습니다.

코딩

코딩 능력을 가리는 코드포스(Codeforces)에서는 89번째 백분위에 올랐습니다. o1의 성능은 강화 학습(학습 시간 컴퓨팅)과 사고에 더 많은 시간을 할애할수록(테스트 시간 컴퓨팅) 지속적으로 향상됩니다.

오픈AI는 o1의 추론 기능이 과학, 코딩, 수학 및 이와 유사한 분야에서 복잡한 문제를 다루는 경우 특히 유용할 수 있다고 전했습니다. 예를 들어 o1은 의료 연구원이 세포 시퀀싱 데이터에 주석을 달고, 물리학자가 양자 광학에 필요한 복잡한 수학 공식을 생성하고, 모든 분야의 개발자가 다단계 워크플로를 구축하고 실행하는 데 사용할 수 있다고 설명했습니다.

 

안전성

안전성도 대폭 강화했다고 소개했습니다. 가장 어려운 탈옥 테스트 중 하나에서 GPT-4o는 22점을 받았지만, o1-프리뷰는 84점을 기록했습니다. 관련 업계에서 탈옥은 AI 모델의 윤리적 안전장치를 깨뜨리는 해위를 의미합니다. 이를 악용하면 일반적인 상황에서는 허용되지 않는 질문에 답변하도록 만들 수 있습니다.

오픈Al는 “새로운 모델을 개발하는 과정에서 추론 능력을 활용해안전 및 정렬 지침을 준수하도록 하는 새로운 안전 교육 방식을 고안해냈다”며 “상황에 맞게 안전 규칙을 추론할 수 있있게 했다”고 밝혔습니다.

인간 선호도 평가

o1은 데이터 분석이나 코딩, 수학과 같은 추론 중심 범주에서는 다른 벤치마크처럼 GPT-4o를 압도적으로 능가했습니다. 그러나 일부 자연어 작업에서는 선호가 떨어져, 모든 사용 사례에 적합한 것은 아니라는 설명입니다.

🎁투세븐빗 가입하시고 10%USDT 받으세요

투세븐빗 암호화폐 코인선물 거래소 신규 유저 한정 이벤트(입금 및 거래 시 10% 첫충전 추가 USDT 보상) <<<<

 

o1 VS GPT-4o

o1 모델이 항상 GPT-4o보다 나은 것은 아니며, 때로는 굳이 시간을 더 들여 자세한 답을 얻을 필요 없이 더 빠른 GPT-4o 응답만으로 충분한 경우가 많다고 o1 모델 개발자 Noam Brown은 설명합니다. 그리고 이번 o1-프리뷰를 출시하는 큰 동기 중 하나도 바로 어떠한 사용 사례에서 o1과 같은 모델이 인기를 얻는지, 즉 어떠한 작업에 어떠한 모델이 각각 어울리는지를 확인하기 위해서라고 밝혔습니다.

일단 그가 조사한 바로는 개인적인 글쓰기나 글 수정과 같은 작업에 있어서는 오히려 o1보다 GPT-4o가 선호되며, 프로그래밍이나 데이터 분석, 수학 문제 해결 등 좀 더 복잡한 작업에 있어서는 사람들이 시간을 더 쓰더라도 o1처럼 더 정확한 답변을 주는 모델을 선호함을 설명합니다.

그리고 그는 아직 o1-프리뷰가 완벽하지 않으며, 때때로 작동이 멈추기도 해서 앞으로 사람들이 많은 실패 사례들을 올릴 것을 알지만, 그럼에도 대부분의 경우에서 o1-프리뷰는 매우 잘 작동하고, 오픈 AI는 이를 앞으로 더욱 확장할 것이라 밝혔습니다.

결국 오픈 AI는 말 그대로 o1을 프리뷰 느낌으로 내며, 그 뒤에는 사실상 ‘AI 에이전트’로의 진입을 준비하는 것 같습니다.

 

오픈AI ‘o1-미니’

오픈AI는 ‘o1′의 프리뷰 모델과 함께 소형 모델인 ‘o1-mini’(오원-미니)도 공개했습니다. ‘o1′는 텍스트로 답을 제공하며 이미지와 영상을 제공하지는 않습니다.

미니는 개발자를 위한 비용 효율적인 코딩 전문 추론 모델입니다. 즉, 광범위한 지식이 필요하지 않은 애플리케이션에 적합한 모델로, 프리뷰보다 80% 저렴합니다.

o1-미니는 주로 프로그래밍 및 STEM(과학, 기술, 엔지니어링 및 수학) 작업에 최적화되어 있지만 특히 수학과 프로그래밍 분야에서 여전히 강력한 성능을 제공합니다.

고등학교 AIME 수학 대회에서 o1-미니는 70%를 기록하여 o1-프리뷰의 74%와 거의 맞먹는 동시에 추론 비용도 상당히 낮았습니다. 응답 속도 측면에서도 o1-미니가 더 나은 성능을 발휘합니다. 오픈AI는 언어추리 질문 테스트에서 o1-미니가 o1-프리뷰보다 약 3~5배 빠르게 정답을 답했다고 밝혔습니다.

전반적으로 o1-미니는 STEM이 아닌 사실적 지식 작업에서는 성능이 좋지 않지만 지능과 추론이 필요한 작업에서는 잘 수행할 수 있습니다.

 

🎁투세븐빗 가입하시고 10%USDT 받으세요

 

투세븐빗 암호화폐 코인선물 거래소 신규 유저 한정 이벤트(입금 및 거래 시 10% 첫충전 추가 USDT 보상) <<<<

오픈AI o1 사용법 및 수수료

현재 챗GPT 플로스(Plus) 고객과 챗GPT 팀즈 고객만 o1을 이용할 수 있습니다. 이 모델은 챗GPT 기업 고객 대상으로는 제공되지 않습니다. 엔터프라이즈(Enterprise) 및 에듀(Edu) 사용자는 다음 주에 액세스 권한을 얻게 됩니다.

질문 가능 횟수는 고급 추론에 들어가는 컴퓨팅 용량이 크기 때문에 프리뷰는 주간 한도 30개 메시지, 미니 50개 메시지로 정해졌습니다. 특히 API 사용 요금은 5단계로 구분, 가격이 상승했습니다. 월 5달러의 1티어부터 월 1000달러의 5티어까지로 확장됐습니다.

또한 오픈AI 가격 책정에 따르면 API에서 o1-프리뷰의 사용 비용은 입력 토큰 백만 개당 15달러, 출력 토큰은 최대 60달러이며, 입력 비용은 GPT-4o의 3배, 출력 비용은 4배입니다.

오픈AI는 요금을 낮추고 챗GPT가 주어진 프롬프트에 따라 적합한 모델을 자동으로 선택할 수 있도록 노력하고 있다고 밝혔습니다. 이번 모델 개발에서 강조한 부분은 ‘테스트-시간 계산(test-time computation)’ 학습법을 도입했다는 점입니다.

프리뷰와 미니는 챗GPT에서 수동으로 선택할 수 있습니다.

 

🎁투세븐빗 가입하시고 10%USDT 받으세요

투세븐빗 암호화폐 코인선물 거래소 신규 유저 한정 이벤트(입금 및 거래 시 10% 첫충전 추가 USDT 보상) <<<<

 

오픈AI o1 안전합니까?

오픈AI의 안전에 대한 약속에 따라 두 모델 모두 안전 및 정렬 지침을 따르는 능력을 향상시키는 새로운 안전 교육 방법을 갖추고 있습니다.

특히 앞서 선명한 듯이 o1-프리뷰가 가장 엄격한 탈옥 테스트 중 하나에서 84점이라는 인상적인 점수를 획득했습니다.

더 광범위한 보안 노력의 일환으로 오픈AI는 미국 및 영국 인공 지능 보안 연구소와 계약을 체결했습니다. 이러한 파트너십에는 미래의 인공 지능 시스템을 평가하고 테스트하는 데 도움이 되는 o1 모델의 연구 버전에 대한 조기 액세스 허용이 포함됩니다.

오픈AI의 보안 노력에는 포괄적인 내부 거버넌스 및 연방 정부와의 협력도 포함되며 정기적인 테스트, 레드팀, 회사 안전 보안 위원회의 이사회 수준 감독을 통해 강화됩니다.

🎁투세븐빗 가입하시고 10%USDT 받으세요

 

투세븐빗 암호화폐 코인선물 거래소 신규 유저 한정 이벤트(입금 및 거래 시 10% 첫충전 추가 USDT 보상) <<<<

“오픈AI o1″의 단점

더 많은 비용을 청구하고 특정 애플리케이션에서만 이점을 갖는 것 외에도 “오픈AI o1″에는 다음과 같은 두 가지 제한 사항이 있습니다.

1. 응답 시간이 길어짐

일부 아쉬운 부분도 있었습니다. 간단한 질문에도 응답 시간이 10초 이상 소요되는 경우가 있어 실시간 활용에 제약이 있었습니다. 국내 커뮤니티 유저 한 유저는 ‘고맙다’는 답을 듣기 위해 10초가 소요됐다는 비판을 제기한 바 있습니다.

2. 불안정한 성능

오픈AI는 또한 o1이 Tic-Tac-Toe와 같은 일부 게임에서 비정상적으로 작동하며 응답할 수 없는 상황을 인정하지 않는 경우가 많다고 지적했습니다.

 

마치며

‘o1’ 출시로 AI의 추론 능력이 한 단계 도약한 것은 분명합니다. 향후 응답 속도 개선과 사용 제한 완화가 이루어진다면 다양한 분야에서 혁신적인 활용이 기대됩니다. 특히 수학적 계산과 논리적 추론이 필요한 분야에서 큰 변화를 가져올 것으로 보입니다.

샘 알트만 오픈AI 대표는 ‘o1’의 출시에 대해 “새로운 패러다임의 시작”이라며 “AI는 이제 다양한 목적으로 복잡한 사고를 할 수 있게 됐다”고 평가했습니다.