카테고리 없음

예상치 못한 강자의 등장! Qwen 3가 AI 판도를 뒤흔들다

도경정 2025. 4. 29. 09:59

AI 업계는 숨 가쁘게 발전하며 매일 새로운 혁신을 쏟아내고 있습니다. 최근 많은 이들이 Deepseek의 차세대 모델을 주목하던 가운데, 예상치 못한 강력한 도전자가 등장하며 AI 판도를 뒤흔들고 있습니다. 바로 알리바바 클라우드가 새롭게 공개한 오픈 소스 AI 모델, Qwen 3입니다. 웨스 로스(Wes Roth)의 유튜브 채널 리뷰 영상에서 심층적으로 다뤄진 것처럼, Qwen 3는 공개 직후 최고 수준의 AI 모델들과 어깨를 나란히 하며 업계에 큰 파장을 일으키고 있습니다. 복잡해 보이는 이름 뒤에 숨겨진 놀라운 성능과 혁신적인 기능들은 앞으로 AI 기술의 미래에 대한 기대감을 증폭시키고 있습니다. 과연 Qwen 3는 어떤 비밀을 품고 있기에 이토록 뜨거운 관심을 받고 있는 것일까요?

암호 같은 이름 속에 숨겨진 비밀: Mixture-of-Experts (MoE)

Qwen 3의 대표 모델명은 'Qwen 3 235B A22B'입니다. 마치 암호처럼 느껴지는 이 이름 속에는 모델의 핵심 특징이 담겨 있습니다. 'Qwen 3'는 모델 제품군을 나타내며, '235B'는 무려 2,350억 개의 매개변수 수를 의미합니다. 여기서 핵심은 바로 'A22B'입니다. 이는 Qwen 3Mixture-of-Experts (MoE), 즉 전문가 혼합 방식을 채택했다는 것을 의미합니다. MoE는 특정 질문에 대해 모델 전체가 아닌, 필요한 전문가 부분만 활성화하여 답변하는 기술로, 'A22B'는 실제로 활성화되는 매개변수가 220억 개임을 나타냅니다. 이는 Qwen 3가 거대한 규모에도 불구하고 효율적인 연산 능력을 자랑하는 비결입니다. 이러한 MoE 구조는 Qwen 3가 뛰어난 성능을 발휘하는 데 결정적인 역할을 합니다.

세계 최고 수준의 AI와 어깨를 나란히 하다: 놀라운 벤치마크 성능

Qwen 3의 뛰어난 성능은 각종 AI 벤치마크 성능 테스트 결과에서 여실히 드러납니다. 웨스 로스의 영상에서는 Gemini 2.5 Pro, OpenAI의 O3 Mini와 같은 최첨단 AI 모델들과 비교가 이루어졌는데, 놀랍게도 Qwen 3는 이들과 대등하거나 심지어 일부 벤치마크에서는 능가하는 결과를 보여주었습니다. 특히 Arena Hard, Live Code Bench, Code Forces와 같은 어려운 코딩 및 추론 벤치마크에서 Gemini 2.5 Pro와 경쟁하거나 앞서는 결과는 이 오픈 소스 AI 모델의 잠재력을 명확하게 보여주는 지표입니다. 물론 벤치마크 점수가 모든 것을 의미하는 것은 아니지만, 객관적인 수치를 통해 Qwen 3가 현재 최고 수준의 AI 모델들과 견줄 수 있다는 사실은 분명합니다. 이러한 결과는 AI 업계의 AI 판도 변화를 예고하는 중요한 신호탄이 될 수 있습니다.

상황에 따라 똑똑하게 사고하는 AI: 사고 모드와 비사고 모드

Qwen 3의 또 다른 흥미로운 특징은 '사고 모드(Thinking Mode)'와 '비사고 모드(Non-Thinking Mode)'를 모두 지원한다는 점입니다. 사고 모드는 복잡한 문제에 대해 깊이 생각하고 추론하여 답변을 생성하는 방식이며, 비사고 모드는 빠르고 즉각적인 응답을 제공하는 방식입니다. 사용자는 필요에 따라 이 두 가지 모드를 자유롭게 조절할 수 있습니다. 영상에서 확인할 수 있듯이, 어려운 문제에 대해 더 많은 토큰을 사용하여 깊이 생각하도록 설정했을 때 벤치마크 성능이 크게 향상되는 것을 확인할 수 있습니다. 이는 MoE 구조와 결합되어 Qwen 3가 상황에 맞춰 자원을 효율적으로 활용하며 최적의 결과를 도출할 수 있도록 돕습니다. 이러한 유연성은 Qwen 3를 더욱 강력한 AI 모델로 만들어주는 핵심 요소입니다.

방대한 데이터와 체계적인 훈련 과정: 강력한 성능의 기반

이처럼 놀라운 성능 뒤에는 방대한 학습 데이터와 정교한 훈련 과정이 숨어 있습니다. Qwen 3는 이전 모델인 Qwen 2.5 대비 거의 두 배에 달하는 방대한 데이터를 학습했습니다. 웹 데이터는 물론 PDF 문서 등 다양한 형태의 데이터를 활용했으며, 심지어 이전 세대 Qwen 모델을 활용하여 텍스트를 추출하고 품질을 개선하며, 수학 및 코드 관련 합성 데이터를 생성하는 놀라운 능력까지 보여줍니다. 이는 AI가 스스로 다음 세대 AI를 위한 데이터를 만들고 개선하는 흥미로운 자기 발전의 모습을 시사합니다. 이러한 데이터 전략은 Qwen 3가 다양한 분야에서 뛰어난 성능을 발휘하는 튼튼한 기반이 되었습니다.

훈련 과정 또한 매우 체계적입니다. 3단계의 사전 훈련을 통해 기본적인 언어 능력부터 시작하여 점차 지식 집약적인 데이터(STEM, 코딩, 추론)의 비중을 높이고, 마지막에는 고품질의 긴 컨텍스트 데이터로 컨텍스트 길이를 확장했습니다. 이후 4단계의 사후 훈련을 통해 긴 사고 연쇄 콜드 스타트, 강화 학습, 사고/비사고 모드 융합 등 최신 AI 모델 훈련 기법을 적극적으로 도입했습니다. 이러한 정교한 훈련 과정을 통해 Qwen 3는 뛰어난 추론 능력과 유연성을 갖춘 강력한 AI 모델로 탄생할 수 있었습니다.

오픈 소스가 가져올 거대한 변화: AI 생태계의 새로운 희망

가장 주목할 만한 점은 Qwen 3오픈 소스 AI 모델로 공개되었다는 사실입니다. 아파치 2.0 라이선스 하에 모델 가중치까지 공개되어 연구자, 개발자, 기업 누구나 자유롭게 연구하고 상업적으로 활용할 수 있습니다. 이는 단순히 강력한 AI 모델 하나가 등장한 것을 넘어, AI 기술 생태계 전체의 발전을 촉진하는 중요한 전환점이 될 것입니다. 개발팀은 모델 카드에 공개되지 않은 흥미로운 기능들이 더 있으며, 앞으로 '에이전트 학습' 시대로 나아갈 것이라고 예고하며 기대감을 더욱 높이고 있습니다. Mixture-of-Experts (MoE) 기술, 혁신적인 훈련 방식, 그리고 놀라운 AI 벤치마크 성능까지, Qwen 3는 오픈 소스 진영의 새로운 희망으로 떠오르며 AI 판도 변화를 이끌어갈 잠재력을 보여주고 있습니다. 앞으로 이 모델이 가져올 혁신적인 변화에 귀추가 주목됩니다.

 

영상주소 : youtube.com/watch?v=gk0PrTcZfGA
사진출처 : 유튜브 Wes Roth 캡처
사진의 모든 권리는 유튜브 Wes Roth 에게 있습니다.