Alibaba, WAIC 2025에서 스마트 콕핏, AI 안경 및 전략적 파트너십 발표
Alibaba Cloud는 WAIC 2025에서 자사의 AI 언어 모델 응용을 선보이며, 차량용 스마트 콕핏, Signify와의 도시 조명 솔루션, 연결 안경을 발표했습니다. 오픈 소...
대형 언어 모델(LLM)은 사이버 보안에서 의료까지 다양한 분야에서 필수적인 도구로 자리 잡으며 인공지능의 지형을 계속 변화시키고 있습니다. 최근 DeepSeek는 그들의 모델 R1의 업데이트 버전인 DeepSeek-R1-0528을 공개하여 추론, 논리 및 프로그래밍 능력을 강화했습니다. 이 버전은 2025년 5월 28일에 발표되었으며, OpenAI 및 Google의 주요 모델 성능에 근접하면서도 LLM의 반복적인 문제인 환각률을 줄였습니다. 동시에 Tencent는 시장 리더와 경쟁하기 위해 혁신적인 하이브리드 아키텍처를 사용하는 추론 모델 Hunyuan-T1을 도입했습니다. 이러한 개발은 LLM의 추론 능력을 향상시키려는 증가하는 추세를 강조하며, 이는 복잡하고 중요한 시스템에 통합할 수 있는 능력의 핵심 요소입니다.
사이버 보안 분야에서 LLM은 위협 감지 및 분석을 용이하게 하여 그 잠재력을 입증하고 있습니다. 뉴욕 대학의 연구는 대량의 텍스트 데이터를 활용하여 공격을 예측하고 대응할 수 있는 능력을 강조하며, 사이버 보안을 보다 반응적이고 적극적인 분야로 변화시키고 있습니다. SecureBERT와 같은 사이버 보안에 특화된 모델은 유망한 결과를 보여주지만, 그 정밀화는 여전히 기업에게 도전 과제로 남아 있습니다. 이러한 LLM의 전문화로의 진화는 특정 요구에 대응하면서 모델의 정확성과 신뢰성을 향상시키는 언어 모델 응용 프로그램의 다양화 추세를 반영합니다.
LLM 오픈 소스에 대한 열정도 계속되고 있으며, Allen Institute for AI와 같은 기관은 Llama 3.1을 기반으로 한 성능 좋은 오픈 소스 모델인 Tülu 3 405B를 출시했습니다. 이 모델은 검증 가능한 보상을 통한 강화 학습을 사용하여 복잡한 작업에서 성능을 향상시킵니다. 동시에 Mistral AI는 지연 시간에 최적화된 모델인 Mistral Small 3을 출시하여 독점 모델에 대한 오픈 소스 대안을 제공합니다. 이러한 이니셔티브는 LLM의 접근성을 민주화하면서 추론 비용을 줄이려는 의지를 반영하며, 특히 자원이 제한된 환경에서 그들의 채택을 확대하는 데 중요한 문제입니다.
대형 언어 모델이 계속 발전함에 따라 추론 비용과 환경적 영향과 같은 과제가 남아 있습니다. Microsoft는 최근 1비트로 양자화된 LLM의 추론을 최적화하여 탄소 발자국을 줄이는 오픈 소스 프레임워크인 BitNet.cpp를 발표했습니다. 이 혁신은 모델의 크기와 복잡성이 계속 증가함에 따라 LLM 진화의 지속 가능성의 중요성을 강조합니다. 또한, LLM의 의료 진단 분야 통합은 아직 개선이 필요하며, UVA Health의 연구에 따르면 LLM이 특정 작업에서 의사를 능가할 수 있지만, 그 통합은 아직 전체 진단 성능을 크게 향상시키지 못했습니다.
모든 현대 LLM의 기반이 되는 transformer 아키텍처는 두 가지 핵심 요소에 의존한다. 첫 번째는 self-attention 메커니즘으로, 텍스트 내 각 위치에 대해 다른 위치의 표현을 가중 합산하여 계산할 수 있게 한다. 이 연산은 본질적으로 병렬 처리에 최적화되어 있어, 2017년까지 NLP 분야를 지배했던 순환 신경망(RNN, LSTM) 아키텍처를 transformer가 대체한 주요 이유다. 두 번째는 동일한 transformer 레이어를 수십 개(최신 모델에서는 보통 32~96개) 스택하여 각 레이어마다 표현을 점진적으로 정교화하는 구조다.
현대 LLM은 다양한 아키텍처적 변형으로 발전했다:
OpenAI는 ChatGPT, GPT-4o, GPT-4o mini, o1/o3 reasoning 모델군으로 시장의 선두주자로 평가받고 있다. 2026년 수천억 달러 가치로 평가받으며, Microsoft와 SoftBank가 주요 투자자다. 상업 전략은 API(토큰 단위 과금), 소비자용(월 20달러 ChatGPT Plus), 기업용(ChatGPT Enterprise, Azure OpenAI Service)을 결합한다. OAI-SearchBot(검색 크롤러), SearchGPT 등으로 사업 영역도 확장했다.
Anthropic은 2021년 OpenAI 출신 Dario, Daniela Amodei 등이 설립했으며, 보안을 차별화 전략으로 내세웠다. Claude(하이쿠, 소네트, 오푸스) 모델군은 긴 맥락의 작성, 코드, 추론에서 높은 평가를 받는다. Amazon, Google, SoftBank가 투자했다. 2026년 5월, Anthropic은 xAI의 Colossus 1 컴퓨팅 자원의 일부를 월 12억5000만 달러에 임대한다고 밝혀, 연산 자원의 집중 현상을 보여줬다.
Google DeepMind는 2023년부터 Gemini 브랜드로 AI 사업을 통합했다. Gemini(Nano, Flash, Pro, Ultra, 2024년 12월 Gemini 2.0 Flash 포함)는 검색('AI Overviews'), Workspace에 통합됐다. Google은 방대한 학습 데이터(Web, YouTube, Books)와 TPU 인프라를 직접 통제하는 구조적 이점을 가진다.
Meta는 weights open 전략을 Llama(2023년 2월 Llama 1, 2023년 7월 Llama 2, 2024년 4월 Llama 3, 2024년 7월 Llama 3.1 405B)로 내세웠다. 이 정책은 foundation models 접근성을 넓히고 파생 모델(Vicuna, Tulu, 분야별 fine-tune 등) 생태계를 활성화했다. 그러나 2025년 7월, Meta는 유럽 GPAI 행동강령 서명 거부 및 Llama 3 멀티모달 유럽 출시를 일시 중단했다.
Mistral AI는 2023년 4월 파리에서 Arthur Mensch, Guillaume Lample, Timothée Lacroix가 설립해 유럽 챔피언으로 자리매김했다. 전략은 오픈 모델(Mistral 7B, Mixtral 8x7B, Codestral Mamba, Mathstral, Ministral 3B/8B)과 독점 모델(Mistral Large 2, Pixtral Large) 병행이다. Mistral은 GPAI 행동강령에 서명하고, NVIDIA(Mistral NeMo 12B), Dassault Systèmes, Capgemini, SAP 등과 전략적 파트너십을 맺었다.
중국에서는 Alibaba(Qwen), Baidu(ERNIE 4.5, ERNIE X1), Tencent(Hunyuan-T1), 그리고 특히 DeepSeek가 미국 연구소를 따라잡고 경쟁 중이다. DeepSeek-V3는 2025년 1월, 경쟁사 대비 약 30배 저렴한 학습비용과 뛰어난 품질로 커뮤니티를 놀라게 했다. DeepSeek-R1은 이후 출시되어 2025년 6월(R1-0528) 업데이트되었고, 이로 인해 NVIDIA 주가가 일시적으로 급락하며 대규모 인프라 우위가 도전을 받았다.
기타 특화 플레이어로는 xAI(Grok, Colossus 인프라), Cohere(기업용 다국어 모델, Aya 23), AI2(Tülu 3 405B, 완전 오픈 모델), Aleph Alpha(독일어 Pharia-1-LLM), Black Forest Labs(text-to-image용 FLUX-1), LightOn(기업용 Paradigm), Hugging Face(모델 허브, SmolLM2), OpenEuroLLM(유럽 오픈 컨소시엄) 등이 있다.
2026년 최첨단 LLM은 대략 12개 내외의 주요 계열로, 각각 다양한 크기와 버전을 갖는다:
최첨단 LLM 학습에는 막대한 자원이 투입된다. GPT-4의 경우 공개 추정치는 1억 달러 규모 예산과 수만 개의 GPU H100이 3개월간 동원된 것으로 알려졌다. Llama 3.1 405B는 H100 16,000개, 약 3천만 GPU 시간 소요. Mistral Large 2, Mixtral 등 유럽계 모델은 훨씬 적은 예산으로 경쟁력 있는 성능을 달성, 데이터 품질 관리가 중요함을 입증했다.
OpenAI가 공식화하고 DeepMind(Chinchilla, 2022)가 고도화한 scaling laws는 한동안 모델 품질이 파라미터 수와 학습 데이터 양의 곱에 비례해 예측 가능하게 향상된다는 공식을 제시했다. 하지만 2024년 말부터 이 공식이 흔들리기 시작했다. 예산 증가가 더 이상 벤치마크에서 획기적 성능 향상으로 이어지지 않으면서, 데이터 품질, 사후 추론, 에이전트, 멀티모달 등 새로운 변수에 주목이 쏠리고 있다.
컴퓨팅 인프라는 이제 지정학적 이슈로 부상했다. NVIDIA는 H100/H200/B200 GPU의 사실상 독점으로 대부분의 가치를 점유한다. 미국의 수출 통제로 중국 판매가 제한되면서 DeepSeek, Alibaba 등은 H800 등 성능이 낮은 칩에 맞춰 학습을 최적화했다. xAI는 2024년 멤피스에 Colossus 데이터센터를 1년 내 10만→20만 H100/H200으로 증설, 산업 신기록을 세웠다.
최신 LLM은 작성, 요약, 번역, 코드 생성, 대화, 정보 추출, 분류, 구조화/비구조화 문서 처리 등 광범위한 과업을 수행한다. 검색 챗봇, 코딩 어시스턴트(Copilot, Cursor), 법률·의료 에이전트, 고객지원, 오피스/워크스페이스 생산성 도구 등 다양한 애플리케이션의 표준 컴포넌트로 자리잡았다.
이들의 한계도 명확하다. LLM은 종종 그럴듯하지만 사실과 다른 정보를 생성(hallucination)한다. 특히 전문 분야, 정확한 수치, 참고문헌에서 두드러진다. 적대적 공격(prompt injection, jailbreak)에 취약하며, 2024년 12월 EPFL 연구에서 적응형 공격에 LLM이 한계가 있음이 입증됐다. 2024년 4월 EPFL 연구에 따르면, 사용자 의견 조작에도 악용될 수 있다. 에너지와 물 소비량도 상당해, 규제기관과 주주들의 감시 대상이 되고 있다. 데이터셋 편향은 주로 영어권·북서구 중심의 특성을 반영한다.
2023년부터 LLM의 오픈/클로즈드 논쟁이 구조화됐다. 오픈 모델 지지자(Meta, Mistral, Hugging Face, AI2, DeepSeek, La Quadrature du Net)는 기술 주권, 독립적 감사, 학술 확산, 산업 회복력 등을 주장한다. 반면, Anthropic, OpenAI(일부)는 악의적 사용(생물테러, 대규모 허위정보, 사기) 확산 위험과, 일단 공개된 모델의 회수 불가성을 지적한다.
AI Act는 파라미터, 아키텍처, 사용정보가 공개된 모델에 부분적 예외를 허용한다. 단, 시스템적 위험 모델(10²⁵ FLOPS 학습)은 예외가 적용되지 않는다. 2026년 오픈 소스 생태계는 Llama, Mistral, DeepSeek, Qwen이 주도하며, 단일 API에 종속되지 않고 기업·학계 주요 활용처를 아우른다.
범용 모델을 넘어, 생태계는 버티컬 모델로 다변화되고 있다. 의료 분야에서는 Bioptimus의 H-optimus-0(의료 진단), Aleph Alpha의 Pharia-1-LLM(독일어), 방사선·종양학 특화 fine-tune이 등장했다. 법률 분야에는 Lefebvre Dalloz-파리변호사회 어시스턴트, Talan-Mutuelle Générale 애플리케이션이 있다. 코딩 분야는 Codestral(Mistral), Code Llama(Meta), DeepSeek-Coder 등이 대표적이다. 금융에서는 BNP Paribas, Crédit Agricole, JPMorgan 등 자체 모델이 개발되고 있다. 소형 고효율 모델(SLM, Small Language Models)의 부상(Phi-3, Mistral Ministral, SmolLM2, Gemma 2 2B 등)은 임베디드(폰, 자동차, IoT) 배포에 적합한 저비용 추론을 목표로 한다.
2025년에는 AI 에이전트가 LLM 활용의 새로운 패러다임으로 부상했다. 단순 질의응답을 넘어, 에이전트가 도구 호출, 웹 검색, 파일 작성, 코드 실행 등 일련의 행동을 연계해 복잡한 과업을 해결한다. Gemini 2.0 Flash는 2024년 12월 이 신제품 계열을 여는 모델로 발표됐다. AI Builders의 AI Decision Matrix는 IT 책임자들이 다양한 솔루션을 비교 평가할 수 있는 프레임워크를 제공한다.
향후 18개월간 주목해야 할 주요 흐름:
LLM의 진화는 더 이상 파라미터 경쟁에 국한되지 않는다. 승자는 데이터 품질, 강화학습 기반 사후 학습, 추론 인프라 통제, 시장에 맞는 라이선스 전략, 그리고 규제 준수를 결합해야 한다. 이제 LLM은 과학적 주제일 뿐 아니라 산업적, 지정학적, 법적 이슈이기도 하다.
LLM은 수십억에서 수천억 개의 파라미터를 가진 매우 대규모 신경망으로, transformer 아키텍처를 기반으로 합니다. 수천억에서 수조 개의 토큰으로 구성된 텍스트에서 다음 토큰을 예측하도록 학습됩니다. 이 단순한 과업에서 대화, 추론, 코드 생성, 번역 등 복잡한 능력이 나타납니다.
foundation models는 fine-tuning, RAG, prompt engineering 등을 통해 다양한 특화 응용에 재사용할 수 있는 범용 IA 모델입니다. LLM은 언어에 특화된 foundation models의 한 유형입니다. 하지만 이 용어는 동일한 아키텍처적·경제적 논리를 공유하는 멀티모달(이미지, 오디오, 비디오) 모델에도 확장됩니다.
공개 벤치마크 기준으로는 GPT-4o와 o1/o3 (OpenAI), Claude 3.5 Sonnet 및 Claude 3 Opus (Anthropic), Gemini 2.0 Flash 및 Gemini Ultra (Google), Llama 3.1 405B (Meta), Mistral Large 2 (Mistral AI), DeepSeek-V3 및 DeepSeek-R1 (DeepSeek), Qwen2.5 (Alibaba), Hunyuan-T1 (Tencent)가 있습니다. 모든 측면에서 압도적인 모델은 없으며, 선택은 사용 사례(추론, 지연 시간, 비용, 언어, 멀티모달 등)에 따라 달라집니다.
70억 파라미터 이상의 dense 모델의 경우, 규모와 효율성에 따라 예산은 500만~1억 달러에 이릅니다. GPT-4는 약 1억 달러, Llama 3.1 405B는 약 5천만 달러, DeepSeek-V3는 약 500만 달러(효율성 신기록)로 추정됩니다. 이 수치는 최종 학습만 포함하며, 사전 실험 및 후처리까지 포함하면 전체 비용은 3~10배 더 높아집니다.
MoE는 네트워크를 여러 개의 전문가 서브네트워크로 분할하고, 라우터가 각 토큰마다 일부 전문가만 활성화하는 아키텍처입니다. 이를 통해 전체 파라미터 수를 늘리면서도 추론 비용은 비례적으로 증가하지 않습니다. Mixtral 8x7B, DeepSeek-V3, GPT-4o(추정) 등이 이 아키텍처를 사용합니다.
DeepSeek-V3와 DeepSeek-R1은 미국의 최고급 독점 모델 수준을 약 30배 낮은 학습 예산과 open source로 달성할 수 있음을 보여주었습니다. 이는 대규모 인프라 우위에 대한 의문을 제기했고, 일시적으로 NVIDIA의 주가 하락을 초래하며 현재 IA 생태계 가치평가의 취약성을 보여주었습니다.
Mistral AI(Mistral Large 2, Mixtral, Codestral, Ministral, Pixtral)가 유럽의 선두주자입니다. Aleph Alpha는 독일어 Pharia-1-LLM을 개발 중이며, LightOn은 기업용 Paradigm을 제공합니다. Black Forest Labs는 text-to-image용 FLUX-1을 개발했습니다. OpenEuroLLM은 유럽 학계 컨소시엄입니다. 이 프로젝트는 미국 및 중국 모델에 대한 주권적 대안을 목표로 합니다.
사용 사례에 따라 다릅니다. 독점(OpenAI, Anthropic, Gemini)은 관리형 API와 최첨단 모델 접근의 단순함을 제공합니다. open source(Llama, Mistral, DeepSeek)는 온프레미스 호스팅, 데이터 주권, 모델 감사, 공급자 락인 회피가 가능하지만, 인프라 및 내부 전문성 비용이 듭니다. 규제 산업(의료, 금융, 국방)에서는 open source 자체 호스팅이 점차 표준이 되고 있습니다.
추론 모델은 응답 전에 chain-of-thought(사고의 흐름)를 명시적으로 생성하여 수학, 논리, 프로그래밍 등에서 성능을 극적으로 향상시킵니다. OpenAI o1/o3, DeepSeek-R1, Tencent Hunyuan-T1, Gemini Thinking 등이 대표적입니다. 추론 비용(지연 시간)은 증가하지만 품질도 향상됩니다.
환각(사실과 다른 내용 생성), prompt injection 및 jailbreak(안전장치 우회), 편향(학습 코퍼스 반영), 여론 조작(EPFL 2024 연구), 에너지 및 수자원 소비, 개인정보 유출, 모델·GPU 공급자에 대한 산업적 의존성 등이 있습니다. AI Act는 체계적 위험을 가진 모델에 대해 이들 중 여러 위험에 대응합니다.
공개 벤치마크(MMLU, GPQA, MATH, HumanEval, SWE-Bench, LiveCodeBench, MT-Bench), 블라인드 인간 평가(Chatbot Arena), 사용 사례에 맞는 내부 테스트로 평가합니다. 오픈 벤치마크는 빠르게 한계에 도달하며, MMLU 90%를 넘으면 모델 간 구분이 어려워집니다. 실제 과업(문서 작성, 코드 생성, 장기 추론) 기반 평가가 여전히 필수적입니다.
IA 에이전트 - 복잡한 행동을 자율적으로 연속 실행할 수 있는 시스템 - 가 2025~2027년의 주요 과제입니다. 그 이후로는 장기 신뢰성(정렬, 보안), 추론 효율성, 네이티브 멀티모달 융합, 지속적 학습, 인프라 주권 등도 산업의 과제로 떠오릅니다. 학습 데이터 문제도 중요한데, 공개 웹 코퍼스가 포화되기 시작하면서 합성 데이터 및 출판사와의 파트너십이 새로운 길을 열고 있습니다.
4 articles liés à ce sujet
Alibaba Cloud는 WAIC 2025에서 자사의 AI 언어 모델 응용을 선보이며, 차량용 스마트 콕핏, Signify와의 도시 조명 솔루션, 연결 안경을 발표했습니다. 오픈 소...
DeepSeek는 최근 R1 모델의 업데이트를 발표하며, 이로 인해 추론, 논리, 수학 및 프로그래밍에서의 성능이 향상되었습니다. 이번 업데이트는 오류를 줄이고 애...
언어 모델(LLM)은 사이버 보안에서 점점 더 많이 사용되어 취약점과 공격을 더 빠르게 감지할 수 있게 합니다. 그러나 그들의 효과에도 불구하고, 인간과 결합하...
AI2가 Tülu 3 405B를 출시하며 오픈 소스 인공지능의 새로운 표준을 향해 나아가고 있습니다.