Logo ActuIA ActuIA

Źródło informacji o AI

Français English Español Italiano Deutsch Nederlands Română Português العربية Türkçe Українська 中文 日本語 한국어
Opublikuj
Strona główna
Monitor SI

Według kategorii

Finansowanie Fuzje i przejęcia Wydanie modelu Premiera produktu Partnerstwo Program publiczny / nabór Regulacje i zarządzanie Spór sądowy Badania i nauka Wdrożenie i adopcja Infrastruktura i moc obliczeniowa Korporacja i strategia Bezpieczeństwo i incydenty Raport i badanie Wydarzenie

Według branży

Branża Edukacja Finanse Firma Kultura Marketing Media Transport Ubezpieczenie Wymiar sprawiedliwości Zarządzanie ryzykiem Zdrowie – medycyna

Według kategorii

Finansowanie Fuzje i przejęcia Wydanie modelu Premiera produktu Partnerstwo Program publiczny / nabór Regulacje i zarządzanie Spór sądowy Badania i nauka Wdrożenie i adopcja Infrastruktura i moc obliczeniowa Korporacja i strategia Bezpieczeństwo i incydenty Raport i badanie Wydarzenie

Według branży

Branża Edukacja Finanse Firma Kultura Marketing Media Transport Ubezpieczenie Wymiar sprawiedliwości Zarządzanie ryzykiem Zdrowie – medycyna
Najnowsze newsy
Język

LLM : wielkoskalowe modele językowe i foundation models

Przejdź do najnowszych wiadomości
Tech family
Wielkie modele językowe (ang. Large Language Models, czyli LLM) to sieci neuronowe trenowane na ogromnych korpusach tekstowych w celu przewidywania najbardziej prawdopodobnej kontynuacji sekwencji słów. Od 2022 roku stanowią one główną siłę napędową generatywnej IA oraz pole bezprecedensowej rywalizacji przemysłowej pomiędzy OpenAI, Anthropic, Google DeepMind, Meta, Mistral AI, Alibaba, DeepSeek i około dwudziestoma innymi podmiotami. Ta strona podsumowuje ich architekturę, kluczowych graczy, modele referencyjne na 2026 rok oraz kontrowersje, które im towarzyszą.

📰 Actualités récentes

Aktualności

Duże modele językowe (LLM) nadal przekształcają krajobraz sztucznej inteligencji, stając się niezbędnymi narzędziami w różnych dziedzinach, od cyberbezpieczeństwa po medycynę. Niedawno DeepSeek zaprezentował aktualizację swojego modelu R1, DeepSeek-R1-0528, który wzmacnia jego zdolności w zakresie rozumowania, logiki i programowania. Ta wersja, opublikowana 28 maja 2025 roku, zbliża się do wydajności modeli flagowych OpenAI i Google, jednocześnie redukując wskaźnik halucynacji, co jest częstym problemem dla LLM. Równocześnie Tencent wprowadził Hunyuan-T1, model rozumowania, który wykorzystuje innowacyjną hybrydową architekturę, aby rywalizować z liderami rynku. Te rozwinięcia podkreślają rosnący trend w kierunku poprawy zdolności rozumowania LLM, co jest kluczowym elementem ich zdolności do integracji w złożone i krytyczne systemy.

W dziedzinie cyberbezpieczeństwa LLM wykazują swój potencjał, ułatwiając wykrywanie i analizę zagrożeń. Badanie przeprowadzone przez Uniwersytet Nowojorski podkreśla ich zdolność do wykorzystywania mas danych tekstowych do przewidywania i reagowania na ataki, przekształcając tym samym cyberbezpieczeństwo w sektor bardziej reaktywny i proaktywny. Modele takie jak SecureBERT, specjalizujące się w cyberbezpieczeństwie, pokazują obiecujące wyniki, choć ich doskonalenie pozostaje wyzwaniem dla firm. Ta ewolucja w kierunku wyspecjalizowanych LLM odzwierciedla trend w kierunku dywersyfikacji zastosowań modeli językowych, odpowiadając na specyficzne potrzeby, jednocześnie poprawiając ich precyzję i niezawodność.

Popularność LLM open source również się utrzymuje, z inicjatywami takimi jak te z Allen Institute for AI, który wprowadził Tülu 3 405B, wydajny model open source oparty na Llama 3.1. Model ten wyróżnia się wykorzystaniem uczenia przez wzmocnienie z weryfikowalnymi nagrodami, poprawiając jego wydajność w złożonych zadaniach. Równolegle Mistral AI wprowadził Mistral Small 3, model zoptymalizowany pod kątem opóźnień, oferując alternatywę open source dla modeli własnościowych. Te inicjatywy odzwierciedlają chęć demokratyzacji dostępu do LLM, jednocześnie obniżając koszty inferencji, co jest kluczowym wyzwaniem dla rozszerzenia ich adopcji, szczególnie w środowiskach o ograniczonych zasobach.

Podczas gdy duże modele językowe nadal się rozwijają, nadal istnieją wyzwania, zwłaszcza w zakresie kosztów inferencji i wpływu na środowisko. Microsoft niedawno zaprezentował BitNet.cpp, ramy open source, które optymalizują inferencję LLM kwantowanych do 1 bitu, redukując tym samym ich ślad węglowy. Ta innowacja podkreśla znaczenie zrównoważonego rozwoju w ewolucji LLM, podczas gdy rozmiar i złożoność modeli nieustannie rosną. Ponadto, integracja LLM w takich dziedzinach jak diagnostyka medyczna wciąż wymaga dopracowania, badanie przeprowadzone przez UVA Health wskazuje, że chociaż LLM mogą przewyższać lekarzy w niektórych zadaniach, ich integracja nie poprawiła jeszcze znacząco ogólnej wydajności diagnostycznej.

Kompletny przewodnik

Architektura: od transformera do nowoczesnych modeli

Architektura transformer, od której wywodzą się wszystkie współczesne LLM, opiera się na dwóch kluczowych elementach. Pierwszym jest mechanizm auto-attention, pozwalający modelowi obliczać dla każdej pozycji w tekście ważoną kombinację reprezentacji pozostałych pozycji. Operacja ta jest z natury równolegle przetwarzalna, co tłumaczy, dlaczego transformery wyparły architektury rekurencyjne (RNN, LSTM), które dominowały w NLP do 2017 roku. Drugim elementem jest stackowanie dziesiątek identycznych warstw transformer (zazwyczaj od 32 do 96 w modelach najwyższej klasy), z których każda stopniowo udoskonala reprezentację.

Współczesne LLM występują w kilku wariantach architektonicznych:

  • modele dense, w których wszystkie parametry są aktywowane przy każdej inferencji (GPT-4 historyczny, Claude, Llama 3.1 405B);
  • modele Mixture of Experts (MoE), gdzie tylko wybrane podsieci-experci są aktywowane w zależności od przetwarzanego tokena, co obniża koszt inferencji przy tej samej liczbie parametrów (Mixtral, DeepSeek-V3, domniemany GPT-4o);
  • modele multimodalne natywne, które przyjmują i generują tekst, obrazy, dźwięk oraz wideo w jednolitej przestrzeni reprezentacji (Gemini, GPT-4o, Pixtral Large, Claude 3.5 Sonnet);
  • modele reasoning (reasoning models), które przed odpowiedzią generują explicytny chain-of-thought - DeepSeek-R1, OpenAI o1/o3, Tencent Hunyuan-T1, Gemini Thinking - kosztem wyższej latencji, ale z lepszą jakością w zadaniach matematycznych, logicznych i programistycznych.

Najważniejsi gracze w 2026 roku

OpenAI pozostaje postrzeganym liderem rynku dzięki ChatGPT, GPT-4o, GPT-4o mini oraz rodzinie modeli reasoning o1/o3. Firma, wyceniana na kilkaset miliardów dolarów w 2026 roku, finansowana jest głównie przez Microsoft i SoftBank. Jej strategia łączy API (opłaty za token), produkt konsumencki (ChatGPT Plus za 20 $/miesiąc) oraz ofertę dla firm (ChatGPT Enterprise, Azure OpenAI Service). OpenAI rozszerzyło działalność o OAI-SearchBot, własnego crawlera wyszukiwawczego, oraz SearchGPT.

Anthropic, założona w 2021 roku przez byłych pracowników OpenAI, w tym Dario i Danielę Amodei, uczyniła z bezpieczeństwa swój wyróżnik. Rodzina Claude (Haiku, Sonnet, Opus) jest szczególnie ceniona za generowanie tekstów, kodu oraz reasoning na długim kontekście. Anthropic finansowana jest przez Amazon, Google i SoftBank. W maju 2026 Anthropic potwierdził wynajem części mocy Colossus 1 od xAI za ok. 1,25 mld dolarów miesięcznie, co pokazuje koncentrację zasobów obliczeniowych.

Google DeepMind od 2023 roku konsoliduje działalność AI pod marką Gemini. Rodzina Gemini (Nano, Flash, Pro, Ultra, a następnie Gemini 2.0 Flash w grudniu 2024) została zintegrowana z wyszukiwarką (AI Overviews) oraz Workspace. Google korzysta z przewagi strukturalnej dzięki kontroli nad danymi treningowymi (Web, YouTube, Books) i własnej infrastrukturze TPU.

Meta postawiła na weights open wraz z rodziną Llama (Llama 1 w lutym 2023, Llama 2 w lipcu 2023, Llama 3 w kwietniu 2024, Llama 3.1 405B w lipcu 2024). Ta strategia zdemokratyzowała dostęp do foundation models i rozwinęła ekosystem modeli pochodnych (Vicuna, Tulu, fine-tuning sektorowy). Meta odmówiła jednak w lipcu 2025 podpisania europejskiego kodeksu dobrych praktyk GPAI i czasowo wstrzymała premierę Llama 3 multimodal w Europie.

Mistral AI, założona w Paryżu w kwietniu 2023 przez Arthura Menscha, Guillaume'a Lample'a i Timothée Lacroix, została europejskim czempionem. Jej strategia hybrydowa łączy modele otwarte (Mistral 7B, Mixtral 8x7B, Codestral Mamba, Mathstral, Ministral 3B/8B) z modelami zamkniętymi (Mistral Large 2, Pixtral Large). Mistral podpisał kodeks dobrych praktyk GPAI i zawarł strategiczne partnerstwa z NVIDIA (Mistral NeMo 12B), Dassault Systèmes, Capgemini i SAP.

W Chinach Alibaba (rodzina Qwen), Baidu (ERNIE 4.5, ERNIE X1), Tencent (Hunyuan-T1) oraz przede wszystkim DeepSeek dogoniły, a następnie rzuciły wyzwanie amerykańskim laboratoriom. DeepSeek-V3 zadziwił społeczność w styczniu 2025 jakością przy koszcie treningu ~30 razy niższym niż zachodni konkurenci. DeepSeek-R1, wydany zaraz potem i zaktualizowany w czerwcu 2025 (R1-0528), wywołał tymczasowy spadek akcji NVIDIA, podważając przewagę ogromnych infrastruktur.

Inni gracze pełnią role wyspecjalizowane: xAI (Grok, infrastruktura Colossus), Cohere (modele firmowe wielojęzyczne, Aya 23), AI2 (Tülu 3 405B, modele całkowicie open), Aleph Alpha (Pharia-1-LLM po niemiecku), Black Forest Labs (FLUX-1 do text-to-image), LightOn (Paradigm dla firm), Hugging Face (hub modeli, SmolLM2), OpenEuroLLM (europejskie konsorcjum open).

Modele referencyjne w 2026 roku

Tablica czołowych LLM w 2026 roku obejmuje około tuzina rodzin, każda w różnych rozmiarach i wariantach:

  • GPT-4o / GPT-4o mini (OpenAI) - multimodal natywny, niska latencja, okno kontekstowe 128k tokenów. GPT-4o mini stał się ekonomicznym standardem dla wdrożeń na dużą skalę.
  • o1 / o3 (OpenAI) - modele reasoning z wewnętrznym chain-of-thought, bardzo mocne w matematyce konkursowej (AIME, IMO) i programowaniu (Codeforces).
  • Claude 3.5 Sonnet / Claude 3 Opus (Anthropic) - okno 200k, świetne w długim piśmiennictwie i czytaniu dokumentów.
  • Gemini 2.0 Flash / Gemini Ultra (Google DeepMind) - multimodal natywny, integracja z ekosystemem Google.
  • Llama 3.1 405B / Llama 3.3 (Meta) - lider open source dense.
  • Mistral Large 2 / Pixtral Large (Mistral AI) - europejskie, open weights w wybranych wersjach.
  • DeepSeek-V3 / DeepSeek-R1-0528 (DeepSeek) - chiński open source, reasoning, spektakularnie niski koszt treningu.
  • Qwen2.5 (Alibaba) - chiński lider open source multilingue, okno 1M tokenów.
  • NOVA (Amazon) - własna rodzina foundation models ogłoszona w grudniu 2024.
  • Phi-3 / Phi-3.5 (Microsoft) - małe, wydajne modele do zastosowań embedded.
  • Hunyuan-T1 (Tencent) - chiński model reasoning konkurujący z czołówką światową.
  • Grok 3 (xAI) - dostęp w czasie rzeczywistym do X, ogromna infrastruktura.

Trenowanie i koszty

Trenowanie czołowego LLM wymaga ogromnych zasobów. Publiczne szacunki dla GPT-4 mówią o budżecie rzędu 100 mln dolarów i dziesiątkach tysięcy GPU H100 przez trzy miesiące. Llama 3.1 405B wymagała 16 000 H100 i około 30 mln godzin GPU. Mistral Large 2 i Mixtral, na drugim biegunie europejskim, trenowano przy znacznie niższych budżetach, co pokazuje, że przy starannej pracy na danych można osiągnąć konkurencyjne wyniki przy mniejszym wysiłku.

Scaling laws sformułowane przez OpenAI, a następnie dopracowane przez DeepMind (Chinchilla, 2022), długo wyznaczały dynamikę: jakość modelu rośnie przewidywalnie wraz z iloczynem liczby parametrów i ilości danych treningowych, pod warunkiem zachowania równowagi obu czynników. Ta zależność została podważona pod koniec 2024 roku: wzrost budżetów nie przekłada się już na spektakularne zyski na otwartych benchmarkach, a uwaga przesunęła się na inne aspekty - jakość danych, reasoning post-training, agentów, multimodalność.

Infrastruktura obliczeniowa stała się kluczowym zagadnieniem geopolitycznym. NVIDIA, dzięki niemal monopolowi na GPU H100/H200/B200, przechwytuje większość wartości. Amerykańskie kontrole eksportowe ograniczają sprzedaż do Chin, co zmusiło DeepSeek i Alibaba do optymalizacji treningu pod mniej wydajne układy (H800). xAI zbudowało w 2024 roku centrum danych Colossus w Memphis, integrując 100 000 H100, a następnie 200 000 H100/H200, w mniej niż rok - rekord w branży.

Możliwości i ograniczenia

Współczesne LLM radzą sobie z szerokim wachlarzem zadań: pisanie, streszczanie, tłumaczenie, generowanie kodu, dialog, ekstrakcja informacji, klasyfikacja, przetwarzanie dokumentów strukturalnych i niestrukturalnych. Stały się standardowym komponentem wielu aplikacji - konwersacyjnych wyszukiwarek, asystentów kodowania (Copilot, Cursor), agentów prawnych i medycznych, systemów wsparcia klienta, narzędzi produktywności Office i Workspace.

Ich ograniczenia są również dobrze udokumentowane. LLM halucynują - generują treści wiarygodne, ale nieprawdziwe - szczególnie w niszowych tematach, przy precyzyjnych liczbach i bibliografii. Są podatne na ataki adversarialne (prompt injection, jailbreak), co wykazało badanie EPFL w grudniu 2024 na temat granic LLM wobec ataków adaptacyjnych. Mogą być wykorzystywane do manipulacji opiniami użytkowników (badanie EPFL z kwietnia 2024). Zużywają znaczące ilości energii i wody - temat coraz bardziej monitorowany przez regulatorów i akcjonariuszy. Ich bias odzwierciedla bias korpusów treningowych, głównie anglojęzycznych i północno-zachodnich.

Open source vs modele zamknięte

Podział między otwartymi a zamkniętymi LLM kształtuje debatę od 2023 roku. Zwolennicy modeli open - Meta, Mistral, Hugging Face, AI2, DeepSeek, La Quadrature du Net - podkreślają suwerenność technologiczną, możliwość niezależnego audytu, rozwój naukowy i odporność przemysłową. Przeciwnicy - Anthropic, OpenAI w pewnych aspektach - wskazują na ryzyko proliferacji szkodliwych zastosowań (bio-terroryzm, dezinformacja na dużą skalę, oszustwa) i niemożność wycofania modelu po publikacji.

AI Act częściowo rozstrzyga tę kwestię, przyznając częściowe zwolnienia modelom, których parametry, architektura i informacje o użyciu są publiczne. Zwolnienia te nie dotyczą modeli o ryzyku systemowym (10²⁵ FLOPS treningu). W 2026 ekosystem open source zdominowany jest przez Llama, Mistral, DeepSeek i Qwen, które pokrywają większość zastosowań firmowych i naukowych bez zależności od API pojedynczego dostawcy.

Modele specjalistyczne i wertykalne

Poza modelami ogólnego przeznaczenia, ekosystem różnicuje się na modele wertykalne. W medycynie: H-optimus-0 od Bioptimus do wspomaganego diagnozowania, Pharia-1-LLM od Aleph Alpha po niemiecku, fine-tunes dedykowane radiologii i onkologii. W prawie: asystenci Lefebvre Dalloz-Barreau de Paris, aplikacje Talan-Mutuelle Générale. W kodowaniu: Codestral (Mistral), Code Llama (Meta), DeepSeek-Coder. W finansach: modele wewnętrzne BNP Paribas, Crédit Agricole, JPMorgan. Ruch małych, wydajnych modeli (SLM, Small Language Models) - Phi-3, Mistral Ministral, SmolLM2, Gemma 2 2B - celuje w wdrożenia embedded (telefony, samochody, IoT) przy akceptowalnej jakości i bardzo niskim koszcie inferencji.

Rok 2025 przyniósł pojawienie się agentów IA jako nowego paradygmatu wykorzystania LLM. Zamiast odpowiadać na pojedyncze zapytanie, agent realizuje sekwencję działań (wywołania narzędzi, przeszukiwanie Web, zapisywanie plików, uruchamianie kodu) w celu rozwiązania złożonego zadania. Gemini 2.0 Flash zaprezentowano w grudniu 2024 jako model otwierający tę nową kategorię produktów. AI Decision Matrix od AI Builders dostarcza ram do porównawczej oceny dla menedżerów IT w obliczu ogromnej liczby rozwiązań.

Wyzwania na 2026 i kolejne lata

Kilka trendów do obserwacji w najbliższych 18 miesiącach:

  • zgodność z GPAI w świetle AI Act, obowiązującego od sierpnia 2025;
  • ekonomia inferencji, która zdominowała wolumenowo ekonomię treningu, z przesunięciem na architektury MoE i kwantyzację (BitNet, vLLM, llm-optimizer);
  • relacja z prawem autorskim, zwłaszcza po odrzuceniu ustawy Darcos we Francji i trwających sporach prawnych dotyczących Meta-Llama, NYT-OpenAI, Getty-Stable Diffusion;
  • wyścig modeli reasoning, w którym rywalizują OpenAI o3, DeepSeek-R1, Gemini Thinking i Hunyuan-T1;
  • konwergencja multimodalna, z modelami natywnymi obsługującymi tekst, obraz, wideo i audio w jednej przestrzeni;
  • pojawienie się agentów i powiązane kwestie niezawodności (wskaźnik sukcesu w długich zadaniach), bezpieczeństwa (kontrola wykonywanych działań) oraz modelu biznesowego;
  • suwerenność europejska, reprezentowana przez Mistral, OpenEuroLLM, LightOn, Aleph Alpha oraz wysiłki w kierunku uniezależnienia inferencji dzięki OVHcloud i nowym GPU NVIDIA Tensor Core.

Rozwój LLM to już nie tylko wyścig na liczbę parametrów. Zwycięzcy połączą jakość danych, post-training reinforcement, kontrolowaną infrastrukturę inferencyjną, spójną strategię licencyjną i zgodność z regulacjami. To obecnie temat przemysłowy, geopolityczny i prawny, nie tylko naukowy.

Często zadawane pytania

Czym jest LLM (large language model)?

LLM to bardzo duża sieć neuronowa - od kilku miliardów do kilkuset miliardów parametrów - oparta na architekturze transformer. Jest trenowana do przewidywania kolejnej jednostki (tokena) w tekście na podstawie setek miliardów do kilku bilionów tokenów. Z tego prostego zadania wyłaniają się złożone umiejętności: dialog, rozumowanie, generowanie kodu, tłumaczenie.

Jaka jest różnica między LLM a foundation models?

Foundation model to model IA, który może być używany jako baza do wielu wyspecjalizowanych zastosowań poprzez fine-tuning, RAG lub prompt engineering. LLM to typ foundation model skoncentrowany na języku. Jednak termin ten obejmuje też modele multimodalne (obraz, audio, wideo), które dzielą tę samą logikę architektoniczną i ekonomiczną.

Jakie są najwydajniejsze LLM w 2026 roku?

Na publicznych benchmarkach: GPT-4o i o1/o3 (OpenAI), Claude 3.5 Sonnet i Claude 3 Opus (Anthropic), Gemini 2.0 Flash i Gemini Ultra (Google), Llama 3.1 405B (Meta), Mistral Large 2 (Mistral AI), DeepSeek-V3 i DeepSeek-R1 (DeepSeek), Qwen2.5 (Alibaba), Hunyuan-T1 (Tencent). Żaden nie dominuje we wszystkich wymiarach; wybór zależy od przypadku użycia (rozumowanie, latencja, koszt, języki, multimodalność).

Ile kosztuje trening czołowego LLM?

Dla modeli dense powyżej 70 miliardów parametrów budżety wynoszą od 5 do 100 milionów dolarów w zależności od rozmiaru i efektywności. GPT-4 szacuje się na ~100 mln USD, Llama 3.1 405B na ~50 mln USD, DeepSeek-V3 na ~5 mln USD (rekord efektywności). Te liczby obejmują tylko końcowy trening; z uwzględnieniem wcześniejszych eksperymentów i post-treningu, pełne koszty są 3 do 10 razy wyższe.

Czym jest model Mixture of Experts (MoE)?

To architektura, w której sieć jest podzielona na kilka wyspecjalizowanych pod-sieci ekspertów, a router wybiera kilku ekspertów do aktywacji dla każdego tokena. Pozwala to zwiększyć łączną liczbę parametrów bez proporcjonalnego wzrostu kosztu inferencji. Mixtral 8x7B, DeepSeek-V3 i GPT-4o (przypuszczalnie) wykorzystują tę architekturę.

Dlaczego DeepSeek wywołał taki szok w styczniu 2025?

DeepSeek-V3, a następnie DeepSeek-R1 pokazały, że można osiągnąć poziom najlepszych amerykańskich modeli proprietarnych przy budżecie treningowym około 30 razy niższym i w open source. Podważyło to przewagę wielkich infrastruktur i spowodowało tymczasowy spadek notowań NVIDIA, pokazując kruchość obecnej wyceny ekosystemu IA.

Jakie są europejskie LLM?

Mistral AI (Mistral Large 2, Mixtral, Codestral, Ministral, Pixtral) jest europejskim liderem. Aleph Alpha rozwija Pharia-1-LLM po niemiecku. LightOn oferuje Paradigm dla przedsiębiorstw. Black Forest Labs wydaje FLUX-1 do text-to-image. OpenEuroLLM to europejskie konsorcjum akademickie. Projekt ma na celu stworzenie suwerennej alternatywy dla modeli amerykańskich i chińskich.

Open source czy proprietary: który wybór?

To zależy od przypadku użycia. Proprietary (OpenAI, Anthropic, Gemini) oferuje prostotę zarządzanego API i dostęp do najnowszych modeli. Open source (Llama, Mistral, DeepSeek) umożliwia hosting on-premise, suwerenność danych, audyt modelu i unikanie vendor lock-in - kosztem infrastruktury i wewnętrznej ekspertyzy. Dla zastosowań regulowanych (zdrowie, finanse, obronność) open source z własnym hostingiem często staje się standardem.

Czym jest model reasoning?

Model reasoning jawnie generuje chain-of-thought przed udzieleniem odpowiedzi, co drastycznie poprawia wyniki w matematyce, logice i programowaniu. OpenAI o1/o3, DeepSeek-R1, Tencent Hunyuan-T1 i Gemini Thinking to główni przedstawiciele. Koszt inferencji rośnie (wyższa latencja), ale jakość również.

Jakie są główne ryzyka związane z LLM?

Halucynacje (generowanie fałszywych treści), prompt injection i jailbreak (obchodzenie zabezpieczeń), bias (odzwierciedlenie korpusu treningowego), manipulacja opinią (badanie EPFL 2024), zużycie energii i wody, wyciek danych prywatnych, zależność przemysłu od dostawców modeli i GPU. AI Act odpowiada na kilka z tych ryzyk dla modeli o ryzyku systemowym.

Jak ocenia się LLM?

Przez publiczne benchmarki (MMLU, GPQA, MATH, HumanEval, SWE-Bench, LiveCodeBench, MT-Bench), ślepe ewaluacje ludzkie (Chatbot Arena) oraz wewnętrzne testy dostosowane do przypadku użycia. Otwarte benchmarki szybko się nasycają: model przekraczający 90% na MMLU nie jest już rozróżnialny od innych. Ocena na realnych zadaniach (pisanie, produkcja kodu, długie rozumowanie) pozostaje niezbędna.

Jaki jest kolejny krok dla LLM?

IA agents - systemy zdolne do autonomicznego wykonywania złożonych sekwencji działań - to główny temat na lata 2025-2027. Poza tym branża pracuje nad długoterminową niezawodnością (alignment, bezpieczeństwo), efektywnością inferencji, natywną konwergencją multimodalną, ciągłym uczeniem się i suwerennością infrastrukturalną. Kwestia danych treningowych pozostaje kluczowa: publiczne korpusy webowe zaczynają się wyczerpywać, otwierając drogę do danych syntetycznych i partnerstw wydawniczych.

na ten sam temat

Articles récents

3 articles liés à ce sujet

Alibaba prezentuje swoje inteligentne kokpity, okulary AI i strategiczne partnerstwa na WAIC 2025

Alibaba prezentuje swoje inteligentne kokpity, okulary AI i strategiczne partnerstwa na WAIC 2025

Podczas WAIC 2025, Alibaba Cloud zaprezentowało kilka aplikacji swoich modeli językowych AI, w tym inteligentny kokpit dla pojazdów, rozwiązanie dla o...

Marché de l'IA Produit commercial
1 sie 2025 Czytaj dalej →
DeepSeek-R1-0528: chińska start-up nadal rywalizuje z amerykańskimi gigantami dzięki aktualizacji swojego flagowego modelu

DeepSeek-R1-0528: chińska start-up nadal rywalizuje z amerykańskimi gigantami dzięki aktualizacji swojego flagowego modelu

Chińska start-up DeepSeek zaktualizowała swój model R1, poprawiając jego osiągi w rozumowaniu, logice, matematyce i programowaniu. Ta aktualizacja, zm...

Outils et technos Produit commercial
2 cze 2025 Czytaj dalej →
Kiedy SI staje się tarczą: co LLM zmieniają konkretnie w cyberbezpieczeństwie

Kiedy SI staje się tarczą: co LLM zmieniają konkretnie w cyberbezpieczeństwie

Modele językowe (LLM) są coraz częściej używane w cyberbezpieczeństwie, co pozwala na szybsze wykrywanie podatności i ataków. Mimo ich skuteczności wy...

Sécurité
15 maj 2025 Czytaj dalej →

Statistiques

Articles totaux 3
Contenu mis à jour 5 dni temu
Logo ActuIA Logo ActuIA

Twoje źródło informacji o sztucznej inteligencji i jej postępach.

Nawigacja

  • Informacje prawne
  • Kontakt

Obserwuj nas

© 2019-2026 Net Square Digital. Wszelkie prawa zastrzeżone.