OpenAI Dev News: GPT-5.4, Plugins w Codex i przyszłość AI dla developerów

Marzec 2026 okazał się jednym z najbardziej intensywnych miesięcy w historii OpenAI pod względem aktualizacji narzędzi deweloperskich. Firma wypuściła flagowy model GPT-5.4, rozbudowała ekosystem Codex o pluginy, wyzwalacze zdarzeń (Triggers), agenta bezpieczeństwa, wsparcie dla Windows i integrację z nowym modelem mini. Poniżej znajdziesz szczegółowe omówienie każdej z tych zmian.

Bezpłatne szkolenie: Zbuduj 5 agentów AI w n8n!

Weź udział w intensywnym, praktycznym szkoleniu i naucz się tworzyć automatyzacje oraz agentów AI komunikujących się przez komunikator. W programie m.in.: RAG Chatbot, Voice Agent, Wirtualna Rada Nadzorcza, Asystentka głosowa i Claude Code Admin.

Zapisy do 23 kwietnia, 23:59

Sprawdź szczegóły: https://asdevops.pl/warsztaty/

 

 


1. GPT-5.4 — Nowy Flagship łączący kodowanie, rozumowanie i obsługę komputera

Czym jest GPT-5.4?

GPT-5.4 to najnowszy model flagowy OpenAI, ogłoszony 5 marca 2026 roku. Jest to pierwszy model z serii mainline, który w pełni absorbuje możliwości kodowania wcześniejszego specjalisty — GPT-5.3-Codex — jednocześnie rozszerzając je o zaawansowane wnioskowanie ogólne i natywną obsługę komputera. Innymi słowy: programiści nie muszą już wybierać między modelem wyspecjalizowanym w kodowaniu a modelem do zadań ogólnych — GPT-5.4 łączy obie dziedziny w jednej architekturze.

Warianty modelu

GPT-5.4 dostępny jest w kilku wariantach dostosowanych do różnych potrzeb i budżetów:

  • GPT-5.4 (Thinking) — podstawowy wariant dla większości zastosowań; dostępny przez API jako gpt-5.4 oraz dla subskrybentów ChatGPT Plus, Team i Pro.
  • GPT-5.4 Pro — przeznaczony dla najbardziej złożonych zadań; dostępny w API jako gpt-5.4-pro oraz w planach Pro i Enterprise.
  • GPT-5.4 mini — lekki, szybki i tani wariant do prac pomocniczych i subagentów; ponad 2 razy szybszy niż pełny model.
  • GPT-5.4 Nano — najmniejszy wariant z rodziny, wydany 17 marca, przeznaczony do zastosowań krawędziowych (edge) i wbudowanych, takich jak aplikacje mobilne czy IoT.

Natywna obsługa komputera (Computer Use)

Jedną z najważniejszych nowości GPT-5.4 jest status pierwszego modelu ogólnego z natywną obsługą komputera udostępnioną w API i Codex. Model potrafi zarówno pisać kod sterujący komputerem za pośrednictwem bibliotek takich jak Playwright, jak i bezpośrednio wydawać polecenia myszką i klawiaturą w odpowiedzi na zrzuty ekranu. Na benchmarku OSWorld, mierzącym zdolność do pracy na prawdziwym systemie operacyjnym, GPT-5.4 uzyskał wynik 75% — przekraczając ekspercki poziom ludzki wynoszący 72,4%.

Kontekst do 1 miliona tokenów

GPT-5.4 obsługuje okno kontekstowe do 1 miliona tokenów w API i Codex, co umożliwia agentom planowanie, wykonywanie i weryfikowanie zadań w długich horyzontach czasowych. Warto jednak pamiętać, że zapytania przekraczające 272 000 tokenów wejściowych są rozliczane w podwójnej stawce.

Wydajność i benchmarki

  • SWE-bench Pro (kodowanie rzeczywistego oprogramowania): 57,7% — o 2,1 punktu procentowego więcej niż GPT-5.3-Codex (55,6%) i o około 10 punktów więcej niż GPT-5.2.
  • SWE-bench Verified: około 80%, co stawia model na równi z Claude Opus 4.6 (80,8%).
  • GDPval (praca wiedzy): 83%.
  • BrowseComp (przeszukiwanie internetu przez agenta): poprawa o 17 punktów procentowych względem poprzednika.

Efektywność tokenowa i tryb /fast

GPT-5.4 jest najbardziej efektywnym tokenowo modelem rozumowania w historii OpenAI — w niektórych zadaniach używa nawet o 47% mniej tokenów niż poprzednie modele. W Codex dostępny jest tryb /fast, który zapewnia do 1,5× szybszą prędkość tokenów przy zachowaniu tej samej inteligencji — bez żadnego kompromisu jakościowego.

Cennik API

  • GPT-5.4: 11,25 zł / 1M tokenów wejściowych · 67,50 zł / 1M tokenów wyjściowych
  • GPT-5.4 Pro: 135 zł / 1M tokenów wejściowych · 810 zł / 1M tokenów wyjściowych
  • Batch + Flex: stawka obniżona o połowę
  • Priority processing: stawka podwójna

Narzędzie Playwright (Interactive) — eksperymentalna umiejętność Codex

Razem z GPT-5.4 OpenAI wypuścił eksperymentalną umiejętność Codex o nazwie „Playwright (Interactive)”, która pozwala Codexowi wizualnie debugować aplikacje webowe i Electron — a nawet testować aplikację w trakcie jej budowania. To pokaz synergii między możliwościami kodowania a obsługą komputera.

Parametr reasoning.effort — techniczny mechanizm kontroli kosztów

To jeden z najważniejszych elementów architektonicznych GPT-5.4, który odróżnia go od wszystkich poprzednich modeli OpenAI.

Parametr reasoning.effort kontroluje, ile tokenów rozumowania model generuje przed udzieleniem odpowiedzi. Wcześniejsze modele jak o3 obsługiwały tylko low, medium i high. Od GPT-5.2 najniższe ustawienie to none, zapewniające interakcje o niższym opóźnieniu. Jest to domyślne ustawienie w GPT-5.2 i nowszych modelach.

W GPT-5.4 dostępne jest pięć poziomów reasoning.effort: none, low, medium, high i xhigh. Ustawienie none sprawia, że model zachowuje się jak model bez myślenia (najszybszy i najtańszy), podczas gdy xhigh zapewnia maksymalną głębokość przy koszcie 3–5× wyższym.

Praktyczne zastosowanie: chatbot odpowiadający na FAQ nie potrzebuje tego samego poziomu rozumowania co agent debugujący wyścig danych (race condition). Możliwość dostrojenia tego parametru per-zapytanie to realna przewaga architektoniczna dla systemów produkcyjnych.

Przykładowe wywołanie API:

python

from openai import OpenAI
client = OpenAI()

response = client.responses.create(
    model="gpt-5.4",
    reasoning={"effort": "medium"},
    input=[{"role": "user", "content": "Przejrzyj ten diff i znajdź potencjalne błędy."}]
)
print(response.output_text)

Kluczowe wnioski dotyczące wyboru poziomu rozumowania: wyższy poziom nie zawsze jest lepszy — właściwy wybór zależy od kształtu zadania, a nie intuicji. Dla zadań GPT-5.4 none może już dobrze sprawdzać się przy selekcji działań i utrzymaniu dyscypliny narzędzi.


Tool Search — narzędzie do zarządzania dużymi ekosystemami narzędzi

GPT-5.4 wprowadza tool_search w API: ulepszone wyszukiwanie narzędzi dla większych ekosystemów narzędzi poprzez odroczone ładowanie definicji narzędzi. Dzięki temu narzędzia stają się przeszukiwalne, ładowane są tylko odpowiednie definicje, zmniejsza się użycie tokenów i poprawia się dokładność wyboru narzędzi w rzeczywistych wdrożeniach. To szczególnie ważne dla agentów operujących w środowiskach z dziesiątkami lub setkami dostępnych narzędzi MCP.


Natywna obsługa komputera — szczegóły techniczne

GPT-5.4 to pierwszy model ogólnego przeznaczenia z natywnymi możliwościami obsługi komputera. Model potrafi zarówno pisać kod sterujący komputerem za pośrednictwem bibliotek takich jak Playwright, jak i bezpośrednio wydawać polecenia myszką i klawiaturą w odpowiedzi na zrzuty ekranu.

W wczesnych testach z użytkownikami API, w ewaluacjach mierzących wydajność obsługi komputera na około 30 000 portali HOA i podatku od nieruchomości, GPT-5.4 osiągnął 95% wskaźnik sukcesu za pierwszym razem i 100% w ciągu trzech prób, w porównaniu z 73–79% przy poprzednich modelach CUA.

GPT-5.4 obsługuje również ulepszone rozumienie wizualne: od GPT-5.4 wprowadzono poziom szczegółowości obrazu wejściowego original, który obsługuje pełną wierność percepcji do 10,24M pikseli łącznie lub maksymalny wymiar 6000 pikseli.


Mniejsze halucynacje i większa faktyczność

GPT-5.4 to najdokładniejszy faktycznie model OpenAI dotychczas: indywidualne twierdzenia są o 33% rzadziej fałszywe, a pełne odpowiedzi o 18% rzadziej zawierają jakiekolwiek błędy w porównaniu do GPT-5.2.



2. Pluginy w Codex — Koniec programowania w próżni

Na czym polegają pluginy?

26 marca OpenAI ogłosiło, że pluginy stały się pełnoprawnym elementem przepływu pracy w Codex. Wcześniej Codex działał niejako w izolacji — potrafił pisać świetny kod, ale nie miał bezpośredniego połączenia z ekosystemem narzędzi deweloperskich używanych przez zespoły na co dzień. Pluginy to zmienią.

Architektura pluginów opiera się na serwerach MCP (Model Context Protocol). Gdy Codex rozpoczyna zadanie, automatycznie uruchamia skonfigurowane serwery MCP, nawiązując połączenie z zewnętrznymi narzędziami. Dzięki temu Codex może integrować się z platformami takimi jak Sentry (monitorowanie błędów) czy Datadog (obserwacja infrastruktury).

Kluczowe możliwości pluginów

  • Synchronizacja przy starcie: Codex może automatycznie synchronizować pluginy o zakresie projektu podczas uruchamiania.
  • Przeglądanie i zarządzanie: nowe polecenie /plugins pozwala przeglądać, instalować i usuwać pluginy z poziomu interfejsu — z przejrzystą obsługą autoryzacji i konfiguracji.
  • Wieloplatformowość: pluginy działają w aplikacji Codex, CLI, rozszerzeniu IDE i interfejsie webowym.
  • Wielokrotne użycie: pluginy pakują umiejętności, integracje z aplikacjami i konfiguracje serwerów MCP w postać gotową do udostępnienia między projektami i członkami zespołu.

Praktyczne znaczenie

Zmiana jest fundamentalna: Codex przestaje być narzędziem do „pisania kodu w próżni” i staje się pełnoprawnym uczestnikiem łańcucha narzędzi deweloperskich. Programista może teraz zbudować przepływ pracy, w którym Codex: odczytuje tickety z Jiry, analizuje błędy z Sentry, pisze poprawkę, uruchamia testy i otwiera pull request — wszystko bez ręcznego kopiowania kontekstu między narzędziami.

Trzy składniki pluginu

Pluginy łączą umiejętności (skills), integracje z aplikacjami i serwery MCP w wielokrotnie używalne przepływy pracy dla Codex. Każdy plugin może zawierać trzy rodzaje komponentów:

Skills (Umiejętności) — pliki SKILL.md zawierające wielokrotnie używalne instrukcje dla konkretnych rodzajów pracy. Codex stosuje progresywne ujawnianie, by efektywnie zarządzać kontekstem: zaczyna od metadanych każdej umiejętności (nazwa, opis, ścieżka pliku), a pełne instrukcje SKILL.md ładuje dopiero wtedy, gdy zdecyduje się użyć danej umiejętności.

Apps (Aplikacje) — połączenia z narzędziami takimi jak GitHub, Slack czy Google Drive, dzięki którym Codex może odczytywać informacje z tych narzędzi i podejmować w nich działania.

MCP Servers — serwisy dające Codexowi dostęp do dodatkowych narzędzi lub wspólnych informacji, często z systemów spoza lokalnego projektu.


Dostępne pluginy przy premierze

Przy premierze dostępnych jest ponad 20 pluginów dla usług takich jak Box, Figma, Linear, Notion, Sentry, Slack, Gmail i Hugging Face. Warto zwrócić uwagę, że wiele z nich wykracza poza samą fazę kodowania — wchodzą w fazy planowania, badań i koordynacji, które odbywają się przed i po napisaniu kodu.

Przykłady bezpośrednio z dokumentacji OpenAI:

  • Plugin Gmail pozwala Codexowi odczytywać i zarządzać Gmailem; plugin Google Drive umożliwia pracę z Drive, Docs, Sheets i Slides; plugin Slack służy do podsumowywania kanałów lub szkicowania odpowiedzi.

Jak zbudować własny plugin — przykład techniczny

Rdzeń pluginu stanowi plik plugin.json w folderze .codex-plugin/. Minimalna konfiguracja wygląda tak:

json

{
  "name": "my-plugin",
  "version": "0.1.0",
  "description": "Bundle reusable skills and app integrations.",
  "author": {
    "name": "Your team",
    "email": "team@example.com"
  },
  "skills": "./skills/",
  "mcpServers": "./.mcp.json",
  "apps": "./.app.json",
  "interface": {
    "displayName": "My Plugin",
    "category": "Productivity",
    "capabilities": ["Read", "Write"]
  }
}

OpenAI udostępnia wbudowaną umiejętność $plugin-creator, która „scaffolduje” wymagany manifest i może generować lokalny wpis w marketplace do testowania.


Plugin Marketplace — własne i firmowe katalogi

Marketplace to katalog JSON zawierający listę pluginów. $plugin-creator może wygenerować jeden dla pojedynczego pluginu, a do tego samego marketplace można dodawać kolejne wpisy, by zbudować własną, wyselekcjonowaną listę dla repozytorium, zespołu lub osobistego przepływu pracy.

Scoping pluginów:

  • Repo marketplace — plik w $REPO_ROOT/.agents/plugins/marketplace.json, pluginy przechowywane w $REPO_ROOT/plugins/
  • Personal marketplace — dostępny tylko dla właściciela

Konfiguracja MCP przez CLI

Codex przechowuje konfigurację MCP w config.toml obok innych ustawień Codex. Domyślna lokalizacja to ~/.codex/config.toml, ale można też ograniczyć zakres serwerów MCP do projektu poprzez .codex/config.toml. CLI i rozszerzenie IDE współdzielą tę konfigurację.

Dodanie serwera MCP z CLI:

bash

codex mcp add context7 -- npx -y @upstash/context7-mcp

Polecenie /mcp w interfejsie TUI pozwala wyświetlić aktywne serwery MCP.


Strategiczne znaczenie pluginów vs. Claude Code

Mechanika pluginów jest prosta. Kiedy agent Codex rozpoczyna zadanie, może uruchamiać serwery MCP łączące się z usługami skonfigurowanymi przez użytkownika — zamiast pracować wyłącznie z bazą kodu w swoim sandboxie, Codex może pobierać logi błędów z Sentry, odpytywać dashboardy monitoringowe z Datadog, sprawdzać kontekst zarządzania projektami z Linear czy uzyskiwać dostęp do dokumentacji.

Podczas gdy Claude Code również obsługuje MCP, brakuje mu oficjalnej koncepcji „Plugin Marketplace”. Claude Code wymaga ręcznej konfiguracji przez settings.json, podczas gdy pluginy Codex oferują znacznie bardziej gotowe do użycia doświadczenie.


3. Triggers — Codex, który nigdy nie śpi

Co to są Triggers?

Wyzwalacze zdarzeń (Triggers) to mechanizm umożliwiający Codexowi automatyczne reagowanie na zdarzenia zewnętrzne — przede wszystkim z GitHuba — bez konieczności ręcznego uruchamiania każdego zadania. OpenAI pozycjonuje tę funkcję jako „partnera inżynieryjnego, który nigdy nie śpi, nigdy nie bierze wolnego i nigdy nie kłóci się o spacje versus tabulatory”.

Jak działają Triggers?

W odróżnieniu od podobnych mechanizmów u konkurencji (np. /loop i harmonogramów w Claude Code, które opierają się na odpytywaniu co N minut), Triggers są sterowane zdarzeniami — odpowiadają w ułamku sekundy od momentu wystąpienia zdarzenia, nie czekając na kolejny cykl odpytywania.

Przykładowy przepływ pracy z Triggers:

  1. Ktoś tworzy Issue na GitHubie zgłaszające błąd.
  2. Triggers wykrywa zdarzenie natychmiast.
  3. Codex automatycznie analizuje kod, identyfikuje przyczynę błędu i przygotowuje poprawkę.
  4. Codex otwiera Pull Request z poprawką — gotowy do przeglądu przez człowieka.

To w zasadzie pełny potok automatyzacji: „Issue arrives → Auto-fix → Auto-open PR” — bez jednej linii ręcznego kodu orkiestrującego.

Dlaczego Triggers są wyróżniającą się funkcją?

Triggers to jeden z elementów, który wyraźnie różnicuje Codex od konkurencyjnych narzędzi. Reaktywność na zdarzenia w czasie rzeczywistym, bez konieczności posiadania otwartego komputera czy uruchomionej sesji, otwiera drzwi do w pełni autonomicznych pipeline’ów CI/CD zarządzanych przez agenta AI.

Jak działają Triggers od strony technicznej?

Triggers korzystają z tej samej infrastruktury co GitHub Action OpenAI (openai/codex-action@v1). Akcja instaluje Codex CLI, uruchamia proxy API Responses i wykonuje codex exec z uprawnieniami, które określisz. Można ją wykorzystać do automatyzowania feedbacku Codex do pull requestów lub wydań bez samodzielnego zarządzania CLI, blokowania zmian na podstawie kontroli jakości Codex jako część pipeline’u CI, oraz uruchamiania powtarzalnych zadań Codex (przegląd kodu, przygotowanie wydania, migracje) z pliku workflow.

Przykładowy workflow GitHub Actions (z dokumentacji OpenAI), który automatycznie recenzuje każdy nowy PR:

yaml

name: Codex PR Review
on:
  pull_request:
    types: [opened, synchronize]

jobs:
  review:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: openai/codex-action@v1
        with:
          prompt: "Przejrzyj ten PR i skomentuj potencjalne problemy."
          model: "gpt-5.4"
          effort: "medium"
          sandbox: "read-only"
        env:
          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}

Porównanie z Claude Code — event-driven vs. polling

OpenAI pozycjonuje Triggers jako: „Partner inżynieryjny, który nigdy nie śpi, nigdy nie bierze wolnego i nigdy nie kłóci się o spacje versus tabulatory.” To fundamentalnie różni się od funkcji /loop i harmonogramów Claude Code: /loop i Schedule opierają się na odpytywaniu co N minut, podczas gdy Triggers są sterowane zdarzeniami — reagują tylko wtedy, gdy wydarzenie faktycznie wystąpi, oszczędzając zasoby podczas bezczynności.

Praktyczna różnica: odpowiedź sub-sekundowa po stworzeniu Issue zamiast czekania na kolejny cykl odpytywania. Dla zespołów pracujących z GitHubem w trybie wysokiej intensywności to realna oszczędność czasu.


Pełny zautomatyzowany pipeline

Łącząc Triggers, Pluginy i GPT-5.4, można zbudować następujący przepływ pracy bez jednej linii ręcznej interwencji:

  1. Ktoś otwiera Issue na GitHubie opisujące błąd.
  2. Trigger natychmiast wykrywa zdarzenie issues.opened.
  3. Codex pobiera pełny kontekst błędu z Sentry przez plugin (MCP).
  4. Subagent mini przegląda dotknięte pliki (GPT-5.4 mini, 30% limitu).
  5. Główny agent analizuje przyczynę i pisze poprawkę z testami (GPT-5.4).
  6. Codex Security weryfikuje, czy poprawka nie wprowadza nowych podatności.
  7. Codex otwiera Pull Request z opisem: „Automated fix for #123″.
  8. Ludzki recenzent dostaje gotowy PR do zatwierdzenia — żadnego szukania, żadnego kontekstu do zbierania.

4. Codex Security — Agentowe bezpieczeństwo kodu

Geneza: od Aardvarka do Codex Security

Codex Security to wyspecjalizowany agent bezpieczeństwa, uruchomiony w podglądzie badawczym 6 marca 2026 roku. Wywodzi się z prywatnego projektu o kryptonimie Aardvark, który OpenAI testował od października 2025 roku z wybraną grupą klientów.

Narzędzie jest dostępne bezpłatnie przez pierwszy miesiąc dla użytkowników planów ChatGPT Pro, Enterprise, Business i Edu za pośrednictwem interfejsu webowego Codex.

Jak działa Codex Security?

Agent działa w trzech fazach:

  1. Budowanie kontekstu i modelu zagrożeń: Narzędzie analizuje repozytorium kodu, by zrozumieć jego strukturę bezpieczeństwa — co system robi, czemu ufa i gdzie jest najbardziej narażony. Generuje edytowalny model zagrożeń specyficzny dla projektu, który można dostosować do potrzeb zespołu.
  2. Priorytetyzacja i walidacja: Używając modelu zagrożeń jako kontekstu, agent przeszukuje kod w poszukiwaniu podatności i kategoryzuje znaleziska według oczekiwanego rzeczywistego wpływu. Tam, gdzie to możliwe, testuje znaleziska w izolowanych środowiskach piaskownicy, by odróżnić sygnały od szumu.
  3. Propozycja poprawek: Agent proponuje poprawki zgodne z zachowaniem systemu, minimalizując ryzyko regresji. Programiści mogą zatwierdzać i wdrażać łatki bezpośrednio z interfejsu.

Imponujące wyniki beta

W ciągu pierwszych sześciu tygodni testów beta Codex Security:

  • Przeskanował ponad 1,2 miliona commitów w zewnętrznych repozytoriach.
  • Zidentyfikował 792 krytyczne znaleziska i 10 561 podatności wysokiego ryzyka.
  • Odkrył 14 podatności wystarczająco poważnych, by trafić do bazy CVE (Common Vulnerabilities and Exposures) zarządzanej przez MITRE.
  • W przypadku wielokrotnych skanów tych samych repozytoriów wskaźnik szumu zmniejszył się o 84%.
  • Odsetek fałszywych alarmów spadł o ponad 50% we wszystkich repozytoriach.
  • Nadmiernie zaraportowana krytyczność znalezisk zmniejszyła się o ponad 90%.

Kluczowe odkryte podatności (przykłady)

Wśród realnych podatności odkrytych przez Codex Security znalazły się m.in.:

  • Przepełnienie bufora sterty (heap-buffer overflow) w GnuTLS — CVE-2025-32990
  • Podwójne zwolnienie pamięci (double-free) w GnuTLS — CVE-2025-32988
  • Obejście 2FA w GOGS — CVE-2025-64175
  • Nieautoryzowane ominięcie uwierzytelniania w GOGS — CVE-2026-25242
  • Path traversal (arbitralny zapis) w download_ephemeral — CVE-2025-35430

5. Codex na Windows

4 marca 2026 roku OpenAI ogłosiło, że aplikacja Codex jest teraz oficjalnie dostępna na Windows z zestawem funkcji w pełni porównywalnym z wersją macOS. Wcześniej użytkownicy Windows byli ograniczeni do interfejsu CLI i rozszerzenia VS Code — bez dedykowanej aplikacji desktopowej.

Dostępność na Windows to ważny sygnał dla rynku korporacyjnego: większość przedsiębiorstw standardowo używa systemu Windows, a pełnoprawna aplikacja Codex oznacza, że deweloperzy w tych organizacjach mogą teraz korzystać z całego doświadczenia multiagentowego bez konieczności przełączania się na inny system operacyjny.


6. GPT-5.4 mini w Codex — Szybkość i oszczędność dla lżejszych zadań

Czym jest GPT-5.4 mini?

GPT-5.4 mini to lekki wariant flagowego modelu, teraz w pełni zintegrowany z platformą Codex — aplikacją, CLI, rozszerzeniem IDE i interfejsem webowym. Ponad dwukrotnie szybszy niż pełny GPT-5.4, przewyższa jednocześnie GPT-5 mini w kodowaniu, rozumowaniu, rozumieniu obrazów i korzystaniu z narzędzi.

Ekonomia użycia w Codex

W kontekście limitów użytkowania platformy Codex GPT-5.4 mini zużywa tylko 30% limitu porównywalnego z GPT-5.4 — co oznacza, że za tę samą kwotę można wykonać 3,3× więcej pracy przy użyciu mini.

Kiedy używać mini, a kiedy pełnego modelu?

OpenAI zaleca stosowanie GPT-5.4 mini do:

  • Eksploracji bazy kodu (codebase exploration)
  • Przeglądu dużych plików
  • Przetwarzania dokumentów pomocniczych
  • Mniej intensywnych zadań subagentów

Pełny GPT-5.4 jest rekomendowany do:

  • Złożonego planowania i koordynacji
  • Ostatecznej weryfikacji i oceny kodu
  • Zadań wymagających głębokiego rozumowania

Szczegółowe porównanie kosztów

GPT-5.4 mini jest dostępny w aplikacji Codex, CLI, rozszerzeniu IDE i Codex na web. W Codex, GPT-5.4 mini zużywa 30% limitu porównywalnego z GPT-5.4, więc porównywalne zadania mogą trwać około 3,3× dłużej przed osiągnięciem limitów.

Praktyczny przykład budżetowania: jeśli Twój miesięczny limit w Codex to 100 jednostek, to:

  • Używając tylko GPT-5.4: 100 jednostek = 100 jednostek pracy
  • Używając mini do eksploracji, GPT-5.4 do finalizacji (np. 70% mini / 30% full): 70×0,30 + 30×1,0 = 21 + 30 = 51 jednostek → prawie 2× więcej pracy za ten sam budżet

Kiedy mini, kiedy pełny model — rekomendacje OpenAI

OpenAI rekomenduje GPT-5.4 mini do eksploracji bazy kodu, przeglądu dużych plików, przetwarzania dokumentów pomocniczych i innych mniej intensywnych zadań subagenta. Do złożonego planowania, koordynacji i ostatecznej oceny zaleca się zacząć od GPT-5.4.

Codex obsługuje zarówno GPT-5.4, jak i GPT-5.4 mini. Nie każde zadanie kodowania wymaga tego samego balansu między szybkością a głębokością. Szybki skan lub lekka poprawka mogą być lepiej obsługiwane przez mniejszy model.


Porównanie z Claude Haiku 4.5

GPT-5.4 mini i Claude Haiku 4.5 mają podobne pozycjonowanie — oba są lekkie, szybkie i ekonomiczne. GPT-5.4 mini lepiej sprawdza się w debugowaniu terminalowym i efektywności tokenowej, podczas gdy Haiku 4.5 ma nieznaczną przewagę w głębi rozumowania.


7. Pozostałe nowości — Wieloagentowe przepływy i ulepszenia UX

Subagenci z adresami czytelymi dla człowieka

Architektura wieloagentowa Codex (multi-agent v2) doczekała się ważnej aktualizacji: subagenci używają teraz adresów opartych na ścieżkach, takich jak /root/agent_a, zamiast nieprzejrzystych identyfikatorów. Dodano strukturyzowaną wymianę komunikatów między agentami i ich listowanie. Dzięki temu zarządzanie równoległymi sesjami staje się znacznie bardziej intuicyjne.

Dostęp do terminala bieżącego wątku

Codex może teraz odczytywać zintegrowany terminal dla aktualnego wątku. Oznacza to, że agent jest w stanie sprawdzić status działającego serwera deweloperskiego lub zapoznać się z wyjściem nieudanego builda bez przerywania pracy i bez ręcznego kopiowania logów.

Hak userpromptsubmit

Nowy hak userpromptsubmit pozwala blokować lub wzbogacać prompty użytkownika przed ich wykonaniem i przed zapisaniem w historii. To przydatne narzędzie dla organizacji chcących wdrożyć polityki bezpieczeństwa lub pre-processowanie na poziomie każdego zapytania.

Personalizacja stylu agenta

Codex pozwala teraz deweloperom wybrać między dwoma osobowościami agenta — zwięzłym, pragmatycznym stylem pracy oraz bardziej konwersacyjnym, empatycznym podejściem. Żaden z trybów nie ogranicza możliwości modelu — to czysto estetyczna preferencja. Zmiana dostępna jest przez polecenie /personality.

Synchronizacja ustawień między aplikacją a rozszerzeniem VS Code

Ustawienia są teraz synchronizowane między aplikacją Codex a rozszerzeniem VS Code, co eliminuje frustrujące rozbieżności konfiguracji przy przełączaniu się między środowiskami.


8. Porównanie z konkurencją — GPT-5.4 vs Claude Opus 4.6

Marzec 2026 to miesiąc, w którym dwa najbardziej zaawansowane modele na rynku — GPT-5.4 i Claude Opus 4.6 od Anthropic — stanęły do bezpośredniej rywalizacji. Oto kluczowe wnioski:

GPT-5.4 wygrywa w:

  • Cenie: przy porównywalnej wydajności koszt outputu jest mniej niż połową ceny Claude Opus 4.6 (67,50 zł vs 337,50 zł per 1M tokenów).
  • Rozmiarze okna kontekstu: 272K tokenów (standard) vs 200K w Opus 4.6, a nawet 1M przy wyższych stawkach.
  • Obsłudze komputera: GPT-5.4 był pierwszym modelem ogólnym z natywnym computer use w API.
  • Efektywności tokenowej: regulowalny poziom rozumowania (parametr reasoning_effort z pięcioma poziomami) pozwala zoptymalizować stosunek kosztu do jakości.

Claude Opus 4.6 wygrywa w:

  • SWE-bench Verified: nieznaczna przewaga (80,8% vs ~80%).
  • Refaktoryzacji wielu plików: Anthropic pozostaje liderem w rozumieniu złożonych, powiązanych baz kodu.
  • Dojrzałości obsługi komputera: Anthropic wdrożył computer use wcześniej i ma więcej czasu na dopracowanie tej funkcji.

Ogólny wniosek: GPT-5.4 to model o wyjątkowej wszechstronności — łączy kodowanie, rozumowanie i obsługę komputera na poziomie frontierowym w jednej architekturze, i robi to w bardziej przystępnej cenie.


9. Kontekst i znaczenie dla deweloperów

Codex ewoluuje od asystenta do autonomicznego inżyniera

Pięć kluczowych aktualizacji marca 2026 wyraźnie nakreśla kierunek: Codex przestaje być terminalowym asystentem do pisania kodu, a staje się w pełni autonomicznym członkiem zespołu inżynierskiego. Pluginy łączą go z ekosystemem narzędzi. Triggers sprawiają, że działa reaktywnie, bez nadzoru człowieka. Codex Security dodaje warstwę obrony. GPT-5.4 mini optymalizuje koszty. A obsługa Windows otwiera drzwi dla korporacyjnego mainstreamу.

Łącząc wszystkie elementy, programiści mogą zbudować przepływ pracy, w którym:

  1. GitHub Issue automatycznie wyzwala Codex (Triggers).
  2. Codex łączy się z Sentry po kontekst błędu (Plugins + MCP).
  3. Subagent mini przegląda pliki (GPT-5.4 mini).
  4. Główny agent pisze poprawkę i testy (GPT-5.4).
  5. Codex Security sprawdza, czy poprawka nie zawiera nowych podatności (Security Agent).
  6. Pull Request ląduje na GitHubie gotowy do code review.

Cały ten potok — bez jednej linii ręcznej interwencji.

Dla kogo te zmiany są najważniejsze?

  • Startupy i małe zespoły: GPT-5.4 mini i ekonomika Codex pozwalają małym zespołom delegować znacznie więcej pracy do agentów bez przekraczania budżetu.
  • Korporacje i duże organizacje: Codex Security, obsługa Windows i integracje MCP z narzędziami korporacyjnymi (Datadog, Sentry) odpowiadają na potrzeby enterprise.
  • Open source maintainerzy: OpenAI aktywnie onboarduje maintainerów open source do Codex Security — to sygnał, że firma chce zaangażować szeroką społeczność programistyczną.

Podsumowanie

Marzec 2026 przyniósł OpenAI pięć przełomowych aktualizacji naraz: nowy flagowy model GPT-5.4 z natywnym computer use i milionowym oknem kontekstu, pluginy w Codex łączące agenta z ekosystemem narzędzi deweloperskich, Triggers automatyzujące reakcję na zdarzenia GitHuba, Codex Security wykrywający podatności z imponującą precyzją, oraz pełną dostępność aplikacji na Windows. Uzupełnieniem jest lekki, szybki i ekonomiczny GPT-5.4 mini.

To nie są kosmetyczne aktualizacje — to zmiana paradygmatu. OpenAI konsekwentnie przesuwa granicę tego, co agentyczne narzędzia deweloperskie mogą robić samodzielnie, i stawia sobie ambitny cel: uczynić Codex nie tyle narzędziem, co autonomicznym partnerem w całym cyklu życia oprogramowania — od napisania kodu, przez jego zabezpieczenie, aż po deployment.


Artykuł opracowany na podstawie oficjalnych komunikatów OpenAI i analiz z marca 2026 roku.

Bezpłatne szkolenie: Zbuduj 5 agentów AI w n8n!

Weź udział w intensywnym, praktycznym szkoleniu i naucz się tworzyć automatyzacje oraz agentów AI komunikujących się przez komunikator. W programie m.in.: RAG Chatbot, Voice Agent, Wirtualna Rada Nadzorcza, Asystentka głosowa i Claude Code Admin.

Zapisy do 23 kwietnia, 23:59

Sprawdź szczegóły: https://asdevops.pl/warsztaty/

 

 

 

 

Bezpłatny dostęp do warsztatów "Zbuduj 5 agentów AI w n8n!"

X