Rozmowa przy tablicy to przeżytek: rekrutacja sprawiedliwa i odporna na AI

W 2026 roku AI rozłożyło na łopatki rozmowy przy tablicy i zadania domowe. Oto framework decyzyjny do projektowania sprawiedliwych, odpornych na AI próbek pracy, oparty na tym, jak rekrutują Anthropic, Stripe i Linear.

Ernest Bursa

Founder · 15 czerwca 2026 · 12 min czytania

Two engineers pair programming on a real codebase at a sunlit co-working table, one narrating a decision while the other types

Jako samodzielny sygnał rozmowa przy tablicy jest martwa. Kontrolowane badanie z NC State i Microsoftu wykazało, że kandydaci podczas obserwowanych rozmów technicznych radzili sobie blisko o połowę gorzej niż ci, którzy rozwiązywali ten sam problem na osobności. Generatywne AI rozwiązuje dziś w kilka minut zarówno łamigłówki z tablicy, jak i zadania domowe. Trwałym zamiennikiem jest próbka pracy: zadanie związane z realną rolą, które kończy się obroną na żywo, gdzie kandydat na głos tłumaczy i modyfikuje prawdziwe decyzje.

To ostatnie posunięcie decyduje o wszystkim. Nakładki AI potrafią pisać kod podczas udostępniania ekranu i zaliczyć „3-godzinne” zadanie domowe w kilka minut, ale nie potrafią obronić kompromisu projektowego w czasie rzeczywistym. Strategiczna odpowiedź najlepiej prowadzonych zespołów inżynierskich w 2026 roku to nie oprogramowanie do inwigilacji. To zmiana formatu w stronę ocen, które sprawdzają osąd i komunikację — dwie rzeczy, których AI wciąż nie umie podrobić na żywo. Ten przewodnik daje ci gotowy schemat decyzyjny: który format wybrać teraz, jak sprawić, żeby był zarazem sprawiedliwy i odporny na ściąganie bez szpiegowania, oraz jak naprawdę robią to Anthropic, Stripe, Vercel i Linear.

Czy rozmowy przy tablicy to już przeżytek? (Tak — i AI to dopiero połowa powodu)

Tak, jako samodzielny sygnał. Rozmowa przy tablicy była zepsuta jeszcze zanim AI w ogóle jej dotknęło, a AI zabrało resztki sygnału, jakie z niej zostały.

Pierwszy problem: nigdy nie mierzyła tego, co trzeba. W kontrolowanym eksperymencie Behroozi i współpracownicy z NC State i Microsoftu (2020) kazali kandydatom rozwiązywać ten sam problem w dwóch warunkach: w samotności oraz pod obserwacją prowadzącego, w klasycznym układzie przy tablicy. Kandydaci w wariancie obserwowanym radzili sobie mniej więcej o połowę gorzej. Format mierzy głównie stres przed wystąpieniem i obciążenie pamięci roboczej pod obserwacją, a nie kompetencje inżynierskie. Karze też dokładnie tych ludzi, których chcesz rekrutować sprawiedliwie: introwertyków, kandydatów neuroróżnorodnych i każdego, czyj styl komunikacji nie pasuje do występu słownego pod presją.

Drugi problem pojawił się w 2025 roku. Nakładki w stylu Cluely, Interview Coder czy Leetcode Wizard niewidocznie podsuwają odpowiedzi w trakcie udostępniania ekranu. Standardowe zadanie typu LeetCode rozwiązuje się po cichu w tle, podczas gdy kandydat tylko przepisuje. Jeśli twój etap techniczny nadal opiera się na łamigłówkach z programowania konkursowego, nie mierzysz już kandydata. Mierzysz jego narzędzia.

To nie znaczy, że kodowanie na żywo jest bezwartościowe. Bezwartościowy jest format obserwowanej łamigłówki. Przetrwała wersja oparta na współpracy: parowanie w prawdziwym IDE nad realistycznym problemem, gdzie prowadzący jest partnerem myślącym razem z kandydatem, a nie nadzorcą czekającym na właściwą odpowiedź. To sprawdza, jak ktoś rozumuje, zadaje pytania i pracuje w nieznanym kodzie. Bliżej tu prawdziwej pracy, a nakładką znacznie trudniej to podrobić.

Dlaczego AI rozłożyło też zadanie domowe (i dlaczego inwigilacja to zła odpowiedź)

Niepilnowane zadanie domowe jest dziś formatem najbardziej narażonym na AI ze wszystkich. Rozwiązaniem nie jest oprogramowanie wykrywające. Rozwiązaniem jest projekt zadania.

Zadania domowe zawsze miały najlepszą opowieść o trafności w realnym świecie i wciąż są cenne. Ale nieoceniane, nieobronione zadanie asynchroniczne to najłatwiejszy element całego procesu do zaliczenia przez AI. Dostawca ocen Fabric podaje, że zadanie domowe zaprojektowane na trzy godziny narzędzia AI kończą w ok. osiem minut, a odsetek ściągania w jego puli kandydatów wzrósł przez 2025 rok ponad dwukrotnie (z około 15% do 35%). Te konkretne liczby traktuj raczej kierunkowo niż jak wyrocznię; pochodzą od dostawcy, bez niezależnych źródeł. Sam kierunek jednak nie podlega dyskusji, a każdy szef inżynierii, który widział zadanie domowe „za czyste, żeby było prawdziwe”, już to wie.

Kusząca odpowiedź to wykupienie się od problemu nadzorem: śledzenie wzroku, logowanie naciśnięć klawiszy, blokowanie ekranu, szpiegowanie przeglądarki. Odpuść to z trzech powodów.

To podejście wrogie i szkodzące marce. Środowisko inżynierów jest małe i gadatliwe. Kandydaci dzielą się historiami grozy o inwigilacji, a twoi najlepsi kandydaci sami odpuszczą, zanim w ogóle wyślą zgłoszenie.
Tworzy własne problemy z uprzedzeniami i dostępnością. Narzędzia blokujące ekran i śledzące wzrok karzą kandydatów neuroróżnorodnych, kandydatów z niepełnosprawnościami i każdego z niestandardowym sprzętem. Akt o sztucznej inteligencji (rozporządzenie 2024/1689) zalicza narzędzia AI oceniające kandydatów do systemów wysokiego ryzyka, a Kodeks pracy (art. 18(3a) i nast.) czyni pracodawcę odpowiedzialnym za nierówne traktowanie w rekrutacji — niezależnie od tego, kto zbudował narzędzie.
A do tego i tak nie działa. Nadzór walczy z objawem. Drugi monitor albo telefon obchodzi go bez trudu. Tracisz zaufanie i budżet, i tak przegrywając.

Kontekst lokalny

Od 2 sierpnia 2026 roku Akt o sztucznej inteligencji (rozporządzenie 2024/1689) traktuje narzędzia AI do przesiewania i oceny kandydatów jako systemy wysokiego ryzyka. Pracodawca, który je wdraża, musi testować je pod kątem stronniczości, zapewnić realny nadzór człowieka i prowadzić dokumentację techniczną — pod groźbą kar sięgających 15 mln euro lub 3% globalnego obrotu. To popycha proces dokładnie ku temu, co zaleca ten tekst: obronie na żywo z udziałem człowieka i ustrukturyzowanym kartom oceny.

Trwała odpowiedź to odporność wbudowana w projekt: buduj formaty, w których sygnał żyje w rozumowaniu na żywo, tak że nakładka nie ma czego ratować. W niektórych rolach można pójść dalej i wprost pozwolić na AI w trakcie zadania, a potem oceniać, jak dobrze kandydat nim kieruje i jak go krytykuje, bo to odzwierciedla faktyczną pracę.

Który format oceny wybrać teraz? Framework decyzyjny

Dopasuj format do codzienności roli i zadbaj, by przynajmniej jedna runda wymuszała osąd w czasie rzeczywistym. Nie ma jednego najlepszego formatu; jest najlepszy format dla tej roli.

Format	Najlepszy do	Dlaczego jest odporny na AI
Programowanie w parze nad realistycznym problemem	Role, w których współpraca i praca w nieznanym kodzie to istota zadania	Myślenie jest obserwowane na żywo i wspólnie; nakładka nie opowie za ciebie toku rozumowania
Zadanie domowe + obrona na żywo	Role, w których istotą jest głęboka, samodzielna praca asynchroniczna	Runda obrony sprawdza decyzje, których kandydat musi bronić na głos
Projektowanie systemu	Role na poziomie seniora i role infrastrukturalne	Chodzi o kompromisy i komunikację, a nie o odpowiedzi do wyciągnięcia z głowy
Asynchroniczny code review prawdziwego kodu	Kultury remote-first, mocno asynchroniczne	Sprawdza rozumienie i krytykę, a nie generowanie

Wspólny mianownik wszystkich czterech jest ten sam: najbardziej odpornym na AI sygnałem jest kandydat broniący prawdziwych decyzji w czasie rzeczywistym. Wybierz format najbardziej przypominający zwykły wtorek na danym stanowisku, a potem zadbaj, by kandydat choć raz musiał wytłumaczyć swój tok myślenia drugiemu człowiekowi.

Praktyczny domyślny wybór dla większości startupowych ról inżynierskich to drugi wiersz: krótkie, płatne, realistyczne zadanie domowe, które staje się agendą rozmowy na żywo. Dostajesz trafność prawdziwej pracy plus odporność na ściąganie dzięki obronie na żywo. Jeśli interesuje cię taktyczna mechanika projektowania samego zadania domowego (zakres, budżet czasu, ocenianie), zobacz nasz pogłębiony tekst o tym, jak układać zadania programistyczne, których kandydaci nie znienawidzą.

Jedno rozwiązanie, które uodparnia na AI każdy format: obrona na żywo

Najtrwalszy mechanizm antyściągowy to zakończenie każdego asynchronicznego artefaktu obroną na żywo: „Przeprowadź mnie przez to. A teraz zmień wymaganie X. Dlaczego wybrałeś to, a nie alternatywę?”.

Mechanizm jest prosty. Nakładka z LLM potrafi wyprodukować kod. Nie potrafi za to w czasie rzeczywistym wytłumaczyć, dlaczego jeden model danych okazał się lepszy od drugiego przy tym ograniczeniu, dostosować się, gdy zmienisz specyfikację w trakcie rozmowy, ani zdebugować czegoś, co rzekomo sama napisała. Artefakt przestaje być końcowym sygnałem i staje się agendą 20–30-minutowej rozmowy o osądzie. Ktoś, kto naprawdę to zbudował, przejdzie przez to bez wysiłku. Ktoś, kto wkleił to z narzędzia, utknie na pierwszym „dlaczego”.

Obrona na żywo niezauważenie naprawia też problem sprawiedliwości. Nie oceniasz już szybkości pisania pod obserwacją, czyli tego, co badanie z NC State pokazało jako głównie stres. Oceniasz rozumowanie nad pracą, którą kandydat wykonał już we własnym tempie. To zarazem sprawiedliwsze i znacznie lepiej przewiduje, jak ktoś poradzi sobie na stanowisku.

Konkretnie, w dowolnym procesie wygląda to tak:

Kandydat wykonuje małą, realistyczną, płatną próbkę pracy asynchronicznie.
25-minutowa sesja na żywo zaczyna się od „przeprowadź mnie przez swoje podejście”.
Zmieniasz jedno wymaganie na żywo i patrzysz, jak się dostosowuje.
Prosisz, by od ręki zdebugował lub rozbudował jeden fragment.
Recenzenci oceniają rozumowanie według karty oceny, zanim ktokolwiek zacznie omawiać kandydata.

Żadnego szpiegowania. Żadnych oskarżeń. Tylko rozmowa, której AI nie poprowadzi za kandydata.

Jak naprawdę rekrutują Anthropic, Stripe, Vercel i Linear

Najlepiej prowadzone zespoły inżynierskie już dokonały tej zmiany. Żaden z nich nie opiera się na obserwowanych łamigłówkach przy tablicy ani na nadzorze. Opierają się na realistycznej pracy plus osądzie na żywo.

Anthropic prowadzi screening z rekruterem, techniczny screening telefoniczny, a potem albo zadanie domowe, albo około 60-minutową ocenę na żywo (zależnie od roli, w CodeSignal i wprost nie w stylu LeetCode), po czym następuje cztery do sześciu rund onsite, w tym projektowanie systemu i mocno ważona runda wartości. Co najistotniejsze, firma, która tworzy Claude, publikuje jawną politykę używania AI przez kandydatów. Po zwrocie z lipca 2025 kandydaci mogą używać AI do dopracowania materiałów aplikacyjnych, ale jest ono zabronione w rozmowach na żywo i zadaniach domowych: „Wykonaj je bez Claude’a, chyba że wskażemy inaczej. Chcemy ocenić twoje unikalne umiejętności”. To uodparnianie na AI z założenia plus uczciwość wobec kandydatów — od zespołu, który ma najwięcej powodów, by się nad tym solidnie zastanowić.

Stripe prowadzi celowo praktyczny proces: zdebuguj nieznany codebase, zbuduj od zera małą integrację, rozwiąż wieloczęściowe problemy, opowiadając na głos swój tok myślenia. Część rund odbywa się jako parowanie. Świadomie bliżej tu prawdziwej inżynierii niż programowania konkursowego.

Vercel stosuje wspólną sesję kodowania nastawioną na budowanie, plus projektowanie systemu, z naciskiem na osąd produktowy po stronie frontendu i na komunikację.

Linear stosuje krótki (około trzygodzinny), płatny projekt w stylu próby pracy, po którym następuje rozmowa wokół code review, i wymaga niemal jednomyślnego „zdecydowanego tak” od panelu, żeby złożyć ofertę. Struktura, wysoka poprzeczka i związek z pracą w jednym procesie.

Pouczającym kontrastem jest wzorzec w stylu GitLaba: asynchroniczny code review prawdziwego merge requesta jako podstawa rozmowy na żywo. Sprawdza czytanie i krytykę prawdziwego kodu zamiast jego generowania, co pasuje do kultury remote-async. Sens wyliczania pięciu różnych podejść nie polega na tym, że jedno jest poprawne. Polega na tym, że każda firma dopasowała format do tego, jak naprawdę pracuje — i każda z nich kończy momentem osądu na żywo, który da się obronić.

Czy nowy format jest naprawdę bardziej sprawiedliwy? Co mówią dowody

Próbki pracy związane z realną rolą należą do najtrafniejszych i najmniej obciążonych uprzedzeniami metod selekcji, ale tylko gdy są ustrukturyzowane. Sprawiedliwość bierze się ze struktury, związku z pracą i spójności, a nie z samej etykiety formatu.

Uważaj z liczbami, bo kanon został niedawno skorygowany. Sackett, Zhang, Berry i Lievens (2022) ponownie przeanalizowali dekady badań nad selekcją personelu i obniżyli kilka długo cytowanych szacunków trafności:

Ustrukturyzowane rozmowy są dziś pojedynczym najlepszym predyktorem, z trafnością operacyjną na poziomie około .42 (skorygowane w dół z .51).
Testy próbek pracy plasują się około .33 (mocno skorygowane w dół z długo cytowanego .54).
Ogólne zdolności poznawcze plasują się około .31 (w dół z .51).

Najważniejsza jest tu sama kolejność: dobrze ustrukturyzowana rozmowa, czyli rzetelnie przeprowadzona obrona na żywo, przewiduje dziś wyniki lepiej niż surowa próbka pracy czy test poznawczy. To mocny argument za obroną na żywo samą w sobie, nie tylko jako taktyka antyściągowa.

Co do uprzedzeń konkretnie, posługuj się recenzowanymi rozmiarami efektów, a nie przetwarzanymi w kółko statystykami marketingowymi. Metaanaliza Aamodta wykazała, że rozmowy nieustrukturyzowane są znacznie podatniejsze na uprzedzenia (d = .59) niż ustrukturyzowane (d = .23), a różnice w wynikach między grupami rasowymi maleją wraz ze wzrostem struktury. Dorzuć jeszcze jeden czynnik: płać kandydatom za istotne etapy z próbką pracy. Campion i współpracownicy (2025) ustalili, że praktyka i płatne testy próbek pracy zmniejszają różnice w wynikach między podgrupami, a płacenie za prawdziwą pracę podnosi też odsetek ukończeń i pomaga opiekunom oraz kandydatom o niższych dochodach, których nie stać na oddawanie nieopłaconych godzin.

Dlaczego statystyki „42% / 81% redukcji uprzedzeń”, które widziałeś, są niewiarygodne

Znajdziesz dziesiątki blogów dostawców twierdzących, że ustrukturyzowane rozmowy „redukują uprzedzenia płciowe o 42%, rasowe o 35% i poprawiają trafność o 81%”. Te trzy liczby nie mają żadnego dającego się prześledzić badania źródłowego; są przepisywane z jednego miejsca do drugiego. Zamiast nich używaj recenzowanych wartości powyżej. Wiarygodność twojego argumentu o sprawiedliwości zależy od cytowania badań, które naprawdę istnieją — szczególnie w otoczeniu regulacyjnym, w którym Akt o sztucznej inteligencji (rozporządzenie 2024/1689) i Kodeks pracy wymagają, byś potrafił obronić swój proces rekrutacji.

Projektuj sprawiedliwe, odporne na AI oceny domyślnie z Kit

AI rozłożyło tablicę i niepilnowane zadanie domowe w tym samym roku. Naprawą nie jest nadzór. Jest nią zaprojektowanie właściwego formatu: związanych z realną rolą próbek pracy, płatnych i ustrukturyzowanych, które zawsze kończą się obroną na żywo. Problem z robieniem tego ręcznie polega na tym, że poszczególne elementy (realistyczne zadanie, płatność, zaplanowana obrona, niezależne ocenianie) są rozrzucone po pięciu różnych narzędziach i z czasem rozjeżdżają się od siebie. Kit łączy je w jeden modułowy pipeline.

Modułowe szablony procesu pozwalają zakodować tezę wprost: formularz aplikacji przechodzi w etap zadania programistycznego, potem w rundę rozmowy na żywo, dalej w ocenę zespołu i ofertę. Zadanie domowe jest zbudowane tak, by być agendą obrony, a nie końcowym sygnałem.
Etap zadania programistycznego to realistyczna próbka pracy, nie LeetCode. Korzysta z prywatnego repozytorium na GitHubie sklonowanego z szablonu, z prawdziwym workflow branch-and-PR i konfigurowalnym terminem. Z definicji jest związany z realną rolą.
Wypłaty per etap pozwalają płacić kandydatom za istotne etapy z próbką pracy, a to zarazem krok w stronę sprawiedliwości poparty przez Campiona (2025) i jasny sygnał szacunku.
Ocena zespołu z recenzentami per etap daje ustrukturyzowane, niezależne karty oceny przed omówieniem. To najsilniejszy mechanizm antyuprzedzeniowy w badaniach i dowód podlegający audytowi, jakiego oczekują Akt o sztucznej inteligencji i przepisy Kodeksu pracy o równym traktowaniu.
Planowanie rozmów na żywo zamienia rundę obrony w gotowy etap procesu, więc rozmowa „przeprowadź mnie przez to” jest wbudowana, a nie doczepiona po fakcie.

Jeśli chcesz pogłębionego wywodu o trafności, przeczytaj karty oceny ustrukturyzowanych rozmów i trafność predykcyjną, a po szerszy obraz odejścia od ekranów z łamigłówkami zobacz dlaczego LeetCode jest przestarzały w rozmowie po erze AI.

Tablica zniknęła, a niepilnowane zadanie domowe poszło razem z nią. To, co je zastępuje, nie jest nowym gadżetem. To wybór formatu: płatna, ustrukturyzowana, związana z realną rolą praca, którą kandydat broni na głos. Zbuduj to raz, a twój proces będzie sprawiedliwy i odporny na AI z założenia. Rozpocznij bezpłatny okres próbny i złóż swój pierwszy odporny na AI pipeline albo przejrzyj szablony ról, żeby zacząć od gotowego.

Powiazane artykuly

A Black head of talent and a colleague at a wooden desk in a sunlit San Francisco Victorian home office, pointing at a printed sheet of market salary bands beside a laptop showing a job posting form with the salary min and max fields filled in

Compensation

14 min czytania

Benchmark wynagrodzeń powinien być w twoim ATS, a nie w kolejnej karcie przeglądarki

Payscale właśnie przeniósł benchmark wynagrodzeń do miejsca, w którym rekruter pisze ogłoszenie. Dlaczego dane płacowe powinny być w twoim ATS, a nie w osobnej karcie przeglądarki.

Przeczytaj artykuł

Two security leads at a whiteboard on a plant-filled co-working mezzanine, reviewing hand-drawn severity queue rows labeled critical 72h, high 7d and medium 14d in morning light

CSIRT & VDP Operations

17 min czytania

Wypalenie CISO to problem operacyjny, nie płacowy

Tylko 34% specjalistów od bezpieczeństwa chce zostać, a pensja nie jest powodem. Wypalenie CISO bierze się z niewidocznej pracy. Sprawdź, co naprawić.

Przeczytaj artykuł

A three-person hiring-ops team at a whiteboard comparing ATS vendors on a hand-drawn feature grid, one pointing to a shortlisted column

Product

11 min czytania

Wojny produktowe ATS w 2026: czego naprawdę chcą rekruterzy

Greenhouse, Teamtailor i SmartRecruiters wypuściły w 2026 tę samą klasę funkcji. Sprawdź, dokąd naprawdę zmierza rynek ATS i jak kupować z głową.

Przeczytaj artykuł

An engineering director alone at a glass co-working desk cross-checking a candidate's real GitHub commit history on his laptop against handwritten interview notes

Hiring Guides

13 min czytania

Oszukiwanie AI na rozmowach to już norma. Jak się przed tym bronić

38,5% kandydatów oszukuje dziś na rozmowach na żywo, a 61% z nich i tak je zdaje. Zobacz, jak przeprojektować proces rekrutacji, by w 2026 roku wiedzieć, kogo naprawdę zatrudniasz.

Przeczytaj artykuł

A recruiter in his late fifties at a sunlit home-office desk leaning toward a laptop that shows a candidate email with a verified-sender badge and a link to a branded company careers portal

Security

11 min czytania

Kandydaci myślą, że twój rekruter to oszust. Udowodnij, że jesteś prawdziwy.

Oszustwa rekrutacyjne sprawiły, że kandydaci nie ufają też prawdziwym rekruterom. Oto dane i infrastruktura zaufania, która dowodzi, że twoja wiadomość jest prawdziwa, a nie oszustwem.

Przeczytaj artykuł

A young hiring duo, a Middle Eastern man and a white woman in their late twenties, collaborating over a laptop showing a hiring pipeline on a sunny San Francisco rooftop co-working deck at golden hour, the city skyline behind them

Engineering Hiring

10 min czytania

Okno możliwości na rynku talentów z bezpieczeństwa właśnie się otworzyło: cięcia w CISA i zamknięcie Huntr

CISA straciła ~1000 pracowników, a Huntr 30 czerwca zamknął swój program bug bounty dla open source. Doświadczeni specjaliści od bezpieczeństwa ofensywnego są dostępni na rynku. Oto jak startupy mogą ich szybko zatrudnić.

Przeczytaj artykuł

Gotowy na madrzejsza rekrutacje?

Zacznij za darmo. Bez karty kredytowej. Skonfiguruj swoj pierwszy pipeline rekrutacyjny w kilka minut.

Zacznij za darmo

Powrot do bloga