Ściąganie na rozmowach z pomocą AI jest niewykrywalne. Przeprojektuj test.
Niewidzialne nakładki AI jak Cluely ogrywają live coding i proctoring. Lekarstwem nie jest więcej inwigilacji, tylko przeprojektowanie oceny tak, by mierzyła rozumowanie, którego AI nie podrobi.
Ernest Bursa
Ściąganie na rozmowach rekrutacyjnych z pomocą AI opiera się na niewidzialnych nakładkach na ekran, takich jak Cluely i Interview Coder, które w trakcie rozmowy technicznej podsuwają kandydatowi odpowiedzi generowane przez AI. Nakładki podpinają się pod warstwę graficzną, więc są niewidoczne dla współdzielenia ekranu i proctoringu. Skoro narzędzia są celowo zaprojektowane tak, żeby ich nie dało się wykryć, ich łapanie to wyścig zbrojeń, który przegrasz. Trwałym rozwiązaniem jest przeprojektowanie oceny tak, by mierzyła rozumowanie i osąd — których AI nie podrobi.
To właśnie ten niewygodny zwrot, który dzieje się teraz w rekrutacji technicznej. Runda live coding i zadanie do domu były twoimi zaufanymi sygnałami. Cała klasa narzędzi konsumenckich rozbiła oba z nich niewidocznie, a większość zespołów jeszcze tego nie zauważyła. Ten tekst pokazuje, jak działa to ściąganie, którym liczbom faktycznie można ufać, dlaczego wykrywanie to ślepa uliczka i jak w praktyce wygląda ocena odporna na ściąganie.
Czym jest ściąganie na rozmowach z pomocą AI i jak działają Cluely oraz Interview Coder?
Narzędzia do ściągania na rozmowach przechwytują dźwięk od rekrutera i tekst zadania widoczny na ekranie, przepuszczają je przez duży model językowy i wyświetlają odpowiedź w nakładce, którą widzi kandydat, ale której nie widzi współdzielenie ekranu. Niewidzialność osiągają, podpinając się bezpośrednio pod warstwę graficzną (DirectX na Windowsie, Metal na macOS), dzięki czemu odpowiedź nigdy nie pojawia się we współdzielonym oknie. Raportowane opóźnienie odpowiedzi to mniej więcej jedna–dwie sekundy.
Interview Coder zbudowali dwaj studenci Columbii, Chungin „Roy” Lee i Neel Shanmugam, żeby ogrywać rozmowy w stylu LeetCode. Lee nagrał, jak za pomocą niewidzialnej nakładki zalicza rozmowę techniczną w Amazonie, opublikował to nagranie, a obu zawieszono na Columbii. W kwietniu 2025 projekt przebrandowano i rozbudowano w Cluely, którego hasło brzmiało wprost: „ściągaj na wszystkim”.
To nie jest niszowy hack jakiegoś amatora. Cluely zebrało rundę Series A na 15 mln dolarów, poprowadzoną przez Andreessen Horowitz w czerwcu 2025 — około dwa miesiące po rundzie seed na 5,3 mln dolarów. Za tym, żeby ściąganie na rozmowach było bezproblemowe i niewidzialne, stoi realny kapitał i realna inżynieria.
Jest tu pewna ironia, przy której warto się zatrzymać. W rozmowie z TechCrunchem w marcu 2026 Roy Lee przyznał, że liczba „7 mln dolarów ARR”, którą publicznie podawał w lipcu rok wcześniej, była zmyślona; jego rzeczywiste dane ze Stripe pokazywały około 5,2 mln dolarów. Nazwał to „jedyną jawnie nieuczciwą rzeczą, jaką powiedziałem publicznie”. Firma, której cały produkt to niewykrywalna nieuczciwość, sama dała się złapać na nieuczciwości. Wniosek dla zespołów rekrutacyjnych jest prosty: nie przelicytujesz w wykrywaniu narzędzia — ani kultury — zbudowanego do oszukiwania. Musisz zmienić to, co mierzysz.
Jak duży jest ten problem i którym liczbom można ufać?
Uczciwa odpowiedź brzmi: ściąganie jest powszechne, ale najczęściej cytowana statystyka jest zarazem najmniej wiarygodna. Zacznij od niezależnych dowodów, a do liczb od dostawców podejdź z należytą podejrzliwością.
Najmocniejszy niezależny sygnał pochodzi od interviewing.io, które w październiku 2025 przeprowadziło ankietę wśród 67 rekruterów z firm z grona FAANG i im pokrewnych. Wyniki:
- 81% podejrzewa, że kandydaci używali AI do ściągania na ich rozmowach.
- Około 33% faktycznie złapało kogoś na gorącym uczynku.
- 75% uważa, że pomoc AI pozwala słabszym kandydatom przejść rozmowy, które w innym razie by oblali.
To pokrywa się z danymi Karat, którego współzałożyciel podał, że mniej więcej 80% kandydatów używa LLM-ów na testach kodowania, nawet gdy się im tego wprost zabroni. Dwa niezależne źródła praktyków, oba wskazujące w tę samą stronę.
A teraz nagłówkowa liczba, którą zapewne już widziałeś. Fabric, platforma do rozmów z AI, podała, że 38,5% kandydatów zostało oznaczonych za ściąganie w 19 368 rozmowach na własnej platformie między lipcem 2025 a styczniem 2026. Potraktuj to ostrożnie — i oto dokładnie dlaczego. Liczba pochodzi od jednego dostawcy, który sprzedaje produkt do wykrywania, mierzy „ściąganie” jako wynik prawdopodobieństwa powyżej progu z własnego modelu, na rozmowach prowadzonych na własnej platformie sterowanej przez AI. „Oznaczony przez model wykrywający” to nie to samo co „potwierdzone ściąganie”. Własne publikacje Fabric podają gdzie indziej sprzeczne liczby (pojawiają się 38,5%, 35% i 15%). Jeśli już to cytujesz, przypisz to Fabric i nazwij rzecz po imieniu: to autopomiar dostawcy, a nie ustalony fakt o rzeczywistości.
Wniosek nie zależy od liczby Fabric. Niezależni rekruterzy mówią, że większość z nich podejrzewa ściąganie, a jedna trzecia na nim kogoś złapała. To samo w sobie powinno zmienić sposób, w jaki prowadzisz proces.
Dlaczego wykrywanie i proctoring przegrywają wyścig zbrojeń
Wykrywanie przegrywa, bo narzędzia są zaprojektowane konkretnie po to, żeby je pokonać. Nakładka podpinająca się pod warstwę graficzną jest z założenia niewidoczna dla współdzielenia ekranu. Drugie urządzenie ustawione poza kadrem jest niewidoczne dla każdej blokady przeglądarki. Śledzenie wzroku i analiza naciśnięć klawiszy generują fałszywe alarmy, które karzą zdenerwowanych, ale uczciwych kandydatów, podczas gdy spokojny oszust przepływa bez problemu. Każda warstwa wykrywania, którą dodasz, to kolejna, którą następne wydanie obejdzie — a przy okazji pogarszasz doświadczenie wszystkim, którzy nie ściągają.
Najczystszym dowodem na to, że wykrywanie zawodzi, jest kontrolowany eksperyment interviewing.io. Przeprowadzili 37 próbnych rozmów (32 nadawały się do analizy) z doświadczonymi inżynierami (cztery lata stażu lub więcej), którym polecono potajemnie używać ChatGPT, podczas gdy rekruterzy nie wiedzieli o tym ustawieniu. Wyniki są bezlitosne:
| Typ pytania | Wskaźnik zaliczeń przy potajemnym użyciu ChatGPT |
|---|---|
| Pytania LeetCode dosłownie | 73% |
| Lekko zmodyfikowane LeetCode | 67% |
| Niestandardowe, nowe pytania | 25% |
| Grupa kontrolna (bez ściągania) | 53% |
Dwa wnioski z tego eksperymentu liczą się najbardziej. Po pierwsze, żaden rekruter nie oznaczył ściągania, nawet przy 73% zaliczeń. Po drugie, 81% ściągających kandydatów było pewnych, że uszło im to na sucho. Ludzkie wykrywanie zawiodło całkowicie przy pytaniach dosłownych. Żaden produkt do proctoringu nie poradziłby sobie lepiej, bo wynik z AI nigdy nie dotknął współdzielonego ekranu.
Ale spójrz na dół tej tabeli. To samo ściąganie, które przy pytaniach dosłownych działało w 73% przypadków, przy niestandardowych zadziałało tylko w 25%. Wykrywanie nie dało nic. Przeprojektowanie ścięło skuteczność ściągania o mniej więcej dwie trzecie. To cały argument zawarty w jednym wierszu.
Lekarstwo: przeprojektuj ocenę tak, by pomoc AI była nieistotna lub oczekiwana
Trwała odpowiedź nie polega na łapaniu AI przy bramce. Polega na przeprojektowaniu samej bramki tak, by pomoc AI nie pomagała — albo żeby zakładać, że jest obecna, i oceniać, jak dobrze kandydat się nią posługuje. Dane interviewing.io już pokazały kierunek: niestandardowe, nowe zadania zwijają przewagę ze ściągania, bo model nie ma publicznej odpowiedzi, do której mógłby dopasować wzorzec.
Ważne jest jedno zastrzeżenie z tego samego badania. Samo przeredagowanie istniejącego zadania LeetCode nie wystarczy. Lekko zmodyfikowane pytania nadal miały 67% wskaźnik zaliczeń przez ściąganie — ledwie poniżej dosłownych. Skuteczne niestandardowe pytanie wymaga naprawdę unikalnych wejść i wyjść, najlepiej powiązanych z twoją własną domeną, tak by model nie mógł go rozpoznać. Powtarzające się zasady w niezależnych źródłach wyglądają tak:
- Sprawdzaj rozumowanie i proces, nie składnię finalnej odpowiedzi. Odpowiedź jest teraz tanią częścią. Sygnałem jest to, jak kandydat ujmuje problem, waży kompromisy i wychodzi z błędnego skrętu.
- Używaj niestandardowych zadań z nowymi wejściami i wyjściami. Niepublicznych, nieopublikowanych, niebędących przeróbką znanej łamigłówki.
- Drąż zrozumienie pytaniami linijka po linijce. „Dlaczego wybrałeś tę strukturę danych?” „A teraz rozszerz to, żeby obsłużyć ten przypadek.” Kandydat, który oparł się na nakładce, nie obroni ani nie zmodyfikuje kodu, którego sam nie przemyślał.
- Używaj realistycznych, wieloetapowych zadań na wielu plikach. Najlepsze modele wciąż tracą jakość na długich, wieloetapowych łańcuchach rozumowania, a prawdziwa praca to nie pojedyncza funkcja z jednym poprawnym wyjściem.
- Tam, gdzie pasuje to do roli, traktuj AI jako oczekiwane. Oceniaj, jak dobrze kandydat kieruje AI, krytykuje je i poprawia — bo to jest dzisiaj faktyczna praca.
Ten ostatni punkt to kierunek, w którym zmierza czołówka branży. CodeSignal uruchomił oceny wspomagane przez AI, które pozwalają kandydatom używać AI i punktują to, jak dobrze go używają. Dojrzałe stanowisko to nie „odetnij AI”. To „załóż, że AI jest obecne, i mierz ludzki osąd wokół niego”.
To nie jest niszowy pogląd i nie oznacza palenia procesu do gruntu. W tej samej ankiecie interviewing.io wśród 52 respondentów z FAANG zero osób powiedziało, że ich firma porzuciła pytania algorytmiczne, ale 58% powiedziało, że zmieniło rodzaje pytań, które zadają, a tylko około 11% wdrożyło oprogramowanie do wykrywania ściągania. Ponad połowa przewiduje, że znaczenie rozmów algorytmicznych spadnie w ciągu dwóch do pięciu lat. Rekruterzy z Mety zgłaszali przejście na „bardziej otwarte pytania, które badają sposób myślenia”. Realistyczna droga to przeprojektowanie — nie inwigilacja i nie porzucenie.
Jak w praktyce wygląda ocena techniczna odporna na ściąganie
Ocena odporna na ściąganie to taka, w której pomoc AI nie zmienia wyniku, bo mierzysz rzeczy, których AI nie podrobi w cudzym imieniu: ujęcie domeny, obronione decyzje i zdolność rozszerzenia pracy na żywo. Oto konkretny kształt.
Daj niestandardowe, wieloplikowe, dopasowane do firmy zadanie
Zastąp publiczną łamigłówkę algorytmiczną małym wycinkiem twojego prawdziwego problemu. Bug w realistycznej bazie kodu, funkcja na bazie kodu startowego, który sam napisałeś, zadanie z modelowania danych z wejściami, których żaden model nie widział. Skoro jest twoje, żaden LLM nie ma zapamiętanej odpowiedzi — a to dokładnie ten warunek, który zbił wskaźnik zaliczeń przez ściąganie z 73% do 25%. Więcej o budowaniu zadań, które kandydaci szanują, znajdziesz w jak konstruować zadania kodowe.
Tuż po zadaniu do domu wstaw rundę „przeprowadź nas przez to i rozszerz”
To pojedyncza zmiana o największej dźwigni. Zaplanuj rundę na żywo zaraz po zadaniu, której jedynym celem jest skłonienie kandydata do wytłumaczenia swojego rozwiązania linijka po linijce, a potem rozszerzenia go na miejscu. „Dodaj ten przypadek brzegowy.” „Zrefaktoruj to pod kątem czytelności.” Kandydat, który naprawdę rozwiązał zadanie, robi to z łatwością. Kandydat, który wkleił wyjście z nakładki, nie da rady — bo nigdy nie zbudował modelu mentalnego. To przekłada wniosek interviewing.io o pytaniach linijka po linijce bezpośrednio na twój pipeline.
Punktuj ustrukturyzowanymi, ważonymi, ślepymi ocenami
Niech wielu recenzentów oceni to samo zgłoszenie według tych samych nazwanych kryteriów, ważonych pod kątem tego, co liczy się dla roli, zanim zobaczą swoje głosy nawzajem. Ślepe głosowanie usuwa efekt zakotwiczenia. Ważone karty ocen zmuszają wszystkich, żeby oceniali te same kompetencje, a nie wrażenia. To tu wyłapujesz sygnał o rozumowaniu, który ptaszek „zaliczone/oblane” wyrzuca do kosza.
Zmień typ pytania, nie banuj algorytmu
FAANG nie porzucił rozmów algorytmicznych; zmienił rodzaj pytania i dodał otwarte sondowania. Możesz zachować filtr przesiewowy, a jednocześnie uodpornić decydujące rundy na jednostrzałowe odpowiedzi z AI. Celem jest sygnał, nie czystość.
Dlaczego ustrukturyzowane punktowanie stawiające na rozumowanie to prawdziwy upgrade
Ustrukturyzowane punktowanie to najlepiej ugruntowany pomysł w całym tym tekście — i jest starszy niż era AI. Ustrukturyzowane rozmowy, w których każdy kandydat dostaje te same pytania punktowane według tej samej, zakotwiczonej w zachowaniach rubryki, są mniej więcej dwukrotnie bardziej predykcyjne dla wyników w pracy niż nieustrukturyzowane. Standaryzowane karty ocen redukują szum i uprzedzenia, bo trzymają wszystkich tych samych kryteriów zamiast nastroju rekrutera. Powszechna rekomendacja to od 5 do 7 ważonych kompetencji.
Ściąganie z pomocą AI nie stworzyło argumentu za ustrukturyzowanym punktowaniem; uczyniło go pilnym. Kiedy finalna odpowiedź jest towarem masowym, jedynym trwałym sygnałem jest to, jak kandydat do niej doszedł i czy potrafi jej bronić. Rubryka, która punktuje „jasno wytłumaczył kompromisy” i „poprawnie rozszerzył rozwiązanie pod presją”, mierzy dokładnie to, czego nakładka nie dostarczy. Jeśli chcesz głębszego wywodu, przeczytaj karty ocen ustrukturyzowanych rozmów a trafność predykcyjna.
Zmiana w sposobie myślenia to przejście od łapania do mierzenia. Przestań pytać „czy ta osoba ściąga?”, a zacznij pytać „czy ta osoba potrafi rozumować nad tym problemem na moich oczach?”. To drugie pytanie trudniej ograć i jest znacznie bardziej predykcyjne.
Jak Kit wbudowuje ocenę odporną na ściąganie w pipeline
Rynek dzieli się głównie na dwa obozy. Dostawcy wykrywania toczą wyścig zbrojeń z narzędziami zbudowanymi na warstwie graficznej. Platformy do ocen tworzą świetne zadania, ale żyją w osobnym silosie, odciętym od twojego pipeline’u. Kit obiera trzecią drogę: czyni ustrukturyzowaną, stawiającą na rozumowanie ocenę domyślnym kształtem samego pipeline’u, dzięki czemu przeprojektowanie budujesz raz i używasz ponownie, a nie improwizujesz przy każdej roli.
Oto jak to się mapuje na wszystko powyżej:
- Zadania kodowe oparte na prawdziwych repozytoriach GitHub. Każdy kandydat dostaje prywatne repo wygenerowane z twojego własnego szablonu, z twoim README, twoim kodem startowym, a nawet twoim CI. To właśnie pozwala wysłać niestandardowe, wieloplikowe, dopasowane do firmy zadanie zamiast publicznej łamigłówki — a to ten projektowy wybór, który zwija przewagę ze ściągania z AI.
- Runda na żywo „obroń i rozszerz”, ułożona zaraz po zadaniu. Szablony procesu w Kit pozwalają dowolnie układać etapy, więc możesz wstawić rundę rozmowy na żywo bezpośrednio po zadaniu kodowym, której celem jest „przeprowadź nas przez to i rozszerz swoje rozwiązanie”. Kandydat, który oparł się na nakładce, nie obroni ani nie zmodyfikuje kodu w sposób wiarygodny.
- Ustrukturyzowana ocena zespołu ze ślepym głosowaniem i ważonymi kartami ocen. Recenzenci punktują to samo zgłoszenie według nazwanych, ważonych kryteriów, z rekomendacjami od zdecydowanego „nie” po zdecydowane „tak”, i mogą głosować ślepo, żeby nikt nie zakotwiczał się na liderze. To ta ustrukturyzowana rubryka, która — jak mówią badania — podwaja trafność predykcyjną, zastosowana do rozumowania zamiast do zielonego ptaszka.
- Przemyślane decyzje panelu, nie pieczątki. Głosowanie obsługuje próg głosów na „tak”, wymaganie wszystkich recenzentów oraz weto, które automatycznie odrzuca, a niejednoznaczne rundy kieruje do człowieka jako „wymaga decyzji”. Panel rozstrzyga na podstawie jakości sygnału zamiast algorytmu przepuszczającego wynik, który mógł wyprodukować bot.
- Szablony procesu wielokrotnego użytku. Zbuduj odporny na ściąganie pipeline raz jako szablon procesu i używaj go ponownie w różnych rolach, żeby rekrutacja stawiająca na rozumowanie była domyślem, a nie heroicznym wyczynem jednorazowym.
Dla jasności co do tego, czego Kit nie robi: nie ma wykrywania ściągania z AI, nie ma proctoringu, nie ma śledzenia wzroku, nie ma autogradera. To celowe. Nie da się niezawodnie wykryć narzędzia zbudowanego po to, żeby być niewidocznym. Dlatego Kit nie próbuje łapać oszustwa. Pomaga mierzyć to, czego oszustwo nie podrobi — a to uczciwsza i mocniejsza pozycja.
Zagrożenie jest realne, a inwigilacyjna odpowiedź to pułapka. Niewidzialne nakładki ogrywają live coding i ogrywają proctoring, a dane pokazują, że zauważyło to zero rekruterów. Te same dane pokazują, że niestandardowe pytania tną przewagę ze ściągania o dwie trzecie, a ustrukturyzowane punktowanie mniej więcej podwaja trafność predykcyjną. Przestań próbować łapać AI przy bramce. Przeprojektuj bramkę tak, żeby pomoc AI była nieistotna — i uczyń to przeprojektowanie domyślnym kształtem swojego pipeline’u.
Jeśli przemyśliwasz ocenę techniczną na erę AI, rozpocznij darmowy okres próbny i zbuduj pipeline z zadaniem kodowym oraz ustrukturyzowaną oceną, który mierzy rozumowanie, a nie składnię. O pokrewnym zagrożeniu dla tożsamości, gdzie fałszywy może być sam kandydat, przeczytaj w kandydaci deepfake a oszustwa rekrutacyjne z AI.
Powiazane artykuly
Podsumowanie rozmów to moment, w którym umierają dobre rekrutacje
To podsumowanie rozmów, a nie sama rozmowa, psuje jakość rekrutacji. Najgłośniejszy głos wygrywa, a młodsze osoby prowadzące rozmowy się dostosowują. Oto nauka i sposób, żeby to naprawić.
Rekrutacja włączająca: jak oceny oparte na kotwicach zamykają lukę
Nieustrukturyzowane rozmowy po cichu karzą kandydatów z grup niedoreprezentowanych. Oceny oparte na kotwicach i kryteriach zmniejszają lukę w awansie i lepiej przewidują efektywność.
Spory o wypłaty bug bounty: SLA i uczciwość w Twoim VDP
AMD łatało krytyczną lukę 124 dni, a potem odmówiło badaczowi nagrody 10 000 $, uznając zgłoszenie za wykraczające poza zakres. Oto jak prowadzić VDP z opublikowanymi SLA i przejrzystą, księgowaną macierzą wypłat.
Gotowy na madrzejsza rekrutacje?
Zacznij za darmo. Bez karty kredytowej. Skonfiguruj swoj pierwszy pipeline rekrutacyjny w kilka minut.
Zacznij za darmo