Metodologia - jak BuyerEyes oblicza oceny | SSR, debata agentów, 29 sub-scores

ρ=0.90 korelacja z oceną ludzkiego eksperta

14 wyspecjalizowanych agentów na audyt

29 atomowych sub-scores na stronę

1 294 testów walidacyjnych w produkcji

Problem z ratingami AI

Poproś dowolne AI o ocenę strony docelowej w skali od 1 do 10. Zrób to pięć razy bez zmiany strony. Wyniki będą się różnić o 2 do 3 punktów.

Ta wariancja nie jest błędem konkretnego narzędzia. Bezpośredni rating numeryczny jest strukturalnie zawodny, gdy wykonuje go model językowy. Punkt odniesienia dla słowa "7" zmienia się w zależności od długości kontekstu, sformułowania promptu, temperatury i wersji modelu. Maier et al. zmierzyli korelację między bezpośrednimi ratingami AI a oceną ludzkich ekspertów w systematycznych próbach. Wynik: ρ=0,26 do 0,39.

Oznacza to, że bezpośredni wynik AI zgadza się z oceną specjalisty CRO mniej więcej w jednej trzeciej przypadków. Reszta to szum. Każde narzędzie, które pyta AI "oceń tę stronę w skali 1-10" i podaje wynik jako scoring, działa na tym poziomie wiarygodności, niezależnie od tego, czy narzędzie to przyznaje.

Maier, S. et al. "Semantic Similarity Rating for Likert-Scale Evaluation with LLMs." arXiv:2510.08338v3, październik 2025. Artykuł, który ustanowił SSR jako skalibrowaną alternatywę dla bezpośredniego ratingu AI.

SSR: Semantic Similarity Rating

SSR zastępuje ocenę absolutną oceną porównawczą. Zamiast pytać AI "oceń tę stronę w skali 1-10", BuyerEyes prosi AI o opisanie strony w języku naturalnym: co działa, co nie, czego doświadczyłby odwiedzający.

Opis jest następnie porównywany z 150 skalibrowanymi zdaniami kotwiczącymi przy użyciu podobieństwa kosinusowego. Kotwice działają jak benchmarki: "Strona na tym poziomie skuteczności CTA wygląda tak", wyrażone w zwykłym języku. Sześć niezależnych zestawów kotwic jest porównywanych i uśrednianych. Ocena wynika z tego, gdzie opis AI ląduje względem tych benchmarków.

Wynik: ρ=0,90 korelacji z oceną ludzkiego eksperta. To 3,5-krotna poprawa względem bezpośredniego ratingu i przekroczenie progu, przy którym oceny stają się użyteczne, a nie dekoracyjne.

Kotwice zostały opracowane i skalibrowane dla kontekstów konwersji e-commerce i SaaS. "Social proof na tym poziomie" ma konkretną definicję: ile recenzji, jak widoczne, czy odnoszą się do obiekcji kupującego po raz pierwszy. Nie są to ogólne opisy jakości.

Korekcja błędów systematycznych

SSR samo w sobie nie wystarcza. Modele językowe niosą systematyczne błędy, które zniekształcają oceny w przewidywalny sposób.

Błąd pozycji: elementy blisko góry strony mają tendencję do uzyskiwania wyższych ocen niż równoważne elementy przy dole. Błąd długości: szczegółowe sekcje oceniane są wyżej niż zwięzłe, niezależnie od jakości. Anizotropia osadzania: przestrzeń wektorowa używana do porównania semantycznego nie jest równomiernie rozłożona, przez co pomiary podobieństwa są bardziej wiarygodne w niektórych obszarach niż w innych.

BuyerEyes koryguje wszystkie trzy. Kolejność ewaluacji jest losowana między wymiarami. Scoring copy jest normalizowany pod kątem długości treści. Wektory osadzania są centrowane średnią przed obliczeniem podobieństwa kosinusowego (zgodnie z Ethayarajh, arXiv:2403.05440). Korekcje są niewidoczne w wyniku. Bez nich strona z długą sekcją zaufania na górze systematycznie uzyskiwałaby wyższy wynik niż równoważna strona z krótszą sekcją zaufania na dole.

Debata wielu agentów

Jedno AI oceniające stronę potwierdza własne założenia. BuyerEyes uruchamia 14 wyspecjalizowanych agentów równolegle. Pięć agentów domenowych ocenia różne wymiary konwersji. Do 10 person kupujących ocenia stronę z odrębnych perspektyw. Agent odkrywania odbiorców wybiera, które persony uruchomić. Agent wyrównania sprawdza, czy strona odpowiada ruchowi przyciągającemu odwiedzających.

Gdy agenty domenowe nie zgadzają się ze sobą (odchylenie standardowe powyżej 1,5 lub rozrzut ocen powyżej 3,0), BuyerEyes uruchamia ustrukturyzowane rundy debaty. Każdy agent przegląda oceny i rozumowanie pozostałych. Rewizjonują lub bronią swoich stanowisk z jawnym uzasadnieniem. Do trzech rund, z detekcją zbieżności, która zatrzymuje debatę, gdy stanowiska się stabilizują.

Po debacie uruchamiana jest warstwa adversarialnego przeglądu. Każda ocena powyżej 7,0 mierzy się z wyzwaniem adwokata diabła: jakie słabości są pomijane? Każda ocena poniżej 4,0 przechodzi przegląd obrońcy: jakie mocne strony są niedoceniane? Korekty są ograniczone do plus lub minus 1,0, by role adversarialne nie zdominowały końcowego wyniku.

Mechanizm debaty opiera się na dwóch liniach badań: Hu et al. "Multi-Agent Debate for LLM Judges with Adaptive Stability Detection" (NeurIPS 2025, arXiv:2510.12697) oraz Du et al. "Improving Factuality and Reasoning in Language Models through Multiagent Debate" (ICML 2024, arXiv:2305.14325).

Hu, T. et al. "Multi-Agent Debate for LLM Judges with Adaptive Stability Detection." arXiv:2510.12697, październik 2025. NeurIPS 2025. Adaptacyjny mechanizm zbieżności używany w rundach debaty BuyerEyes.

29 sub-scores w 6 wymiarach

Ocena "Visual: 6.5" nie mówi deweloperowi, co naprawić. BuyerEyes rozkłada każdy z sześciu wymiarów ewaluacji na atomowe sub-scores, łącznie 29. Każdy sub-score ma własną liczbę, własną rubrykę i własną rekomendację do działania.

Projekt wizualny

Kontrast, hierarchia, białe przestrzenie, układ mobilny, widoczność CTA, jakość obrazów, spójność marki, kompozycja powyżej linii zgięcia

8 sub-scores

Copy i przekaz

Pierwsze wrażenie, klarowność propozycji wartości, konkretność korzyści, pilność, czytelność, pokrycie ram perswazji

6 sub-scores

Skuteczność CTA

Widoczność, siła copy, umiejscowienie, pilność, redukcja tarcia

5 sub-scores

Zaufanie i wiarygodność

Konkretność social proof, przejrzystość cenowa, sygnały autorytetu, autentyczność recenzji, wykrywanie dark patterns

5 sub-scores

Doświadczenie techniczne

Wydajność ładowania, stabilność layoutu, użyteczność mobilna, jakość formularzy, zgodność z dostępnością

5 sub-scores

Intencja zakupu (symulacja persony)

Równanie wartości, percepcja ryzyka, potrzeba walidacji społecznej, gotowość do zobowiązania, rozwiązywanie obiekcji

5 sub-scores via SSR

Każda rekomendacja w raporcie niesie tag nakładu pracy (niski, średni, wysoki) oraz szacunek wpływu. "CTA Prominence: 4.2. Przenieś główne CTA powyżej linii zgięcia na urządzeniach mobilnych. Wysoki wpływ, niski nakład." To gotowy ticket dla dewelopera, a nie sugestia "popraw swoje CTA."

Mapy uwagi wizualnej

Każdy raport zawiera mapę uwagi wizualnej wygenerowaną z jednego zrzutu ekranu. Bez ruchu. Bez kodu śledzącego. Bez rekrutacji panelu.

Mapa używa TranSalNet, transformerowego modelu saliencji wizualnej. Został zwalidowany na rzeczywistych danych eye-trackingowych z 640 stron internetowych, osiągając korelację CC=0,78 z ground truth. Czas przetwarzania: około 50 milisekund na zrzut ekranu.

Mapa odpowiada na jedno pytanie: gdzie trafia uwaga wzrokowa na tej stronie? Ta predykcja zasila system sub-scores. CTA Prominence jest oceniane częściowo na podstawie tego, czy CTA znajduje się powyżej przewidywanego progu uwagi. Jeśli mapa pokazuje spadek uwagi na pozycji Y=400 na urządzeniu mobilnym, a Twoje CTA jest na Y=720, raport sygnalizuje to z konkretną oceną i konkretną poprawką.

Lou, J. et al. "TranSalNet: Towards Perceptually Relevant Visual Saliency Prediction." arXiv:2110.03593, 2021. Zwalidowany na zbiorze danych WIC640. CC=0,78, NSS=2,42.

Przedziały ufności

Każda ocena w raporcie BuyerEyes zawiera zakres ufności. Nie "Copy: 7.1", lecz "Copy: 7.1 [6.8 - 7.4, wysoka stabilność]." Zakres pochodzi z wariancji scoringu między przebiegami. Gdy agenty zbiegają się ściśle, zakres jest wąski i można bezpośrednio działać na podstawie liczby. Gdy zakres jest szeroki, ocena jest punktem wyjścia wymagającym zbadania.

Gdy dowody są niewystarczające do wygenerowania wiarygodnej oceny, raport podaje "Niewystarczające dane" zamiast wymuszać niską liczbę. Ta różnica ma znaczenie. Niska ocena oznacza, że coś jest nie tak. Niewystarczające dane oznaczają, że system nie może stwierdzić, czy coś jest nie tak. Te sytuacje wymagają różnych reakcji.

Walidacja

System scoringu przeszedł 1 294 testy w produkcji w całym pipeline. Metodologia opiera się na ponad 30 recenzowanych artykułach naukowych z zakresu uwagi wzrokowej, nauki o perswazji, obciążenia poznawczego, kalibracji zaufania i wiarygodności ewaluacji LLM. Dokument SCIENCE.md w repozytorium BuyerEyes śledzi każdy artykuł ze statusem implementacji i konkretnymi plikami, w których stosowane są jego metody.

Zdania kotwiczące są kalibrowane, a nie tworzone przez prompt engineering. Ich zmiana zmienia cały system scoringu. Zostały opracowane przez iteratywną walidację na podstawie ocen specjalistów CRO dla stron e-commerce i SaaS w wielu branżach.

Zbudowane przez Kamila Andrusza, który spędził 30 lat na budowaniu i optymalizacji infrastruktury internetowej, zanim zadał inne pytanie: co jeśli moglibyśmy zobaczyć stronę oczami kupującego, zanim wydamy złotówkę na ruch? Odpowiedź wymagała 30+ artykułów naukowych, 14 agentów i metodologii scoringu, która przetrwa własną wewnętrzną debatę.

Zobacz, jak BuyerEyes wypada na tle innych narzędzi Cennik i zamówienie raportu

Sprawdź w praktyce

29 sub-scores. Przedziały ufności. Mapa uwagi wizualnej. Priorytyzowane rekomendacje. Raport w 24-48 godzin.

Zamów raport

Jak BuyerEyes oblicza oceny

Problem z ratingami AI

SSR: Semantic Similarity Rating

Korekcja błędów systematycznych

Debata wielu agentów

29 sub-scores w 6 wymiarach

Projekt wizualny

Copy i przekaz

Skuteczność CTA

Zaufanie i wiarygodność

Doświadczenie techniczne

Intencja zakupu (symulacja persony)

Mapy uwagi wizualnej

Przedziały ufności

Walidacja

Sprawdź w praktyce