Problem z ratingami AI
Poproś dowolne AI o ocenę strony docelowej w skali od 1 do 10. Zrób to pięć razy bez zmiany strony. Wyniki będą się różnić o 2 do 3 punktów.
Ta wariancja nie jest błędem konkretnego narzędzia. Bezpośredni rating numeryczny jest strukturalnie zawodny, gdy wykonuje go model językowy. Punkt odniesienia dla słowa "7" zmienia się w zależności od długości kontekstu, sformułowania promptu, temperatury i wersji modelu. Maier et al. zmierzyli korelację między bezpośrednimi ratingami AI a oceną ludzkich ekspertów w systematycznych próbach. Wynik: ρ=0,26 do 0,39.
Oznacza to, że bezpośredni wynik AI zgadza się z oceną specjalisty CRO mniej więcej w jednej trzeciej przypadków. Reszta to szum. Każde narzędzie, które pyta AI "oceń tę stronę w skali 1-10" i podaje wynik jako scoring, działa na tym poziomie wiarygodności, niezależnie od tego, czy narzędzie to przyznaje.
SSR: Semantic Similarity Rating
SSR zastępuje ocenę absolutną oceną porównawczą. Zamiast pytać AI "oceń tę stronę w skali 1-10", BuyerEyes prosi AI o opisanie strony w języku naturalnym: co działa, co nie, czego doświadczyłby odwiedzający.
Opis jest następnie porównywany z 150 skalibrowanymi zdaniami kotwiczącymi przy użyciu podobieństwa kosinusowego. Kotwice działają jak benchmarki: "Strona na tym poziomie skuteczności CTA wygląda tak", wyrażone w zwykłym języku. Sześć niezależnych zestawów kotwic jest porównywanych i uśrednianych. Ocena wynika z tego, gdzie opis AI ląduje względem tych benchmarków.
Wynik: ρ=0,90 korelacji z oceną ludzkiego eksperta. To 3,5-krotna poprawa względem bezpośredniego ratingu i przekroczenie progu, przy którym oceny stają się użyteczne, a nie dekoracyjne.
Kotwice zostały opracowane i skalibrowane dla kontekstów konwersji e-commerce i SaaS. "Social proof na tym poziomie" ma konkretną definicję: ile recenzji, jak widoczne, czy odnoszą się do obiekcji kupującego po raz pierwszy. Nie są to ogólne opisy jakości.
Korekcja błędów systematycznych
SSR samo w sobie nie wystarcza. Modele językowe niosą systematyczne błędy, które zniekształcają oceny w przewidywalny sposób.
Błąd pozycji: elementy blisko góry strony mają tendencję do uzyskiwania wyższych ocen niż równoważne elementy przy dole. Błąd długości: szczegółowe sekcje oceniane są wyżej niż zwięzłe, niezależnie od jakości. Anizotropia osadzania: przestrzeń wektorowa używana do porównania semantycznego nie jest równomiernie rozłożona, przez co pomiary podobieństwa są bardziej wiarygodne w niektórych obszarach niż w innych.
BuyerEyes koryguje wszystkie trzy. Kolejność ewaluacji jest losowana między wymiarami. Scoring copy jest normalizowany pod kątem długości treści. Wektory osadzania są centrowane średnią przed obliczeniem podobieństwa kosinusowego (zgodnie z Ethayarajh, arXiv:2403.05440). Korekcje są niewidoczne w wyniku. Bez nich strona z długą sekcją zaufania na górze systematycznie uzyskiwałaby wyższy wynik niż równoważna strona z krótszą sekcją zaufania na dole.
Debata wielu agentów
Jedno AI oceniające stronę potwierdza własne założenia. BuyerEyes uruchamia 14 wyspecjalizowanych agentów równolegle. Pięć agentów domenowych ocenia różne wymiary konwersji. Do 10 person kupujących ocenia stronę z odrębnych perspektyw. Agent odkrywania odbiorców wybiera, które persony uruchomić. Agent wyrównania sprawdza, czy strona odpowiada ruchowi przyciągającemu odwiedzających.
Gdy agenty domenowe nie zgadzają się ze sobą (odchylenie standardowe powyżej 1,5 lub rozrzut ocen powyżej 3,0), BuyerEyes uruchamia ustrukturyzowane rundy debaty. Każdy agent przegląda oceny i rozumowanie pozostałych. Rewizjonują lub bronią swoich stanowisk z jawnym uzasadnieniem. Do trzech rund, z detekcją zbieżności, która zatrzymuje debatę, gdy stanowiska się stabilizują.
Po debacie uruchamiana jest warstwa adversarialnego przeglądu. Każda ocena powyżej 7,0 mierzy się z wyzwaniem adwokata diabła: jakie słabości są pomijane? Każda ocena poniżej 4,0 przechodzi przegląd obrońcy: jakie mocne strony są niedoceniane? Korekty są ograniczone do plus lub minus 1,0, by role adversarialne nie zdominowały końcowego wyniku.
Mechanizm debaty opiera się na dwóch liniach badań: Hu et al. "Multi-Agent Debate for LLM Judges with Adaptive Stability Detection" (NeurIPS 2025, arXiv:2510.12697) oraz Du et al. "Improving Factuality and Reasoning in Language Models through Multiagent Debate" (ICML 2024, arXiv:2305.14325).
29 sub-scores w 6 wymiarach
Ocena "Visual: 6.5" nie mówi deweloperowi, co naprawić. BuyerEyes rozkłada każdy z sześciu wymiarów ewaluacji na atomowe sub-scores, łącznie 29. Każdy sub-score ma własną liczbę, własną rubrykę i własną rekomendację do działania.
Projekt wizualny
Kontrast, hierarchia, białe przestrzenie, układ mobilny, widoczność CTA, jakość obrazów, spójność marki, kompozycja powyżej linii zgięcia
Copy i przekaz
Pierwsze wrażenie, klarowność propozycji wartości, konkretność korzyści, pilność, czytelność, pokrycie ram perswazji
Skuteczność CTA
Widoczność, siła copy, umiejscowienie, pilność, redukcja tarcia
Zaufanie i wiarygodność
Konkretność social proof, przejrzystość cenowa, sygnały autorytetu, autentyczność recenzji, wykrywanie dark patterns
Doświadczenie techniczne
Wydajność ładowania, stabilność layoutu, użyteczność mobilna, jakość formularzy, zgodność z dostępnością
Intencja zakupu (symulacja persony)
Równanie wartości, percepcja ryzyka, potrzeba walidacji społecznej, gotowość do zobowiązania, rozwiązywanie obiekcji
Każda rekomendacja w raporcie niesie tag nakładu pracy (niski, średni, wysoki) oraz szacunek wpływu. "CTA Prominence: 4.2. Przenieś główne CTA powyżej linii zgięcia na urządzeniach mobilnych. Wysoki wpływ, niski nakład." To gotowy ticket dla dewelopera, a nie sugestia "popraw swoje CTA."
Mapy uwagi wizualnej
Każdy raport zawiera mapę uwagi wizualnej wygenerowaną z jednego zrzutu ekranu. Bez ruchu. Bez kodu śledzącego. Bez rekrutacji panelu.
Mapa używa TranSalNet, transformerowego modelu saliencji wizualnej. Został zwalidowany na rzeczywistych danych eye-trackingowych z 640 stron internetowych, osiągając korelację CC=0,78 z ground truth. Czas przetwarzania: około 50 milisekund na zrzut ekranu.
Mapa odpowiada na jedno pytanie: gdzie trafia uwaga wzrokowa na tej stronie? Ta predykcja zasila system sub-scores. CTA Prominence jest oceniane częściowo na podstawie tego, czy CTA znajduje się powyżej przewidywanego progu uwagi. Jeśli mapa pokazuje spadek uwagi na pozycji Y=400 na urządzeniu mobilnym, a Twoje CTA jest na Y=720, raport sygnalizuje to z konkretną oceną i konkretną poprawką.
Przedziały ufności
Każda ocena w raporcie BuyerEyes zawiera zakres ufności. Nie "Copy: 7.1", lecz "Copy: 7.1 [6.8 - 7.4, wysoka stabilność]." Zakres pochodzi z wariancji scoringu między przebiegami. Gdy agenty zbiegają się ściśle, zakres jest wąski i można bezpośrednio działać na podstawie liczby. Gdy zakres jest szeroki, ocena jest punktem wyjścia wymagającym zbadania.
Gdy dowody są niewystarczające do wygenerowania wiarygodnej oceny, raport podaje "Niewystarczające dane" zamiast wymuszać niską liczbę. Ta różnica ma znaczenie. Niska ocena oznacza, że coś jest nie tak. Niewystarczające dane oznaczają, że system nie może stwierdzić, czy coś jest nie tak. Te sytuacje wymagają różnych reakcji.
Walidacja
System scoringu przeszedł 1 294 testy w produkcji w całym pipeline. Metodologia opiera się na ponad 30 recenzowanych artykułach naukowych z zakresu uwagi wzrokowej, nauki o perswazji, obciążenia poznawczego, kalibracji zaufania i wiarygodności ewaluacji LLM. Dokument SCIENCE.md w repozytorium BuyerEyes śledzi każdy artykuł ze statusem implementacji i konkretnymi plikami, w których stosowane są jego metody.
Zdania kotwiczące są kalibrowane, a nie tworzone przez prompt engineering. Ich zmiana zmienia cały system scoringu. Zostały opracowane przez iteratywną walidację na podstawie ocen specjalistów CRO dla stron e-commerce i SaaS w wielu branżach.
Sprawdź w praktyce
29 sub-scores. Przedziały ufności. Mapa uwagi wizualnej. Priorytyzowane rekomendacje. Raport w 24-48 godzin.
Zamów raport