Jak porównywać ligowców, czyli alternatywa dla średniej (statystyki)

fot. Paweł Prochowski
Share on facebook
Share on twitter
Share on linkedin
Share on email
Share on whatsapp

W polskich ligach żużlowych wyznacznikiem indywidualnych klasyfikacji zawodników jest średnia biegopunktowa. Ale czy jest ona w pełni wymierna? Przecież wg niej jeden punkt w biegu wygranym 4:2 i przegranym 1:5 jest dokładnie taki sam, a ma on zupełnie inną wartość. Nasz redakcyjny statystyk, Karol Płonka, opracował realną średnią biegową, czyli narzędzie lepiej (sprawiedliwiej) oddające klasyfikację ligowców.

Średnia biegowa jest powszechnie stosowanym kryterium przy porównywaniu indywidualnych wyników żużlowców startujących w danej lidze. W polskich ligach funkcjonuje obecnie jako suma zdobytych punktów i punktów bonusowych podzielona przez liczbę biegów, w których dany zawodnik wziął udział. Jednakże sposób wyliczania średniej biegowej i jej pochodnej – kalkulowanej średniej meczowej (KSM) zmieniał się na przestrzeni lat.

W pierwszych opracowaniach Wyników Sportu Żużlowego, wydawanych przez PZM od 1968 roku, średnia biegowa funkcjonowała jako suma zdobytych punktów bez bonusów podzielona przez liczbę ukończonych biegów. Od 1981 r. nastąpiła poważna zmiana – w oficjalnych zestawieniach zaczęto uwzględniać punkty bonusowe i wyścigi nieukończone z powodu defektów, upadków i wykluczeń. W wyniku reformy rozgrywek w latach 1999-2002 w polskich ligach obowiązywała KSM (na wzór brytyjskiej CMA). Zgodnie z przyjętymi zasadami nie można było zgłosić do meczu składu, w którym suma KSM dla zawodników przekraczałaby 46 punktów. Pierwsze wątpliwości pojawiły się co do sposobu przeliczania średniej – dyskusji podlegała wartość współczynnika do przemnożenia lub podzielenia średniej biegopunktowej dla zawodników zmieniających klasę rozgrywkową (wtedy ustalony na 1,3), co w praktyce oznaczało konieczność przemeblowania i najczęściej osłabienia składu beniaminka ze względu na przekroczenie limitu 46 punktów przy świadomości, że i tak skład ten nie był w „papierowych” rozważaniach zbyt mocny.

Kolejne zmiany wymusił powrót KSM w sezonie 2011, gdy w regulaminie pojawił się zapis, że w obliczeniach KSM „nie uwzględnia się dwóch najlepszych i dwóch najgorszych meczów zawodnika pod względem średniej z danego meczu oraz biegów, w których zgodnie z tabelą biegów startują wyłącznie zawodnicy młodzieżowi”. Zmiany wynikały z poczucia „łatwości” zdobywania punktów w wyścigach juniorów, a przede wszystkim prób niesportowego obniżania wartości KSM – zdarzało się, że czołowych zawodników nagle dopadał „kryzys” formy w mniej ważnych dla końcowych rozstrzygnięć meczach sezonu.

Na podstawie wartości średniej biegowej budowane są listy klasyfikacyjne zawodników i wszelakie rankingi i porównania. Wielu zwraca istotną uwagę na liczby w sporcie, inni negują opracowania statystyczne. Skąd zatem bierze się dystans wielu osób do prezentowanych zestawień czy powszechne stwierdzenie, że „liczby nie jeżdżą”? Głównie z tego, że wartości liczbowe nie oddają odczuć i spostrzeżeń zawodników, trenerów, działaczy oraz kibiców, zwłaszcza tych wnikliwie obserwujących zawody przez lata.

Wielu słusznie zauważa, że spory wpływ na osiągane wyniki ma choćby numer startowy, z jakim zawodnik występuje w meczu, a uściślając układ pól startowych i rywali. Powszechnie uznaje się, że w stosowanej obecnie w Polsce tabeli zawodów ligowych zawodnicy z numerami 2 i 10 mają najgorzej, jako że zaczynają mecz od dwóch startów z pól zewnętrznych, statystycznie mniej korzystnych w pierwszej fazie meczu, a na juniora drużyny przeciwnej trafiają tylko raz. W tym kontekście po finałowym meczu w Lesznie, Wojciech Stępniewski, prezes Ekstraligi Żużlowej, zasugerował możliwe zmiany w układzie tabeli biegowej. Nie bez znaczenia na wartość osiągniętej średniej biegowej ma udział w meczach fazy play-off, a nie tylko w rundzie zasadniczej. Wtedy rywale zazwyczaj są silniejsi, pojawiają się zmiany taktyczne itd. W związku z tym trudno o „sprawiedliwość” przy wyznaczaniu średniej biegowej.

FOT. JĘDRZEJ ZAWIERUCHA

Numer startowy jeszcze w większym stopniu determinuje obsadę i klasę rywali w zawodach ligi angielskiej czy szwedzkiej. Tam jeszcze trudniej o ustalenie jednorakiej „bazy” do porównań wyników indywidualnych zawodników. Z kolei inny aspekt zauważa Zenon Kasprzak w wywiadzie udzielonym 3 czerwca 1999 roku (20 lat temu, ale spostrzeżenie nadal jest aktualne) w Tygodniku Żużlowym. Zapytany o to, czy w jego wieku można się jeszcze rozwijać (a miał wówczas 37 lat), skoro po ośmiu kolejkach legitymuje się wysoką średnią biegopunktową – 2,400, a w poprzednim sezonie osiągnął niższą przeciętną – około 2,100, odpowiada: „Sedno sprawy leży gdzie indziej. Przed rokiem, gdy występowałem w rawickim klubie, wycofano mnie z dziesięciu najsłabszych biegów. W ten sposób zabrano mi około trzydziestu punktów. Stąd też moja średnia była nieco gorsza”. Tajemnicą poliszynela jest, że szczególnie w odleglejszych sezonach, gdy dany klub nie widział szansy na korzystny wynik (zwłaszcza na wyjeździe), ze względów oszczędnościowych nie zapraszał na spotkanie zawodników zagranicznych. I odwrotnie – lider ligi nie sprowadzał zachodnich gwiazd na mecz z czerwoną latarnią u siebie. Zdarza się, że jeśli zapadną kluczowe rozstrzygnięcia (wynik meczu, bonus w dwumeczu) zawodnicy oddają swoje biegi juniorom. Każdy z powyżej wspomnianych przypadków nie pozostaje bez wpływu na zdobyte przez danych zawodników punkty, a w konsekwencji na średnią biegową.

Mimo powyżej zasygnalizowanych wad w środowisku żużlowym średnią biegową uznaje się a priori za najbardziej miarodajną i najlepiej oddającą poziom zawodnika. Czy można w inny sposób budować rankingi żużlowców, by do minimum ograniczyć wcześniej wspomniane czynniki powodujące brak wspólnego mianownika do porównań? Naszym zdaniem można. Głównie dlatego, że obliczenia średniej biegowej bazują tylko na trzech wartościach liczbowych, czyli 3, 2, 1 lub 0 punktów w wyścigu. Ze statystycznego punktu widzenia mamy zatem do czynienia wyłącznie z parametrami ilościowymi, brak natomiast parametrów jakościowych.

Wymienione niżej przykłady mają na celu uwydatnienie różnic jakościowych przy identycznych zdobyczach punktowych zawodników. Inaczej bowiem interpretowany jest przez wytrawnego kibica wynik indywidualny zawodnika X – 11 (3,3,1,3,1) – w przypadku, gdy wygrywa on trzy wyścigi i w dwóch przyjeżdża na trzecim miejscu przegrywając bieg 1:5, a zgoła odmiennie, gdy prócz trzech wygranych wyścigów dowozi jedynki na 4:2. W pierwszym przypadku pokonuje sześciu rywali, przegrywa z czterema (wynik pojedynków z rywalami 6:4), w drugim przypadku uzyskuje rezultat 8:2. Mało który obserwator uzna wynik indywidualny zawodnika Y 6+2 (2*,2*,0,1,1) bez szerszej analizy za równie wartościowy jak zawodnika X z powyższego przykładu, mimo iż może on uzyskać identyczny bilans pojedynków 6:4, co de facto przekłada się na identyczny wkład w budowanie przewagi lub straty swojej drużyny. Zdecydowana większość uzna za „cenniejsze” 3 punkty juniora w biegu, w którym pokonuje seniorów niż 3 punkty uzyskane w wyścigu młodzieżowym.

Z wartości liczbowych (3, 2, 1, 0) nie można dowiedzieć się co prawda niczego o widowiskowości jazdy danego zawodnika i tego, jak współpracuje z partnerami na torze i w parkingu, czy jest po kontuzji lub solidnym upadku w zawodach rozegranych dzień wcześniej. Nie można przypisać zatem żadnej wartości tym cechom, niemniej przy uwzględnieniu wynikających bezpośrednio z nich innych wartości, można określić liczbowo wartość odpowiadającą rzeczywistej skuteczności danego zawodnika. Jak zatem wyznaczyć parametr skuteczności, operując zaledwie czterema wartościami (3, 2, 1 i 0 punktów)? Mówiąc kolokwialnie, należy przyjrzeć się, kto na kim zrobił swoje punkty. Proponowany model bazuje na stosowanej w szachach metodzie Arpada Elo, w którym zmiana rankingu szachisty jest bezpośrednio zależna od rankingów przeciwników i rezultatów partii z nimi rozegranych oraz aksjomacie, że w każdym wyścigu żużlowiec ma dwóch rywali oraz jednego partnera z pary, a więc w jednym biegu toczy on dwa pojedynki (po jednym z każdym z rywali).

Każdemu z uczestników wyścigu zostaje przypisana wartość rankingowa – przyjęto dwie wartości średnich biegowych bez bonusów, w zależności, czy dany zawodnik rozgrywa mecz domowy czy wyjazdowy. Każdy zawodnik za pokonanie rywala zdobywa jego wartość rankingową, natomiast w przypadku przegranej traci różnicę między maksymalną zdobyczą biegową (3 pkt) a wartością rankingową rywala. Parametr skuteczności zawodnika obliczamy jako stosunek sumy wszystkich zwycięstw wraz z ich powyżej ustalonymi wagami do sumy przegranych z ich wagami. Z matematycznego punktu widzenia posługujemy się więc średnią ważoną. Tak wyrażoną skuteczność w procentach można z kolei przeliczyć na wartość z zakresu <0,3>, by nadać jej charakter średniej biegowej, choćby w celu porównań obu uzyskanych wartości. Uzyskany wskaźnik roboczo nazywamy „realną średnią biegową”. Istotną różnicą w naszym modelu jest budowanie rankingów sezonowych, z których można tworzyć zestawienia wieloletnie, u Elo ranking dotyczy całej kariery zawodniczej.

Przechodząc na konkretne przypadki z ostatniego sezonu: pokonanie Leona Madsena to więcej punktów do rankingu niż zwycięstwo nad Tobiaszem Musielakiem i analogicznie – przegrana z Leonem Madsenem to znacznie mniejsza strata niż porażka z Pawłem Przedpełskim, ponadto pokonanie Chrisa Holdera w Toruniu to „jakościowo” nie to samo, co zwycięstwo z tymi zawodnikami w meczach u siebie. Poniżej prezentujemy zestawienie (tabela 1), w którym podano bilans pojedynków między poszczególnymi zawodnikami oraz wyniki obliczeń przeprowadzonych według opisanego modelu.

Jak prawidłowo czytać tabelę? Należy wyszukać zawodnika w pierwszej kolumnie, w kolejnych widnieją przypisane mu dane. Zdarza się bowiem, że bilans pojedynków między dwoma zawodnikami nie jest przestawny. Dlaczego? Zawodnik wykluczony za dotknięcie taśmy może zostać zastąpiony w powtórce wyścigu juniorem, podobnie zawodnik niezdolny, a dopuszczony do jazdy może być zmieniony przez kolegę z drużyny w powtórce wyścigu po wskazaniu winowajcy zdarzenia przez sędziego. W biegach tych uczestniczy zatem 5 zawodników, ale każdy ma nie więcej niż dwóch rywali. Ponadto bilans pojedynków może nie być liczbą parzystą, gdyż zawodnik może mieć tylko jednego rywala w wyścigu. Algorytm rozpoznaje wszystkie takie przypadki, jednak było ich zaledwie 6 (0,63%) w całych rozgrywkach PGE Ekstraligi 2019 (na 960 rozegranych biegów). Poniżej ich spis:

bieg 2 meczu Gorzów – Grudziądz – Rolnicki NS, Bartkowiak i Karczmarz mają 1 rywala
bieg 8 meczu Gorzów – Grudziądz – Rolnicki NS, Woźniak i Kildemand mają 1 rywala
bieg 1 meczu Lublin – Wrocław – Czugunow na Woffindena (u), ale po wykluczeniu G.Łaguty
bieg 11 meczu Toruń – Lublin – W.Lampart za G.Łagutę (t), ale po wykluczeniu J.Holdera
bieg 7 meczu Toruń – Częstochowa – J.Holder za Doyla (u), ale po wykluczeniu Zagara
bieg 8 meczu Zielona Góra – Gorzów – Pawliczak za Pedersena (t), ale po wykluczeniu Kildemanda
bieg 8 meczu Zielona Góra – Gorzów – Pedersen (t) i Kildemand (w/su) – pojedynek nierozstrzygnięty (0,5:0,5)

Jakie wnioski wypływają z zastosowania takiego sposobu wyliczania średniej? Rewolucji w klasyfikacji oczywiście nie ma, ale uzyskany ranking znacznie bardziej oddaje rzeczywistość i odczucia obserwatorów. Liczby „mówią” same za siebie. Bardzo wyraźnie widać różnicę w klasyfikacjach, porównując dane dla Krzysztofa Kasprzaka i Jarosława Hampela. Pierwszy uczestniczył w 72 biegach, zdobywając 104 + 14 = 117 punktów, drugi w 63 biegach zdobył 83 + 16 = 99 punktów. Kasprzak uzyskał średnią 1,681, Hampel 1,571. Jednak analiza składu osobowego rywali, z którymi przyszło im rywalizować, jak i wyników poszczególnych ich pojedynków, uwydatniają różnicę na korzyść Hampela, który pokonał 64 rywali, przegrał z 62 (50,8% wygranych pojedynków, skuteczność 52,5%), podczas gdy Kasprzak wygrał z rywalami 65 razy, a przegrał 79 razy (45,1% wygranych pojedynków, skuteczność 44,7%). Ten przykład dobitnie obrazuje podstawową wadę ogólnie przyjętego obliczania średniej biegowej. Ponadto należy podkreślić kilka zależności. W stosunku do „klasycznego” liczenia średniej, tracą juniorzy, zyskuje solidna druga linia, tracą „najlepsi” w kategorii „zajęcie 3. miejsca w biegu przegranym 1:5” (Tabela 2), zyskują liderzy w kategorii „zajęcie 2. miejsca w biegu wygranym 5:1” (Tabela 3).

Tabela 2. Liczba 3. miejsc w biegach na 1:5.

ZAWODNIK BIEGI
Max Fricke 15
Matej Žagar 14
Krzysztof Kasprzak 13
Niels Kristian Iversen 12
Patryk Dudek 10
Leon Madsen 9
Nicki Pedersen 9
Artiom Łaguta 9
Piotr Protasiewicz 8
Rafał Karczmarz 8
Grigorij Łaguta 7
Andreas Jonsson 7
Jarosław Hampel 2

Tabela 3.  Rozkład punktów bonusowych w zależności od wyniku biegu.

ZAWODNIK 2* 1*
Janusz Kołodziej 12 7
Jakub Jamróg 10 5
Leon Madsen 10 3
Adrian Miedziński 9 8
Krzysztof Buczkowski 9 4
Michael Jepsen Jensen 9 10
Jarosław Hampel 8 8
Emil Sajfutdinow 7 2
Brady Kurtz 7 4
Maciej Janowski 7 6
Max Fricke 7 15
Antonio Lindbäck 7 9
Patryk Dudek 7 7
Piotr Protasiewicz 7 6
Martin Vaculík 7 10
Krzysztof Kasprzak 4 10

Spadku w pozycjach rankingowych najmłodszych zawodników należało się spodziewać, gdyż juniorzy częściej rywalizują z innymi juniorami, a większość z nich nie zdobywa pokaźnej liczby punktów, przez co mają słaby ranking. Ponadto młodzieżowcy rzadko startują przeciwko najsilniejszym w ostatnim wyścigu meczu, taktyka meczowa większości drużyn to korzystanie z mocnego juniora we wcześniejszej fazie meczu, ewentualnie jego udział w XIV wyścigu meczu. Na przeciwległym biegunie mamy solidnych „doparowych”. Warto zwrócić uwagę, że punkt bonusowy zdobyty w biegu na 5:1 ma dużo większą wartość (matematyczną i subiektywną) niż bonus w biegu na 3:3. Przy klasycznym sposobie liczenia wartości te są tożsame. I w tym przypadku liczby są bardzo wymowne, bowiem ponad połowa 1* uzyskiwanych jest na słabych rywalach, najczęściej juniorach (przyjęto zawodników z klasycznie obliczoną średnią poniżej 1,300 pkt/bieg), podczas gdy do średniej SI zalicza się 2 punkty.

SEZON BONUSY 2* 1* 1* na rywalu z SI < 1,3
2018 571 264 307 55,4%
2019 595 282 313 52,4%

Proponowany model z założenia wygasza również polemikę, czy średnie zawodników należy wyliczać, podawać i porównywać z uwzględnieniem punktów bonusowych czy bez nich. Jakie wady ma przedstawiony algorytm? Największym mankamentem wydaje się ustalenie wartości rankingowej zawodników będących wagami w obliczeniach, a zatem drugą najważniejszą obok bilansu pojedynków zmienną. Przyjęte wartości średnich biegowych bez bonusów (inne dla meczów domowych i wyjazdowych) są wynikiem własnych przemyśleń, symulacji i oceny wyników w wąskim gronie, ponadto nawiązują do koncepcji i opinii znawców sportu żużlowego – Janusza Woźniaka czy Jerzego Wójcika. Można by również rozważyć uwzględnianie przedziałów czasowych w uzyskiwanych wynikach, np. z podziałem na rundy 1-7, 8-14, play-off (vide: wyniki Woffindena na początku i końcu sezonu), uwzględniać wyniki uzyskiwane na danym torze z kilku ostatnich sezonów jak również wymyślać różne inne rozwiązania. Na ewentualne argumenty, iż metoda jest zbyt skomplikowana, odpowiadamy, że bazuje na prostych działaniach arytmetycznych, natomiast ich ilość komputer o przeciętych parametrach przelicza i podaje wyniki na bieżąco.

Zaprezentowany model klasyfikacji ligowców jest próbą syntezy powszechnie przyjętej zasady porównywania średnich biegowych wraz oceną jakościową danych będącą w korelacji z indywidualnymi wrażeniami obserwatorów. Warto szukać nowych rozwiązań, wybiegających perspektywicznie naprzód i adekwatnych do współczesnych realiów rywalizacji – rozkład średnich biegowych poszczególnych zawodników jest coraz bardziej „spłaszczony” w stosunku do wyników z odleglejszych sezonów, co nietrudno zauważyć przeglądając choćby zestawienia najlepszych średnich biegowych w Ekstralidze w XXI wieku.

Jestem przekonany, że przedstawiony przez mnie sposób klasyfikacji spełnia najważniejsze kryterium użyteczności modelu statystycznego, jakim jest analiza danych w sposób rozsądny i zrozumiały. Nie roszczę sobie aspiracji do nowatorstwa, moim celem nie jest negowanie dawniejszych i współczesnych metod obliczania średnich, lecz wywołanie refleksji wokół zagadnień tworzenia rankingów ligowców. W wielu dyscyplinach i federacjach sportowych funkcjonują równolegle różne rankingi. Być może zaprezentowany pomysł będzie przyczynkiem do powstawania alternatywnych rozwiązań i polem do rzeczowych dyskusji.

KAROL PŁONKA

Dodatkowe materiały:
Komplet pojedynków – KLIK
Komplet pojedynków domowych – KLIK
Komplet pojedynków wyjazdowych – KLIK

2 komentarze on Jak porównywać ligowców, czyli alternatywa dla średniej (statystyki)
    Chcą ciąć płace, a pieniądze wyrzucają w błoto | PoBandzie
    4 Apr 2020
     9:48am

    […] istocie udoskonaleniem punktówki. Nieskromnie dodam, że jest on spójny z prezentowaną niedawno <LINK> moją wizją klasyfikacji indywidualnej zawodników bazującej na liczbie i „jakości” […]

    Żużel. Niskoprocentowy Jabol, czyli bilans startów ligowych Mirosława Jabłońskiego - PoBandzie - Portal Sportowy
    24 Mar 2022
     7:30am

    […] Mirosław Jabłoński jest jednym z niewielu zawodników w TOP100 polskich żużlowców pod względem liczby rozegranych meczów, którzy mają ujemny bilans pojedynków z rywalami. Tę słabość dobitnie widać porównując średnią biegową ze średnią realną, która uwzględnia ranking pokonanych rywali (szczegóły TUTAJ). […]

Skomentuj

2 komentarze on Jak porównywać ligowców, czyli alternatywa dla średniej (statystyki)
    Chcą ciąć płace, a pieniądze wyrzucają w błoto | PoBandzie
    4 Apr 2020
     9:48am

    […] istocie udoskonaleniem punktówki. Nieskromnie dodam, że jest on spójny z prezentowaną niedawno <LINK> moją wizją klasyfikacji indywidualnej zawodników bazującej na liczbie i „jakości” […]

    Żużel. Niskoprocentowy Jabol, czyli bilans startów ligowych Mirosława Jabłońskiego - PoBandzie - Portal Sportowy
    24 Mar 2022
     7:30am

    […] Mirosław Jabłoński jest jednym z niewielu zawodników w TOP100 polskich żużlowców pod względem liczby rozegranych meczów, którzy mają ujemny bilans pojedynków z rywalami. Tę słabość dobitnie widać porównując średnią biegową ze średnią realną, która uwzględnia ranking pokonanych rywali (szczegóły TUTAJ). […]

Skomentuj