Showing posts with label dispersie. Show all posts
Showing posts with label dispersie. Show all posts

Monday, June 24, 2024

Folosirea aiurea a seriilor de date și interpretarea aberantă a rezultatelor

Se știe de ani și ani că seriile de date ne ajută foarte mult să studiem dinamica fenomenelor, mai ales dacă tabelele conțin:
- momente de timp,
- inregistrări ale factorilor exogeni,
- înregistrări ale variabilelor endogene,
cu condiția de a respecta o serie de cerințe care asigură omogenitatea datelor, comparabilitatea și dacă este cazul repetitivitatea procesului de culegere a datelor.
Dacă vrem să înregistrăm temperaturile zilnice stabilim:
- instrumentul cu care facem măsurătorile,
- locul unde facem măsurătorilor,
- momentul din zi când facem măsurătorilor,
- condițiile ca să construim seriile de date.
Se zice că este un proverb al machedonilor, care zice că dacă într-o oală de ciorbă pui o lingură de c-c-t, totul c-c-t se numește. Tot așa, în cazul în care un termen al seriei de date este cules altfel decât în condițiile stabilite, seria de date își pierde calitatea de reprezentativitate și rezultatele sunt la rândul lor niște gunoaie.
Dacă stăm și analizăm ceea ce spun diferiți așa-ziși oameni de știință referitor la încălzirea globală, folosind serii de date pe 100 de ani, fără a avea nicio informație legată de procedura prin care au fost culese datele, ceea ce am numi serie de date, este un conglomerat de cifre, iar orci prelucrări ale conglomeratului, nu face altceva decât să ducă la niște cifre pe care le interpretăm oricum vrem noi, pentru că nu au nicio valoare științifică și nu se pun în corespondență cu nicio realitate de niciunde.
Toate prelucrările pe care le efectuăm sunt pe serii de date care nu sunt supuse unei analize prealabile, pentru a avea certitudinea că rezultatele ne vor spune ceva. De cele mai multe ori, sunt necesare testele statistice, pe care în 99,99 % din cazuri nimeni nu le efectuează și se merge de-a valma călcând în gropi din ce în ce mai adânci cu riscul de a ne afunda în concluzii de-a dreptul aberante. Atât timp cât nu punem la dispozițiile seriile de date primare, nu prezentăm modul în care am analizat aceste date pentru a vedea că chiar sunt bune pentru a continua prelucrărle și nu am formulat ipotezele noastre de lucru, tot ceea ce vom prezenta drept concluzii, nu sunt altceva decât o succesiune de aberații drăgălașe cu care ne îmbătăm doar de dragul de a părea interesanți în ochii celor care așteaptă un semn de la noi, să pară și ei măreți și deștepți în fața altora unde au auditoriu permanent.




(24 iunie 2024)

Sunday, March 14, 2021

Statistica pe colectivități mari este cu totul altceva

Acum sunt discuții aprinse legate de vaccinare. Sunt înregistrate zilnic toate persoanele care sunt vaccinate și sunt tratate distinct diferitele situații de reacții adverse, nefiind puține cazurile din care tratarea superficială duce la concluzia că serul folosit le generează, ca după aceea să fie făcute dezmințiri. Presa care este în goană după senzațional preia din zbor informații, le prezintă fără a fi supuse unor analize de specialitate și generează confuzii dintre cele mai bizare, iar efectele în societate sunt devastatoare. UE nu are proceduri de niciun fel. Ar trebui ca în cazuri extreme să existe fluxuri foarte bine definite.
Se înregistrează un deces după primul vaccin sau după rapel.
Se fac analize.
Se face autopsierea.
Se stabilește cauza decesului.
Se emite un comunicat bine documentat, fără umbră de suspiciuni.
Se citește comunicatul, fără interpretări de presă.
Punct.
Acum nu se procedează așa și a fost indusă ideea că decesele s-au înregistrat din cauza vaccinului. Aceasta este informația. Degeaba se revine cu comunicatul și se spune că persoana a decedat din cu totul alte cauze. Efectul comunicatului este minim, căci prima informație a contat. 
Sac statistica ar fi  lucrat cu setruri de date privind colectivități mari, adică ceva precum serii de date cu 30.000 elemente, ar fi fost normalitate ca studiile de corelații să se facă în tabele cu mai multe coloane, fiecare având același număr de termeni, adică 30.000. Am mari semne de întrebare că 2.000 situații privind reacții adverse ușoare, 150 situații cu reacții importante și un număr de decese redus în studiile statisticii care folosesc metodele actuale ar oferi informații, ceea ce mă duce cu gândul la voturile din circumscripția 23 August în care candida Nicolae CEAUȘERSCU și unde avea unanimitate, căci buletinele de vot cu înjurături nu era luate în calcul. Statistica pe colectivități mari trebuie să introducă metode noi, revoluționare, căci indicatorii de tipul I=A/B sau analiza de corelație sunt fără valoare.


(14 martie 2021)

Thursday, January 25, 2018

Indicatori statistici în culturism

Pentru a ușura înțelegerea lucrurilor, voi presupune că am o colectivitate a culturiștilor, formată dintr-un număr N = 30 de culturiști, despre care am înregistrat:
- numele
- înălțimea în centimetri HC;
- greutatea în kilograme GR;
- număr de zile de antenament pe săptămănă NZ;
- durata aproximativă a unui antrenament DA;
- numărul anilor de antrenament NA:
- circumferința biceps CB.
Datele le organizez în tabelul de mai jos.

Nr. crt.     Nume Culturist      Înălțimea    Greutatea     Vârsta   Circumferința  Nr antrenamente
                                                   HC              GC             VS             CB                 NA
____________________________________________________________________________
01              Gigi-01                    175               89               40             47                    3
02              Gigi-02                    171               86               27             46                    3
03              Gigi-03                    173               88               33             46                    4
04              Gigi-04                    179               97               31             49                    4
05              Gigi-05                    168               80               30             42                    5
06              Gigi-06                    172               89               34             46                    4
07              Gigi-07                    173               85               20             44                    4
08              Gigi-08                    179               98               35             50                    4
09              Gigi-09                    181             104               46             53                    3
10              Gigi-10                    165               77               37             40                    5
11              Gigi-11                    177               88               20             41                    4
12              Gigi-12                    187             102               27             53                    5
13              Gigi-13                    170               86               19             44                    4
14              Gigi-14                    177               95               31             47                    4
15              Gigi-15                    173               85               42             45                    4
16              Gigi-16                    163               80               34             43                    5
17              Gigi-17                    175               94               36             52                    3
18              Gigi-18                    178               99               29             51                    4
19              Gigi-19                    166               75               21             41                    4
20              Gigi-20                    175               94               37             46                    4
21              Gigi-21                    171               97               31             45                    3
22              Gigi-22                    174               95               20             46                    4
23              Gigi-23                    167               80               36             45                    4
24              Gigi-24                    172               88               18             41                    5
25              Gigi-25                    177               85               45             48                    3
26              Gigi-26                    169               76               28             41                    4
27              Gigi-27                    178               92               31             43                    4
28              Gigi-28                    181               89               24             45                    3
29              Gigi-29                    170               90               36             46                    5
30              Gigi-30                    182               95               29             52                    4
______________________________________________________________________

Primul lucru de care ne ocupăm acum este identificarea elementelor minime și a celor maxime de pe fiecare coloană.
Înălțimea minimă HCmin = 163 cm
Înălțimea maximă HCmax =  187 cm
Greutatea minimă GCmin =  75 kg
Greutatea maximă GCmax = 104 kg
Cel mai tânăr culturist VSmin = 18 ani
Cel mai vârstnic culturist VSmax = 46 ani
Cea mai mică circumferință a brațului CBmin = 41 cm
Cea mai marecircumferință a brațului CBmax = 65 cm
Numărul minim de antrenamente pe săptămână NAmin = 3
Numărul maxim de antrenamente pe săptămână NAmax = 5.
Se calculează lungimile intervalelor în care variază mărimile din tabel scăzând din nivelul maxim al fiecărei mărimi măsurate, nivelul minim al acelei mărimi.
DIFHC = HCmax - HCmin = 187 - 163 = 24 cm
DIFGC = GCmax - GCmin = 104 - 75 = 29 kg
DIFVS = VSmax - VSmin = 46 -18 = 26 ani
DIFCB = CBmax - CBmin = 65 - 41 = 24 cm
DIFNA = NAmax - NAmin = 5 - 3 = 2.
Al doilea lucru care se face, este calculul medie aritmetice pentru variabilele de pe coloanele tabelului, obținindu-se:
- media aritmetică a înălțimii culturiștilor,
- media aritmetică a greutății culturiștilor,
- media aritmetică a vârstei culturiștilor,
- media aritmetică a circumferinței brațului culturiștilor,
- media aritmetică a antrenamentelor efectuate de culturiști,
ca sume ale elementelor de pe coloane, împărțite la numărul de elemente N, în cazul de față N=30.
Tot ceea ce s-a spus, se concentrează în tabelul de mai jos:


Carcateristică
 Înălţimea
HC
Greutatea
GC
Vârsta
VS
Circumferința CB 
 Antrenamente
NA
Nivelul minim
 HCmin
 GCmin
VSmin 
 CBmin
 NAmin
Nivelul maxim
 HCmax
 GCmax
 VSmax
 CBmax
 Mamax
Diferenţa max-min
 DIFHC
 DIFGC
 DIFVS
DIFCB 
 DIFNA
Media aritmetică
 HCmed
 GCmed
VSmed 
CBmed 
 NAmed
Dispersia
 HCdisp
 GCdisp
 dispdisp
 CBdisp
 NAdisp
Coeficient variaţie
 HCcv
 GCcv
 VScv
 CBcv
 NAcv
Folisind formulele statistice adecvate, se vor calcula indicatorii din tabel. Există programe de calculator pentru aceste calcule.

(25 ianuarie 2018)

Formule ale statisticii utilizate în culturism

Ca să nu se sperie lumea, voi pune aici câteva dintre formulele simple ale statisticii utilizate în culturism. Ele sunt timple, dar foarte importante și mai ales utile. Presupun înregistrări de forma:

Nr. crt.   Nume culturist   Înălțime
-----------------------------------------
   01           Gigel_1             X1
   02           Gigel_2             X2
   03           Gigel_3             X3
----------------------------------------------------------------

   0k           Gigel_k             Xk

----------------------------------------

    n           Gigel_n             Xn


în care sunt luate elementele unei colectivități sau de forma:

     Data         Durată antrenament
--------------------------------------------
01.02.2018             45'            
02.02.2018             55'            
03.02.2018             35'
04.02.2018             45'            
05.02.2018             55'                        
.............................
26.02.2018             75'            
27.02.2018             85'  
în care se notează evoluția în timp a unei caracteristici din activitatea unui culturist.      Durarele antrenamentelor se notează și ele generic tot cu X1, X2, X3,...Xn
Culturiștii scriu zilnic sau periodic:
- structuri de antrenamente;
- cantități de suplimente consumate;
- calorii arse;
- caloriile din mâncare;
- greutățile ridicate;
- duratele antrenamentelor;
- numărul de seturi și numărul de repetări;
- greutatea;
- circumferințe.
Instructorii scriu despre elevii lor:
- vârsta:
- greutatea în momentul de start;
- data de început;
- număr antrenamente săptămânale;
- durate planificate la antrenamente;
- durate efective;
- măsurători biometrice.
Pentru multe dintre acestea se calculează nivelurile medii, iar pentru a vedea că rezultatele calculelor sunt corecte se calculează coeficientul de variație.
Formule utilizate frecvent în măsurarea unor caracteristici cantitative din activitatea culturiștilor sunt:
- formula mediei aritmetice care se scrie fie dezvoltat 


fie concentrat folosind semnul de însumare care se scrie astfel:

- formula dispersiei care  se scrie fie dezvoltat astfel:

fie concentrat, care se scrie astfel:

- formula abaterii medii standard 

- formula coeficientului de variație care se scrie astfel:

care arată că media este reprezentativă dacă el este mai mic decât 35% sau este nereprezentativă, seria de date fiind omogenă, iar în caz contrar și înseamnă că seria de date nu este omogenă.
Am scris articole folosind aceste formule pentru a stabili:
- durata de vârf în activitatea culturiștilor;
- durata cât culturiștii sunt în activitate;
- vârsta de ieșire din activitatea de performanță a culturiștilor. 
Deocamdată, aceste formule trebuie luate ca atare. Dispersia arată cât de diferite sunt datele măsurate între ele, iar coeficientul de variație spune dacă avem o colectivitate omogenă sau nu. Statistica are metode de a valida tehnici de pregătire a culturiștilor și de a evidenția corelații între cauze și efecte, cu foarte mare acuratețe și fără a lăsa loc la interpretări.
ATENȚIE! Rezultatele statisticii sunt valabile dacă și numai dacă se lucrează cu colectivități omogene!

(25 ianuarie 2018)

Wednesday, January 24, 2018

Statistica în culturism

Observăm că toată lumea culege date de tot felul și toată lumea folosește tablete, telefoane mobile și laptopuri. Ideia este că și în culturism se folosesc aceste instrumente de culegere de date, numai că datele trebuie prelucrate și mai ales, rezultatele trebuie utilizate.
Ca să nu enervez și să nu plictisesc nici pe instructori și nici pe culturiști voi spune că este nevoie de:
  • o mulțime de  culturiști cât mai omogenă în raport cu un criteriu; astfel de mulțimi sunt mulțimea culturiștilor bărbați, mulțimea culturiștilor care au câștigat cel puțin un titlu de campion, mulțimea culturiștilor sub 25 de ani, mulțimea culturiștilor cu înălțime peste 180cm și tot așa; fiecare definește mulțimea care îi este apropiată, cu care lucrează și despre care dorește să culeagă date;
  • proceduri de a măsura cât mai exact caracteristici comune ale elementelor mulțimii, astfel de proceduri trebuie să permită ca oricine face măsurătorile să obțină cam aceleași rezultate; sunt reguli în a măsura înălțimea unei persoane; sunt reguli pentru a măsura greutatea unei persoane; sunt reguli în a măsura cum decurge un antrenament și tot așa; ideia este că o regulă definită trebuie folosită întocmai, fără vreo abatere;
  • un obiectiv care trebuie urmărit și care definește ce date trebuie obținute și ce formule trebuie folosite; pornind de la obiectiv se stabilesc seriile de date ce trebuie culese, eroarea care se acceptă și mai ales reprezentativitatea rezultatelor; la volum de date mare și rezultatele vor fi mai bune, iar la volum de date foarte redus, datele obținute folosind metodele statistice sunt puțin credibile, ceea ce face ca utilitatea lor să scadă vertiginos.
Seriile de date care se culeg vizează fie coletctivități omogene, fie evoluția în timp a unui element din colectivitate sau chiar a tuturor elementelor din colectivitate. În toate cazurile, seriile de date trebuie să conțină mai mult de 16 termeni. Adică, în colectivitatea culturiștilor vor exista cel puțin 16 sportivi. Dacă se înregistrează momente de timp, acestea vor fi în număr de cel puțin 16 ore dacă se face înregistrarea din oră-n oră, cel puțin 16 zile dacă se fac înregistrări zilnice și tot așa. Caracteristicile care sunt măsurate sunt foarte variate, inclusiv se înregistrează calificative, note, punctaje dar și date rezultate din măsurărori sau din numărarea unor execuții sau repetări sau seturi de exerciții sau greutăți utilizate pe durata antrenamentelor. Se înregistrează inclusiv cantități de suplimente, calorii arse dar și caloriile din mâncare. E o întreagă literatură în acest domeniu.



(24 ianuarie 2018)

Saturday, January 20, 2018

Culturistul ca produs

Forțând puțin lucrurile, dacă spunem co sportivul X este produs al școlii românești de gimnastică, în mod logic trebuie să admitem că X este un produs. Așadar, prin extensie, voi considera în continuare că și culturistul Y este tot un produs al școlii românești de culturism, deci este un produs pur și simplu. Ca orice produs, culturistul are o perioadă de debut, o perioadă de ascensiune, o perioadă de maturitate, un maxim și apoi o perioadă de declin, după care părăsește activitatea. Este exact ca în marketing cu produsele din magazine care și ele au un ciclu de viață și după aceea când nu mai sunt cerute de cumpărători ies din  piață.
Așa cum și produsele au durate ale ciclurilor de viață mai lungi sau mai scurte, tot așa și culturiștii, dacă sunt priviți tot ca produse au cicluri de viață sportivămai lungi sau mai scurte, cariere de succes mai lunci sau mai scurte. Cariera de succes se suprapune cu o perioadă de ascensiune și este foarte apropiată de punctul de maxim al carierei, tot așa cum un produs este de succes, când vânzările sale ating volume foarte mari, aproiate de nivelul record.
Este necesar să se studieze o astfel de abordare a culturiștilor pentru a se realiza translații ale rezultatelor pe care le-au obținut cercetătorii din sfera marketingului, către aceștia, pentru a căuta să se optimizeze structura ciclului de viață a culturiștilor, văzuți ca produse. Dacă nu se procedează astfel, se vor face calcule eronate și în final se va aștepta momentul de vârf al carierei unui sportiv când de fapt ori este mult prea devreme, ori când de fapt, momentul respectiv a trecut și degeaba se mai speră că acel moment al apogeului va veni.
Pentru a face o cercetare pe această problemă este necesar să existe date suficiente din care să se extragă nivelurile care să intereseze ciclul de viață la acest sport. Am folosit în acest scop date de pe Internet de la concursul Mr. Olympia care sunt:
- complete,
- omogene,
- reprezentative,
- corecte.
De pe Internet, de la fiecare sportiv care a câștigat Mr. Plympia am luat:
Nr  - numărul de sportivi incluși în analiză
A1 - anul în care a participat la prima sa competiție mai importantă;
A2 - anul în care a încheiat participările la competiții importante;
A3 - anul în care a câștigat primul titlu de Mr. Olympia;
A4 - anul în care a câștigat ultimul titlu de Mr. Plympia.
Au fost obținute următoarele date:
Nume Culturist
A0
anul nasterii
A1
anul start
A2
anul final
A3 anul prim titlu Mr.O
A4 anul ultim titlu
Mr.O
Larry Scott
1938
1959
1979
1965
1966
Sergio Oliva
1941
1963
1985
1967
1969
 Arnold Schwarzenegger
1947
1965
1980
1970
1980
 Franco Columbu
1941
1966
1981
1976
1981
 Frank Zane
1942
1961
1983
1977
1979
Chris Dickerson
1939
1966
1984
1982
1982
Samir Bannout
1955
1974
2011
1983
1983
Lee Haney
1959
1971
1991
1984
1991
Dorian Yates
1962
1985
1997
1992
1997
Ronnie Coleman
1964
1990
2007
1998
2005
Jay Cutler
1973
1993
2010
2006
2010
Dexter Jackson
1969
1992
2017
2008
2008
 Phil Heath
1979
2003
2017
2011
2017
Folosind aceste date, am calculat:
D1 - durata ciclului di viață a dpodusului culturist, D1 = A2 - A1;
D2 - durata de maturitate a produsului culturist, D2 = A3 - A1
D3 - durata de maxim a produsului culturist D3= A4 - A3+1;
D4 - durata declinului produsului culturist, D4 = A2 - A4.
Se obţin:
Nume Culturist
D1=A2-A1
D2=A3–A1
D3=A4 – A3+1
D4=A2–A4
Larry Scott
20
6
2
13
Sergio Oliva
22
4
3
16
 Arnold Schwarzenegger
15
5
11
0
 Franco Columbu
15
10
6
0
 Frank Zane
22
11
3
4
Chris Dickerson
18
16
1
2
Samir Bannout
37
9
1
18
Lee Haney
30
13
8
0
Dorian Yates
12
7
6
0
Ronnie Coleman
17
8
8
2
Jay Cutler
7
13
5
0
Dexter Jackson
25
16
1
9
 Phil Heath
14
8
7
0
Dc - durata medie a ciclului de viață a unui culturist ca sumă de  D1 împărţită la numărul de subiecţi;
Sc -  dispersia față de medie a ruratelor ciclurilor de viață;
Cv - coeficientul de variație al ciclului de viață;
Dm - durata medie a maturității în activitate a culturiștilor ca sumă de D2 împărţită la număr subiecţi;
Sm - dispersia față de medie a maturității în activitate a culturiștilor;
DM - durata medie de rămânere în vârful ierarhiei ca sumă de termeni D3 împărţită la număr subiecţi;
SM - dispersie față de medie de rămânere în vârful ierarhiei;
DD - durata medie a declinului în activitate ca sume de termeni D4 împărţită la numărul de subiecţi;
SD - dispersia față de medie a declinului în activitate.
Aceşti indicatori urmeazăsă fie calculaţi.
Durata medie a declinului în activitate DD = 4,92 ani.
Durata de rămânere la vârful de activitate DM = 4,47 ani.
Unui sportiv îi trebuie în medie o durată medie de muncă Dm = 9,69 ani.
Un culturist are un ciclu de viaţă ca produs Dc = 19,53 ani.
Toate acestea crează o imagine cât de cât apropiată fașă de ceea ce se întâmplă în viața reală. Datele vor fi folosite cu adaptările de rigoare și pentru alte situații. Ideia de bază este să se înceapă să se facă aceste calcule pentru situații concrete de la noi, pentru a avea acele elemente care să permită efectuarea de extrapolări pentru cazuri concrete.





(20 ianuarie 2018)