Actualitatea românească: modele statistice

Showing posts with label modele statistice. Show all posts

Wednesday, April 1, 2020

Prognoze în comunism, fără modelare cibernetică

Mi-am adus aminte de vremurile comuniste când trebuia să mergem în practică agricolă cu studenții. Erau niște șmecheri la Catedra de Economie Politică, știută fiind ca regină a științelor sociale comuniste, șmecheri care se fofilau zicând că ei stau în București că sunt solicitați de conducerea de partid și de stat, să facă prognoze. Ei, care habar nu aveau ce este un radical, școliții de la Moscova, erau de un descriptivism dus la limitele obscenității științifice, se puneau pe construirea de prognoze. Mulți ani am stat și m-am gândit cum ar arăta metodele de prognoză fără modele cibernetice. Abia zilele acestea am descoperit marele adevăr, după ce am consrtruit serii de date despre evoluția în lume a structurii populației în diferite țări, deci având un tabel cu atâtea coloane câte țări am luat în analiză și pe linii am pus datele furnizate în zilele care treceau.

Cu ochiul liber se văd creșterile, descreșterile și, respectiv, situațiile staționare. Mi-a venit ideea de a lua în considerare aruncarea unei pietre, care are o traiectorie destul de lină în urcare, dar și în coborâre, piatra neavând o mișcare nici în zig-zag, nici cu mișcare ondulatorie cu perioadă mică.

Văd că mulți așa-ziși analiști, folosind tabele legate de ce efecte are COVID 19 exprimate prin cifre, se lansează în a face tot felul de calcule și de a căuta să construiască tot felul de argumente, folosind acele cifre pentru a verifica ipotezele lor, care sunt de regulă doar elemente de manipulare, exact ca la buletinele meteo, mai ales că televiziunile trăiesc și fac profituri prin știri care îngrozesc, prin cataclisme anunțate, dar care nu se produc niciodată. Ele mizează pe dezinteresul pe termen lung al oamenilor și mai ales pe analizele a ceea ce nu se întîâmplă când se fac prognoze. Doar în ziua alegerilor se compară exit-poll-ul cu rezultatele reale și definitive, dar apar numai cei lăudăroși care au cifre din sondaje foarte apropiate de rezultatele efective.

Dacă nu se explică modalitatea cu care se construiesc datele din seriile anunțate oficial, este foarte dificil de a face analize și comparații. Numai la recensăminte se face condiția cu momentul t-zero, care este situația din familie la data de 1 ianuarie ora 24,00. Deci dacă la 23h59min omul a decedat, el nu va figura la recensământ. Dacă însă omul a decedat la ora 00h01min respectivul nu va intra la numărătoare. Eu am mari rezerve că raportările au avut la bază proceduri unitare, căci aceste proceduri trebuie să fie transparente, iar neuniformizarea modului de raportare tulbură calitatea datelor, mai ales omogenitatea și corectitudinea acestora. Sunt erori voite sau erori involuntare, în lipsa procedurilor și a responsabilizării culegerii, transmiterii și prelucrării. Numerele 13, 31, 03, mai puțin 2020 sunt numere prime, nu? Litera S are poziția 18 în lfabet...

(01 aprilie 2020)

Tuesday, February 19, 2019

Cum aș calcula eu ROBOR-ul

Ca indicele să fie reprezentativ, știind câ este totuși un indice imperfect, propun următorul algoritm:

- construiesc o bază de date,

- pun în baza de date toate tranzacțiile din ziua curentă,

- elimin tranzacția cu dpbânda cea mai mică și tranzacția cu dobânda cea mai mare,

- număr tranzacțiile rămase și onțin numărul N,

- adun dobânzile de la tranzacțiile rămase și obțin o sumă S,

- calculez ROBOR = S/N adică o banală medie aritmetică,

- aplic teste statistice pentru a vedea dacă media este reprezentativă,

- dacă media nu este reprezentativă se va construi un eșantion,

- procedeul se continuă până la obținerea mediei reprezentative.

Dacă unii vor spune că volumul de date este prea mare, folosind generatoare de numere pseudoaelatoare ale repartiției uniform distribuite, se vor extrage din baza de date un număr suficient de mare de articole și deci și de dobânzi și se va calcula media aritmetică, fără a veni cu restricția aceea stupidă și nerealistă a intervalului 11,00 - 11,15 interval care lasă loc la orice interpretare. Se lucrează exact ca la teoria sondajelor, marja de eroare este cea care dă dimensiunea eșantionului. Orice statistician știe formula de calcul a volumului eșantionului de tranzacții. Trebuie doar să se discute cu specialiștii în statistică, fără a mai lăsa pe unul care a făcut REI acum 45 de ani să stabilească ce și cum, căci metodele cantitative pe atunci nu se prea făceau pe la alte facultăți decât Cibernetica. Un student de anul al II-lea ar fi dat această soluție, neagreată de zmecheri.

(19 februarie 2019)

Wednesday, April 11, 2018

Redescoperirea apei calde

Anul trecut, printr-o întâmplare nefericită am avut ocazia să mă confrunt cu o echipă de cercetători formată din tineri care făceau niște măsurători, pentru a face în final nu știu ce studiu. În anul 1980 știu că împreună cu o echipă de medici specialiști și cu profesori de la IMF am făcut o cercetare despre forme rotunde.

În primul rând, am discutat și ei au strâns date respectând cerințe care asigurau calitatea acestora din punct de vedere statistic, pentru ca rezultatele prelucrărilor să fie reprezentative.

În al doilea rând, colectivitatea a fost astfel definită încât să fie o repartiție a cazuisticii în concordanță cu realitatea, fără a deplasa artificial studiul spre o zonă facilă, dar de la care în niciun caz nu se fac generalizări.

În al treilea rând, am solicitat să se asigure calibrarea validă a echipamentelor, lucru care trebuia specificat în studiu, pentru a da garanție că datele culese sunt corecte, completitudinea rezultând din calitatea ipotezelor de lucru.

În al patrulea rând s-a pornit de la realitate spre modelarea statistică și nu invers, căci având câteva mii de înregistrări, realitatea nu avea cum să fie încorsetată în scheme rigide, mai ales că metodele statistice sunt extrem de variate și acoperă o paletă foarte mare de situații.

În al cincilea rând, planificarea culegerii datelor s-a făcut pentru a ne asigura că nu va fi necesar un proces de corecții în înregistrări, știut fiind faptul că reproductibilitatea este una de-a dreptul imposibilă în zona cercetării medicale.

Acum, după 37 de ani am observat că:

- echipa de cercetare nu era interdisciplinară, lipsind statisticianul și informaticianul,

- aparatura de măsurat nu era calibrată, ceea ce anula întregul efort,

- lipseau procedurile, doi cercetători făceau două lucruri diferite pentru aceeași măsurătoare,

- lipseau formularele destinate procesării automate fără risc de introducere eronată a datelor.

Nu știu ce se făcea cu acele date, dar din start lipseau elementele cheie pentru a asigura:

- completitudinea,

- comparabilitatea,

- omogenitatea,

- corectitudinea,

caracateristici esențiale în orice prelucrare statistică, indiferent de ipotezele de la care se pleacă în realizarea unei cercetări, indiferent de cât de mare este volumul datelor de care se dispune la un moment dat.

Îmi și aduc aminte acum cum căram cutiile de date cu cele 16.000 de înregistrări cu care și acum mă mândresc, cu care am construit seriile de date și cu care am făcut cercetări care au scos la lumină niște aspecte de-a dreptul spectaculoase în cazuistica formelor rotunde, inclusiv în ceea ce privește rolul fumatului sau în ceea ce privește perioada dublării, preuluată prin simetrie din fizica nucleară.

Acum tac, pentru că m-am simțit penibil când am încercat să discut cu tinerii cercetători, care au văzut în mine un bătrân ramolit pe care nu au dat nici doi bani. Nu m-a deranjat, doar mi-au inspirat milă, acea milă pe care mi-o inspiră acea potaie hăitută de toți, deși ea săraca nu are nicio vină.
Redescoperirea apei calde este efectul lipsei capacității de a învăța din experiența altora. este trist că de fiecare dată se reia de la început pierzându-se timpul. În timp ce alții merg mai departe, noi o luăm de fiecare dată de la zero.

(11 aprilie 2018)