Showing posts with label omogenitate. Show all posts
Showing posts with label omogenitate. Show all posts

Monday, June 24, 2024

Folosirea aiurea a seriilor de date și interpretarea aberantă a rezultatelor

Se știe de ani și ani că seriile de date ne ajută foarte mult să studiem dinamica fenomenelor, mai ales dacă tabelele conțin:
- momente de timp,
- inregistrări ale factorilor exogeni,
- înregistrări ale variabilelor endogene,
cu condiția de a respecta o serie de cerințe care asigură omogenitatea datelor, comparabilitatea și dacă este cazul repetitivitatea procesului de culegere a datelor.
Dacă vrem să înregistrăm temperaturile zilnice stabilim:
- instrumentul cu care facem măsurătorile,
- locul unde facem măsurătorilor,
- momentul din zi când facem măsurătorilor,
- condițiile ca să construim seriile de date.
Se zice că este un proverb al machedonilor, care zice că dacă într-o oală de ciorbă pui o lingură de c-c-t, totul c-c-t se numește. Tot așa, în cazul în care un termen al seriei de date este cules altfel decât în condițiile stabilite, seria de date își pierde calitatea de reprezentativitate și rezultatele sunt la rândul lor niște gunoaie.
Dacă stăm și analizăm ceea ce spun diferiți așa-ziși oameni de știință referitor la încălzirea globală, folosind serii de date pe 100 de ani, fără a avea nicio informație legată de procedura prin care au fost culese datele, ceea ce am numi serie de date, este un conglomerat de cifre, iar orci prelucrări ale conglomeratului, nu face altceva decât să ducă la niște cifre pe care le interpretăm oricum vrem noi, pentru că nu au nicio valoare științifică și nu se pun în corespondență cu nicio realitate de niciunde.
Toate prelucrările pe care le efectuăm sunt pe serii de date care nu sunt supuse unei analize prealabile, pentru a avea certitudinea că rezultatele ne vor spune ceva. De cele mai multe ori, sunt necesare testele statistice, pe care în 99,99 % din cazuri nimeni nu le efectuează și se merge de-a valma călcând în gropi din ce în ce mai adânci cu riscul de a ne afunda în concluzii de-a dreptul aberante. Atât timp cât nu punem la dispozițiile seriile de date primare, nu prezentăm modul în care am analizat aceste date pentru a vedea că chiar sunt bune pentru a continua prelucrărle și nu am formulat ipotezele noastre de lucru, tot ceea ce vom prezenta drept concluzii, nu sunt altceva decât o succesiune de aberații drăgălașe cu care ne îmbătăm doar de dragul de a părea interesanți în ochii celor care așteaptă un semn de la noi, să pară și ei măreți și deștepți în fața altora unde au auditoriu permanent.




(24 iunie 2024)

Friday, April 21, 2023

Media, dă valoarea noastră?

Unii cred că media este totul. Media este totul, dacă sunt îndeplinite niște condiții și anume:
- colectivitatea este omogenă,
- sistemul de notare este unic,
- cei ce acordă note sunt corecți,
- rezultatele sunt comparabile.
Dacă la aritmetică se spune că nu se adună mere cu pere, tot așa, trebuie să spunem că nu se compară mere cu pere, adică nu se compară medii obținute în moduri diferite.
Voi da un exemplu simplu.
Există o clasă de elevi cu vârstă de 16 ani. Ei au fost colegi din clasa a I-a până în clasa a VIII-a și au avut note acordate de aceiași profesori la toate disciplinele și tezele le-au fost corectate de aceiași profesori. În clasă nu sunt copiii niciunui profesor din școală și nici copii ai unor mărimi din oraș sau județ nu sunt, care să perturbe nejustificat acordarea de note. Toți profesorii sunt caractere puternice care nu se lasă influențate în acordarea de note de factori externi elementelor specifice proceselor de instruire.
În acest context, notele obținute de elevi reflectă exclusiv, nivelul de pregătire al elevilor, iar mediile aritmetice obținute de elevi la sfârșitul fiecărui trimestru, reflectă la rândul lor nivelul de cunoștințe acumulate de aceștia la disciplinele din programa de învățământ. La fel și media anuală a fiecărui elev de clasa a VIII-a este reflectarea efortului depus de elev în anul școlar.
La finele anului rezultă o ierarhizare a elevilor din clasă după medie. În acest caz, media este reprezentativă, căci se referă la o colectivitate omogenă, tot omogenă este și colectivitatea profesorilor care a acordat notele și omogenă este și mulțimea manualelor care a stat la baza învățării.
Dacă ne gândim să ierarhizăm elevii claselor a VIII-a din școală, deja scade nivelul de reprezentativitate a mediei, căci deși elevii formează o colectivitate omogenă, deși manualele sunt omogene, scade nivelul de omogenitate al profesorilor, dacă pentru o disciplină acordă note mai mulți profesori, căci fiecare profesor are particularitățile lui de evaluare. Reprezentativitatea scade și mai mult dacă ne apucăm să comparăm mediile obținute de elevi în diferite orașe sau mediile elevilor dintr-un oraș cu mediile elevilor de la o școală dintr-o comună.
Media dă valoarea noastră doar în anumite condiții și aici mă leg tot de reprezentativitate. Dacă media nu este reprezentativă, evident, ea nu dă nicio informație despre valoarea noastră. Dacă un elev este meditat de profesorul lui de la clasă și la teză el primește subiectul care i-a fost anunțat cu câteva zile înainte, media lui nu este reprezentativă, iar compararea mediei lui cu mediile celorlalți colegi nu are nicio valoare, iar valoarea unui astfel de elev, nu există, căci este perturbată de contextul nefiresc de derulare a procesului de instruire a elevului, în comparație cu ceea ce se întâmplă cu colegii lui.



(21 aprilie 2023)

Monday, May 16, 2016

O banala prelucrare în BIG DATA

Cineva zicea că se îneacă în date. Nu este adevărat dacă datele sunt stocate într-o bază de date cu vreo câteva zeci de miliarde de înregistrări efectuate prin achiziții de date. Adică nu sunt afectate de erori de măsurători, erori de transcriere, erori de localizare sau orice fel de erori cu intenție sau fără de intenție așa cum ne zice nouă la biserică tata popa.
Să presupunem că ne interesează să vedem cum stau lucrurile cu tranzacțiile bancare la bancomatele unei bănci.
În baza de date se află câteva sute de milioane de înregistrări ale celor care au conturi în lei și care fac diferite operatii. Câmpurile achiziționate automat sunt:

  • momentul în care s-a făcut tranzacția;
  • elemente de identificare ale bancomatului;
  • elemente de identificare ale posesorului de card;
  • valoare sold;
  • destinatar;
  • suma tranzacționată;
  • codul operației;
  • corecții de tastare pin;
  • corecții la tastare  sumă;
  • moment ieșire din sesiune.
Analiza de constatare nu pornește de la un obiectiv stabilit, ci ia realitatea așa cum este ea pentru a fi interpretată.


  • Despre sumele tranzacționate se aleg elementul minim, elementul maxim, se construiesc subintervale, se traversează baza de date și se construiesc frecvențele de aparișie a tranzacțiilor pe intervale. Se construiește o histogramă, se mai fac și alet prelucrări statistice și se vede care sunt sumele care se tranzacționează cel mai mult. 
  • Despre momentele in care se fac tranzacțiile, se iau cele 24 de ore ale zilei și se numără tranzacțiile care au loc în fiecare dintre cele 24 de ore. Se va vedea că în cursul zilei sunt tranzacții mai numeroase decât în cursul nopții. Se va vedea că la anumite ore tranzacțiile sunt la un nivel foarte scăzut, drept care atunci se dezctivează bazele de date de bancomate și se fact tot felul de operații de întreținere, nu așa cum discreționar făceau niște bănci mioritice care decuplau bancomatele în cursul zilei, disprețuindu-și în nesimțirea lor toți clienții.
  • Pentru a vedea duratele tranzacțiilor, adică timpul petrecut de cetățean pentru a face o operație se face diferența dintre momentul de intrare în sesiune și momentul încheierii unei operații. Se aleg durata minimaî și durata maximă, se construiesc intervale și se construiesc frecvențele duratelor prin numărarea elementelor ce aparțin fiecărui interval generat. se va constata că un anumit interval are frecvențele mari dar există și intervale cu frecvențe mici.
  • Lucrurile devin mai interesante dacă încep să se facă și corelații între seriile de date achiziționate. Adică să se vadă corelația dintre valoarea tranzacției și nivelul solcului. va rezulta că sunt clienți care scot toți banii la un interval foarte mic față de momentul alimentării. Sunt situații din care rezultă ciclicitatea alimentării și dinamica soldului. BIG DATA permite băncii să stabilească soldul optim de numerar care trebuie să se afle în bancomate. Tot BIG DATA arată cum stau trebuirle cu rupturile de stoc, adică bancomatele se închid din lipsă de numerar. este o tratare elevată transferată de la optimizarea stocurilor de materiale din cercetările operaționale.
Doamne, câte concluzii divine se obțin de cei din bânci dacă au software de BIG DATA pe care să-l folosescă rațional. Sunt sigur că folosind un astfel de software multe tranzacții frauduloase s-ar depista cu mult mai mare ușurință și însăși banca ar fi în mare câștig. Chiar și pentru clonările de carduri BIG DATA are zic eu soluție 100% eficientă.
BIG DATA nu este un vis, ci o realitate. Ea este vis dacă rămâne doar la stadiul de poezie recitată frumos, fără a se trece la practica de zi cu zi a prelucrării milioanelor de date cear se achiziționează, de cele mai multe ori degeaba.

(16 mai 2016)

Sunday, February 28, 2016

Vocabularul grupului țină din mediul virtual

Ghigul de utilizare a mediului virtual destinat candidatului la o funcție eligibilă face referire clară la grupul țintă. Lui i se adresează orice candidat. Grupul țintă din mediul virtual NU este un grup virtual, ci este unul real, format din X și din Y și din Z dar și din W dar și din U, casre sunt persoane în carne și oase, avand:
- vărstă;
- o anumită educație;
- stări sufletești;
- trăiri;
- nevoi personale;
- griji;
- prieteni;
- dușmani;
- o anumită disponibilitate financiară;
- așteptări de la alegerile în discuție.
Înainte de toate, echipa de comunicare trebuie să studieze vocabularul comun al membrilor grupului țintă și să identifice:
- cuvintele cele mai des folosite;
- propozițiile care sunt construite si folosite cel mai frecvent;
- modul în care sunt folosite propozițiile cu DA și cele cu NU;
- formulările la probleme;
- cuvintele cheie;
- timpul la care se folosesc verbele;
- regionalismele;
- strucdturile de idei.
După efectuarea acestui studiu, toate textele care sunt date în mediul virtual trebuie să îndeplinească o serie de cerinte precum:
- lungime minimă;
- omogenitate ridicată,  în ideia ca un text este pentru o ideie;
- adresare directă;
- dacă se răspunde la întrebări textele sunt foarte scurte;
- intratul în dialog pe problemă dată trebuie să păstreze contectul;
- păstrarea continuității conținutului, fără a muta discuția într-o altă direcție.
Trebuie știut că un text nu trebuie să fie o inșiruire de ceea ce vrea să zică un candidat, fără a ține seama de cea ce vreqa să audă oamenii ce formează grupul țintă.
Să ne imaginăm un afis la Atheneul Român cu un concert de Bach și când se ridică cortina apare un taraf și vine un solist celebru și cântă manele. Să ne imaginăm la Sala Polivalentă că este concertul Miss Piranda. Se ridică cortina si apare orchestra Filarmonica din Philadephia avandu-l dirijor pe Zubin Mehta.
În ambele cazuri este vorba de inadecvare. Echipa de comunicare trebuie să evite INADECVĂRILE cu orice preț!
(28 februarie 2016)