Tuesday, May 17, 2016

BIG DATA la nivel ceva mai complicat

BIG DATA înseamnă baze de date cu sute de milioane de înregistrîri sau chiar cu zeci de miliarde de înregistrări. Asemenea volume se obțin din achiziții de date. caracteristicile persoanelor se obțin prin scanare în 3D și prin cântărire dar și prin colectare deprobbe foarte simple dar din care se obțin informații dintre cele mai importante. Ne vom imagina un tabel cu milioane sau miliarde de linii și cu nenumărate coloane, atâtea caracteristici câte se achiziționează. În acele baze de date se stochează imagini din stații de metrou, imagini din trafic, evoluîia vremii, rezultatele analizei calității produselor și orice informații care se achiziționează despre orice ne interesează. Vânzările din marketuri, tranzacțiile din bănci, adică tot ce inseamnă informație, căci acum memoriile sunt atât de ieftine încât a stoca oric nu mai este o dificultate. Și nenumăratele modalități de a achiziționa date, cu senzori, cu microfoane, cu scannare și cu taste, ceea ce conduce la ideia că oricine va fi posesorul unor colecții de date care fără nicio dificultate să intre în categpria de BG DATA ca prelucrări.
Pentru a vedea legăturile dintre două variabile, fără BIG DATA se calculează coeficientul de corelație.
Cu BIG DATA se procedează astfel:

  • se iau cele două variabile X și Y;
  • se ordonează elementele colectivității duă una dintre variabile;
  • se extrag toate elementele care au aceeași valoare Yk;
  • se calculează media și dispersia  Xmed, Dx;
  • se procedează așa pentru restul;
  • se aplică testul de egalitate a dispersiilor;
  • dacă se demonstrează că dispersiile sunt statistic egale o fi vreo legătură;
  • dacă dispersiile nu sunt statistic egal nu prea este vreo legătură,
Chestia cu cercetătorii britanici care evidențiază cele mai trăznite ipoteze folosește BIG DATA. dacă se dorește să se verifice ipoteza că bărbații cu ochi albaștri se casătoresc la vârste fragede  se procedează astfel:

  • din baza de date cu vreo 300 milioane de articole ce conțin pe lângă tot felul de date despre bărbații planetei se extrag X = vârsta la momentul căsătoriei și Y = culoarea ochilor;
  • se sortează cele două serii după culoarea ochilor;
  • se extrag submulțimi după culoarea ochilor;
  • se calculează medii și dispersii pentru X la toate submulțimile extrase;
  • se analizează reprezentativitatea mediilor prin teste statistice;
  • se testează dispersiile pentru a vedea dacă submulțimile sunt omogene;
  • dacă sunt omogene se trece la pasul următor, dacă nu se conchide că o astfel de ipoteză nu-și are rostul;
  • dacă dispersia pentru Y = albaștri este foarte mică si dacă media  variabilei X este cea mai mică, înseamnă că submulțimea bărbaților cu ochi albaști verifică ipoteza presupusă.
Având milioane de articole, se încearcă tot felul de ipoteze până se găsește una care se verifică perfect statistic. Acele rafinări generate prin introducerea de tot felul de filtre miroase cu crearea mediului ideal din mecanica lui Newton în care frecarea este nulă, materialele sunt perfect omogene și tot așa.  BIG DAT se utilizează și pentru a verifica cele mai trăznite ipoteze, dar trebuie măsurători pentru milioane de elemente sau evenimente. Achizițiile de date sunt esențiale aici că nu stă nimeni să introducă de la tastatură informații despre tot felul de ciudățenii.



(18 mai 2016)

No comments:

Post a Comment