8. Tétel

A leíró statisztika jellemzői, diagramok. Nevezetes középértékek.

Teljes és alapos kidolgozás az emelt szintű matematika érettségi szóbeli vizsgájára. Ez a tétel áttekinti a nagy adathalmazok vizsgálatának módszereit, az adatok ábrázolását (fókuszálva a sodrófa diagramra), a szóródási mutatókat, valamint a nevezetes középértékek (számtani, mértani, harmonikus, négyzetes) definícióit és a köztük lévő egyenlőtlenségek bizonyítását.

A leíró statisztika alapfogalmai

A statisztika a valóság tömeges jelenségeinek megfigyelésével, az adatok gyűjtésével, rendszerezésével és elemzésével foglalkozó tudomány. A leíró statisztika célja a meglévő adathalmazok tömör jellemzése, strukturálása és vizuális megjelenítése anélkül, hogy valószínűségszámítási modellekre (pl. konfidenciaintervallumokra) támaszkodva általánosítana egy nagyobb sokaságra.

Alapvető fogalmak:

  • Statisztikai sokaság (populáció): A vizsgált egyedek, elemek összessége.
  • Minta: A sokaságból kiválasztott elemek halmaza. Ahhoz, hogy a mintából reális következtetéseket lehessen levonni, a mintavételnek reprezentatívnak és véletlenszerűnek kell lennie.
  • Ismérv: A sokaság egyedeinek vizsgált tulajdonsága (pl. testmagasság, fizetés, hajszín). Az ismérv lehet minőségi (kategóriák) vagy mennyiségi (számszerűsíthető).
  • Gyakoriság és relatív gyakoriság: A gyakoriság ($f_i$) megmutatja, hogy egy adott ismérvérték hányszor fordul elő a mintában. A relatív gyakoriság ($p_i$) ennek aránya a minta teljes $N$ elemszámához viszonyítva: $p_i = \frac{f_i}{N}$.
  • Osztályba sorolás: Folytonos vagy nagy elemszámú adathalmaz esetén az adatokat diszjunkt intervallumokba (osztályokba) soroljuk a könnyebb kezelhetőség érdekében.

Adatok ábrázolása: Diagramok

A vizualizáció elengedhetetlen a nagy adathalmazok megértéséhez. A választott diagramtípusnak igazodnia kell az ismérv jellegéhez és a bemutatni kívánt összefüggéshez.

  • Oszlop- és sávdiagram: Az ismérvértékekhez tartozó gyakoriságokat oszlopok magasságával (vagy hosszával) szemlélteti. Kategóriális adatok összehasonlítására ideális.
  • Kördiagram: A relatív gyakoriságokat egy kör körcikkeiként ábrázolja (egy teljességet alkotó részek arányainak bemutatása). A középponti szög $\alpha_i = p_i \cdot 360^\circ$.
  • Hisztogram: Folytonos, osztályközös gyakorisági sorok ábrázolására szolgál. A téglalapok területe arányos a gyakorisággal (nem csak a magasságuk!).

A sodrófa diagram (Box-plot)

Emelt szinten kiemelt fontosságú a box-plot, amely az adatok eloszlását öt fontos mutató alapján ábrázolja, és kiválóan alkalmas adathalmazok összehasonlítására:

  1. A minta minimuma ($X_{min}$).
  2. Az alsó kvartilis ($Q_1$): az adatok alsó 25%-át választja el.
  3. A medián ($Q_2$): a középső érték, amely az adatokat két egyenlő részre osztja.
  4. A felső kvartilis ($Q_3$): az adatok alsó 75%-át választja el.
  5. A minta maximuma ($X_{max}$).

A "doboz" a $Q_1$ és $Q_3$ közötti tartomány, amely a középső 50% elhelyezkedését mutatja. Ezt a szélességet hívjuk kvartilisek közötti terjedelemnek (IQR). A kiugró értékeket (outliereket) gyakran külön pontként ábrázolják a "bajuszokon" (whiskers) túl.

Statisztikai közép- és szóródási mutatók

A vizuális ábrázolás mellett numerikus jellemzőket is használunk az adathalmazok sűrítésére.

Helyzeti mutatók (Hol csoportosulnak az adatok?):

  • Módusz: A mintában a leggyakrabban előforduló ismérvérték (vagy osztályközös adatoknál a leggyakoribb osztály). Lehet több módusz is.
  • Medián: A nagyság szerint sorba rendezett adatok középső értéke. Páros elemszám esetén a két középső érték számtani közepe. Előnye, hogy érzéketlen a kiugró, extrém értékekre.

Szóródási mutatók (Milyen messze vannak az adatok a középértéktől?):

  • Terjedelem (Range): A legnagyobb és a legkisebb adat különbsége: $R = X_{max} - X_{min}$.
  • Átlagos abszolút eltérés (emelt szint): Az adatok átlagtól vett távolságainak számtani közepe: $$ \delta = \frac{\sum_{i=1}^{n} |x_i - \bar{x}|}{n} $$
  • Szórás (Standard deviation): A leggyakrabban használt szóródási mutató. Az adatok átlagtól vett eltéréseinek négyzetes közepe. A szórásnégyzetet varianciának nevezzük. $$ \sigma = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n}} $$

Nevezetes középértékek és egyenlőtlenségeik

A középértékek olyan számok, amelyek egy adathalmaz "közepét" hivatottak reprezentálni. Ha $a_1, a_2, \dots, a_n \in \mathbb{R}^+$, akkor egy $K$ értéket akkor nevezünk az adatok középértékének, ha teljesül rá a Cauchy-féle belső pont tulajdonság: $\min(a_i) \le K \le \max(a_i)$.

  • Számtani közép (Aritmetikai): $A_n = \frac{a_1 + a_2 + \dots + a_n}{n}$ (Emelt szinten vizsgálandó ennek súlyozott verziója is).
  • Mértani közép (Geometriai): $G_n = \sqrt[n]{a_1 \cdot a_2 \cdot \dots \cdot a_n}$ (Olyan folyamatok átlagos ütemének számítására jó, ahol a növekedések szorzódnak, pl. kamatos kamat, infláció).
  • Harmonikus közép: $H_n = \frac{n}{\frac{1}{a_1} + \frac{1}{a_2} + \dots + \frac{1}{a_n}}$ (Gyakran használjuk átlagsebesség számításakor azonos utak megtétele esetén).
  • Négyzetes közép (Kvadratikus): $Q_n = \sqrt{\frac{a_1^2 + a_2^2 + \dots + a_n^2}{n}}$ (Fizikában gyakori, pl. váltakozó áram effektív értéke, és a szórás képletében is ez a mechanizmus jelenik meg).
Tétel: Középértékek közötti egyenlőtlenség

Bármely pozitív valós számokból álló adathalmaz esetén a nevezetes középértékek között az alábbi nagyságrendi viszony áll fenn:

$$ H_n \le G_n \le A_n \le Q_n $$

Egyenlőség akkor és csak akkor teljesül, ha minden $a_i$ egyenlő egymással ($a_1 = a_2 = \dots = a_n$).

Bizonyítás: A számtani és mértani közép egyenlőtlensége 2 elemre

Az emelt érettségi konkrét követelménye az $A \ge G$ bizonyítása $n=2$ esetre. Legyen $a, b \in \mathbb{R}^+$. Bizonyítandó, hogy:

$$ \frac{a+b}{2} \ge \sqrt{ab} $$

Induljunk ki egy triviálisan igaz állításból: bármely valós szám négyzete nemnegatív. Írjuk fel ezt a $\sqrt{a}$ és $\sqrt{b}$ különbségére (mivel $a$ és $b$ pozitívok, létezik valós négyzetgyökük):

$$ (\sqrt{a} - \sqrt{b})^2 \ge 0 $$

Bontsuk ki a zárójelet a nevezetes azonosság alapján:

$$ a - 2\sqrt{ab} + b \ge 0 $$

Rendezzük át az egyenlőtlenséget, adva mindkét oldalhoz $2\sqrt{ab}$-t:

$$ a + b \ge 2\sqrt{ab} $$

Végül osszuk el mindkét oldalt 2-vel (mivel 2 pozitív, az egyenlőtlenség iránya marad):

$$ \frac{a+b}{2} \ge \sqrt{ab} $$

A bizonyítást ezzel befejeztük (Q.E.D.). Látható, hogy egyenlőség ($=$) pontosan akkor áll fenn, ha az induló négyzetes kifejezés nulla, azaz $\sqrt{a} = \sqrt{b}$, tehát ha $a = b$.

Alkalmazások és Matematikatörténet

Matematikatörténet:

  • A "statisztika" szó a latin status (állam) szóból származik. Eredetileg az államigazgatás számára fontos adatok (népszámlálás, adóbevételek, katonaállítás) gyűjtését jelentette.
  • John Graunt (1620–1674) londoni kereskedő tekinthető a demográfia és a statisztika egyik atyjának, aki a londoni halálozási jegyzékeket (Bills of Mortality) elemezve elsőként próbált meg trendeket és életben maradási valószínűségeket modellezni.
  • Florence Nightingale (1820–1910) krími háborús ápolónő nem csak az egészségügyet reformálta meg, hanem a statisztikai diagramok (pl. a rózsadiagram, ami a kördiagram egy speciális fajtája) úttörője is volt. Ezen diagramok segítségével bizonyította be a politikusoknak, hogy a katonák többsége nem a csatatéren, hanem a tábori kórházak rossz higiéniás körülményei miatt hal meg.

Gyakorlati alkalmazások:

  • Biztosítási matematika (Aktuáriusok): A biztosítótársaságok a statisztikai eloszlások és a várható értékek (átlagok), valamint szóródások alapján számítják ki az életbiztosítások és gépjármű-biztosítások díjait.
  • Minőség-ellenőrzés: A gyártósorokon folyamatosan statisztikai mintavételt végeznek. Ha egy alkatrész méretének szórása túllép egy megengedett küszöbértéket (pl. a Six Sigma módszertanban), az azt jelzi, hogy a gép meghibásodott és kalibrálásra szorul.
  • Extrémérték-elemzés és Kvartilisek: A sodrófa diagram és az interkvartilis terjedelem kiváló a kiugró adatok kiszűrésére, amit a pénzügyi szektorban csalásdetektálásra (fraud detection), a meteorológiában pedig az időjárási anomáliák azonosítására használnak.