Přirozeným návrhem, jak se vypořádat s neúplnými údaji, je doplnit je vložením náhrad za chybějící hodnoty. Tato strategie se nazývá imputace. Protože díky ní jsou data úplná, po imputování chybějících hodnot se nemusíme starat o žádné mezery a můžeme pokračovat v analýze dat jakýmkoli způsobem. Například po doplnění hodnot za chybějící věk v tabulce 6 můžeme velmi jednoduše vypočítat průměrný věk všech deseti osob ve vzorku.
Tento přístup však zní podezřele jako vymýšlení dat – a pokud nechceme být obviněni z podvodu, musíme si dobře rozmyslet, jak to provedeme.
Navíc je jedna věc, jde-li u nepozorovaných hodnot o NDN /Zcela náhodně chybějící údaje, na datech nezávislé/, ale zcela jiná, jde-li o VZD /Náhodně chybějící údaje, viditelně závislá data, zkráceně VZD/ nebo, ještě hůře, o NZD /Neopominutelně chybějící údaje, neviděně závislá data/.
Jsou-li chybějící data VZD, budeme chtít, aby naše imputované hodnoty závisely na aspektech pozorovaných dat. Pokud jsou chybějícími hodnotami NZD, řeknou nám pozorovaná data jen málo o tom, jaké by měly být imputované hodnoty – a zapojení nevhodných hodnot by mohlo vést k zavádějícím celkovým výsledkům. Jedním z důvodů, proč imputace chybějících hodnot dokáže analýzu často zjednodušit, je skutečnost, že mnoho statistických metod se zakládá na rovnováze a symetrii v datech. Radil jsem například výrobci vstřikovaných plastových autodílů, který chtěl zjistit, jaká kombinace úrovní tří faktorů – teploty, tlaku a času ve formě – by přinesla nejkvalitnější výrobek.
Měly se vyzkoušet dvě úrovně teploty, dvě úrovně tlaku a dvě úrovně času (ve skutečnosti se zkoumaly víc než dvě úrovně, ale pro zjednodušení zde uvedu dvě a nazvu je vysoká a nízká úroveň pro každý faktor). Při dvou úrovních pro každý faktor existuje celkem osm kombinací: všechny tři na vysoké úrovni, první dvě vysoké a třetí nízká atd. Výrobce provedl několik výrobních sérií při každé z těchto osmi kombinací a každá výrobní série přinesla hotový díl, jehož kvalitu bylo možné posoudit.
Pokud se při podobných experimentech vyrábí stejný počet dílů při každé kombinaci tří faktorů, lze výsledky získat pomocí vhodných matematických vzorců. Analýza je však obtížnější tehdy, vyrobí-li se při různých kombinacích různý počet dílů vozu. Zejména bylo-li cílem původního návrhu mít takto vyvážený počet případů se stejným počtem v každé kombinaci faktorů, ale některé hodnoty chybějí (např. výpadek proudu narušil některé běhy výrobního procesu), pak se situace stává nevyváženou. To může analýzu značně zkomplikovat a vyžádat si složitější výpočty. Je zřejmé, že velmi přitažlivá je zde myšlenka zapojit náhradní hodnoty k obnovení vyváženosti dat.
Imputace hodnot za chybějící pozorování je užitečná, je však vcelku zřejmé, že budeme-li úlohu opakovat s různými zapojenými hodnotami, obdržíme různé výsledky (vzpomeňte si na obrat „vymýšlení dat“). Vzhledem k tomu, že motivací pro dosazování hodnot je jednoduše usnadnění výpočtu a nezkreslování výsledků, můžeme se pokusit najít takové dosazované hodnoty, aby jednoduchý výpočet založený na vyvážených doplněných datech dával stejné výsledky jako dlouhý a složitý výpočet za užití pouze neúplných dat.
Myšlenka to je lákavá a v některých jednoduchých situacích je realizovatelná, zdá se však, že je to trochu zacyklené: jak najít ty kritické hodnoty zásuvných modulů, které neovlivní výsledky, aniž bychom v první řadě provedli delší výpočet? K této otázce se vrátíme později, kdy uvidíme, že snaha ji zodpovědět může vést k hlubokému poznání toho, co se v datech děje. Nejprve se však podrobněji podíváme na základní přístupy k imputacím.
Průměrná imputace
Jedním z běžných přístupů k imputaci je možnost nahradit chybějící hodnoty průměrem hodnot zaznamenaných. Tři neznámé hodnoty věku v tabulce 6 bychom tedy mohli nahradit průměrem sedmi známých hodnot.
Tato velmi jednoduchá strategie je skutečně snadno dostupná v mnoha softwarových balíčcích pro analýzu dat. Nepochybně jste však již vůči takovým jednoduchým strategiím pro zvládání temných dat nabyli jistou skepsi a přemýšlíte o tom, co by na tomto přístupu mohlo být špatně. Na jeden z možných problémů narážíme neustále: pokud se chybějící hodnoty nějakým způsobem systematicky liší od ostatních, nahrazení těchto chybějících hodnot průměrem ostatních by mohlo být zavádějící. Například pokud jsou tři lidé, jejichž věk chybí, starší než ostatních sedm, nebylo by dobré nahradit jejich věk průměrem ostatních sedmi. Toto řešení by tedy bylo v pořádku, pokud by chybějící údaje byly NDN, ale jinak by mohlo vést k problémům.
S imputací pomocí průměru však bohužel máme ještě další problém. Obvykle je krajně nepravděpodobné, že by všechny chybějící hodnoty byly skutečně totožné, pokud by byly změřeny. To znamená, že dosazením stejné hodnoty za všechny chybějící hodnoty se „doplněná“ data uměle homogenizují.
…
Vícenásobná imputace
Již jsme viděli, že jedním ze zjevných problémů imputace je to, že opakování úlohy s použitím různých imputovaných hodnot povede k různým výsledkům. Ve skutečnosti toho však můžeme využít.
Každý doplněný soubor údajů představuje možnou konfiguraci dat, kterou šlo pozorovat. Souhrnná statistika vypočtená z takového doplněného souboru dat představuje možnou hodnotu této statistiky, kterou by šlo získat, kdyby data byla úplná. To znamená, že pokud imputaci opakujeme vícekrát s použitím různých imputovaných hodnot, získáme distribuci hodnot souhrnné statistiky, jednu pro každý možný doplněný soubor dat.
Z tohoto rozdělení můžeme odhadnout různé parametry, například nejistotu či rozptyl souhrnné statistiky. To znamená, že namísto pouhého zisku jediného „nejlepšího odhadu“ nyní získáme i míru toho, s jakou jistotou můžeme předpokládat, že nabývá různých možných hodnot. Tato strategie opakování imputace se vcelku rozumně označuje jako imputace vícenásobná. Stala se velmi rozšířeným nástrojem pro řešení problémů s chybějícími údaji.
Tento text je úryvkem z knihy
David J. Hand: Temná data. Proč záleží na tom, co nevíme
Academia 2023
O knize na stránkách vydavatele