Metody wielowymiarowe - Statgraphics Technology, Inc. - Statgraphics Centurion

Metody wielowymiarowe pozwalają na analizę struktury powiązań i współzależności występujących między wieloma zmiennymi. Analiza tego typu sprowadza się zwykle do redukcji lub uproszczenia struktury danych, klasyfikacji zmiennych lub obiektów do określonych grup, identyfikacji współzależności pomiędzy zmiennymi, przewidywaniu związków zachodzących pomiędzy zmiennymi oraz konstrukcji i testowania hipotez. Metody zawarte w opisywanym module obejmują pięć grup analiz: analizę taksonomiczną, analizę czynnikową, analizę głównych składowych, analizę dyskryminacyjną oraz analizę kanoniczną. W przypadku technik wielowymiarowej analizy danych bardzo ważną rzeczą jest dobra znajomość możliwości i ograniczeń stosowanych metod. Jest to szczególnie ważne z punktu widzenia poprawności interpretacji uzyskanych wyników numerycznych.

Analiza taksonomiczna

Metoda ta służy do identyfikacji oraz charakterystyki grup obserwacji lub zmiennych charakteryzujących się podobieństwem. Jest szeroko wykorzystywana m. in. w zagadnieniach ekonomicznych, biologicznych, psychologicznych, socjologicznych. Analiza tego typu obejmuje trzy fazy: podział obserwacji lub obiektów na grupy, interpretację grup oraz ich charakterystykę. W pierwszej fazie należy dokonać wyboru algorytmu klasyfikacji danych oraz określić liczbę grup. Przy przeprowadzaniu analizy taksonomicznej są stosowane procedury hierarchiczne i niehierarchiczne. Metody hierarchiczne mogą z kolei być aglomeracyjne lub podziałowe. W pierwszym przypadku punktem wyjścia są pojedyncze obserwacje z których każda tworzy oddzielną grupę. W kolejnych krokach następuje łączenie obserwacji najbardziej podobnych pod względem przyjętej metryki odległości. W ten sposób następuje redukcja liczby grup. Proces łączenia może być przerwany w dowolnym momencie. Tworzenie grup w metodach podziałowych przebiega w odwrotnym kierunku. Program STATGRAPHICS Centurion 18 umożliwia stosowanie metody najbliższego sąsiedztwa, najdalszego sąsiedztwa, metody centroidu, mediany, średniej grupowej oraz metody Warda. W fazie interpretacji powstałym grupom jest nadawana nazwa, najlepiej odzwierciedlająca charakter obserwacji lub zmiennych tworzących oddzielne grupy. W ostatnim etapie analizy podawane są charakterystyki grup.

Analiza czynnikowa

Głównym celem analizy czynnikowej jest redukcja zbioru zmiennych, opisujących dane zjawisko lub proces przy jak najmniejszej utracie informacji. Redukcja pozwala zwykle na wyodrębnienie mniej licznego zestawu czynników, które w sensie matematycznym stanowią kombinację liniową zmiennych wyjściowych. Czynniki są wielkościami, które nie są bezpośrednio obserwowane. Często jednak na podstawie charakteru zmiennych najmocniej skorelowanych z czynnikami udaje się nadać im określoną interpretację merytoryczną. Do wyodrębniania ładunków czynnikowych (wielkości charakteryzujących wkład zmiennych pierwotnych do określonych czynników) stosowane są dwie metody: czynników wspólnych oraz składowych głównych. Po estymacji wielkości ładunków czynnikowych dokonywana jest zwykle ich rotacja, której celem jest ułatwienie merytorycznej interpretacji wyodrębnionych czynników wspólnych. Program oferuje w tym względzie trzy techniki: Quatrimax, Varimax oraz Equimax.

Analiza głównych składowych

Jest to metoda zbliżona do poprzednio wspomnianej. Główna różnica polega na tym, że wyodrębnione składniki są nawzajem nieskorelowane. Często kilka pierwszych składowych tłumaczy od 70 do 90% wariancji wspólnej zbioru zmiennych wyjściowych. W takim przypadku warto ją zastosować do wstępnej analizy przed zastosowaniem innych metod statystycznej analizy danych, np. analizy regresji lub analizy dyskryminacyjnej.

Analiza dyskryminacyjna

Jest to technika statystycznej analizy danych przeznaczona do klasyfikacji obiektów do uprzednio zdefiniowanych grup na podstawie określonych funkcji, nazywanych funkcjami dyskryminacyjnymi. Pozwala również wyodrębnić zbiór zmiennych pozwalających dokonywać najlepszą dyskryminację nowych obiektów. Może być także stosowana do testowania hipotezy o równości średnich grupowych w przypadku wielu grup. Zastosowanie i interpretacja wyników otrzymywanych w analizie dyskryminacyjnej jest podobna do analizy regresji. Najistotniejsza różnica polega na tym, że w przypadku tej drugiej zmienna zależna ma charakter ilościowy podczas gdy w analizie dyskryminacyjnej zmienna zależna jest zmienną skategoryzowaną.

Analiza kanoniczna

Jest to metoda służąca do badania zależności występujących pomiędzy dwoma zbiorami zmiennych. Jest uogólnieniem metody regresji wielorakiej. Głównym celem jest uchwycenie relacji pomiędzy zbiorami zmiennych poprzez znalezienie małej liczby kombinacji liniowych w każdym zbiorze. Powstałe w ten sposób zmienne kanoniczne mają tę własność, że są parami skorelowane (zwłaszcza kilka pierwszych par) natomiast korelacje pomiędzy zmiennymi kanonicznymi w obrębie poszczególnych zbiorów są zerowe. Moduł Metody Wielowymiarowe zawiera ponadto procedury pozwalające na tworzenie i operowanie na macierzach danych.

drukuj

« powrót