Mis on klastrianalüüs. Klastrite eesmärgid soovituste andmiseks. Klastrianalüüsi mõistmine

Sageli peame kõige erinevamates tegevusvaldkondades tegelema tohutu hulga üksustega, mille osas me peame tegutsema.

Ja me ei suuda isegi kogu seda köidet mõista, rääkimata sellest, et seda mõista.

Mis on väljapääs? Noh, muidugi, "pange kõik riiulitele". Sel juhul omandab rahvatarkus täpselt määratletud teadusliku sõnastuse.

Klasteranalüüs on objektide uurimine, ühendades need sarnaste omadustega homogeensetesse rühmadesse. Tema meetodid on sõna otseses mõttes rakendatavad kõigis valdkondades: meditsiinist Forexi kauplemiseni, autokindlustusest arheoloogiani. Ja turundajate ja personalispetsialistide jaoks on see lihtsalt asendamatu.

Lisateavet selle kohta artiklis.

Mis on klaster

Klasteranalüüs on loodud objektide kogumi jagamiseks homogeenseteks rühmadeks (klastrid või klassid). See on mitmemõõtmeline andmete klassifitseerimise ülesanne.


Seal on umbes 100 erinevat klastrialgoritmi, kuid kõige sagedamini kasutatakse:

  1. hierarhiline klastrianalüüs,
  2. k-tähendab klastrite moodustamist.

Klasteranalüüsi rakendamisel:

  • Turunduses on see konkurentide ja tarbijate segmenteerimine.
  • Juhtimises:
    1. personali jaotamine erineva motivatsiooniga rühmadesse,
    2. tarnijate klassifikatsioon,
    3. abielu sõlmimise sarnaste tootmisolukordade tuvastamine.
  • Meditsiinis - sümptomite, patsientide, ravimite klassifikatsioon.
  • Sotsioloogias vastajate jagunemine homogeensetesse rühmadesse.

Tegelikult on klastrianalüüs ennast hästi tõestanud kõigis inimelu valdkondades. Selle meetodi ilu on see, et see töötab ka siis, kui andmeid on vähe ja juhuslike muutujate normaaljaotuste nõuded ning muud klassikalise statistilise analüüsi meetodite nõuded ei ole täidetud.

Selgitame klastrianalüüsi olemust ilma ranget terminoloogiat kasutamata.

Oletame, et olete läbi viinud töötajate küsitluse ja soovite välja selgitada, kuidas saaksite oma personali kõige tõhusamalt juhtida. See tähendab, et soovite jagada oma töötajad rühmadesse ja määrata nende jaoks kõige tõhusamad juhtimishoovad. Samal ajal peaksid rühmade vahelised erinevused olema ilmsed ja grupisiseselt peaksid vastajad olema võimalikult sarnased.

Probleemi lahendamiseks tehakse ettepanek kasutada hierarhilist klastrianalüüsi. Selle tulemusena saame puu, mida vaadates peame kindlaks määrama, mitu klassi (klastrit) soovime töötajad jagada. Oletame, et otsustasime jagada töötajad kolme rühma ja seejärel igasse klastrisse langenud vastajate uurimiseks saame umbes järgmise sisuga tabeli:


Selgitagem, kuidas ülaltoodud tabel moodustub. Esimene veerg sisaldab klastri numbrit - rühma, mille andmed kajastuvad real. Näiteks on esimene klaster 80% mehi. 90% esimesest klastrist kuulub vanuserühma 30-50 ja 12% vastanutest arvab, et hüvitised on väga olulised. Ja nii edasi.

Proovime koostada igas klastris vastajate portreed:

  1. Esimene rühm - enamasti küpses eas mehed, kes hõivavad juhtpositsioone. Sotsiaalpakett (MED, LGOTI, TIME-free time) neid ei huvita. Nad eelistavad saada pigem head palka kui tööandjalt abi.
  2. Teine rühm eelistab vastupidi sotsiaalset paketti. See koosneb peamiselt "vanuses" inimestest, kellel on madalad positsioonid. Palk on nende jaoks kindlasti oluline, kuid prioriteete on ka teisi.
  3. Kolmas rühm on noorim. Erinevalt kahest eelmisest on selge huvi õppimise ja karjäärivõimaluste vastu. Sellel töötajate kategoorial on head võimalused peagi esimesse gruppi astuda.

Seega on personalijuhtimise tõhusate meetodite tutvustamise kampaania kavandamisel ilmne, et meie olukorras on võimalik teise palga arvelt näiteks sotsiaalpaketti tõsta teise rühma jaoks. Kui räägime, millised spetsialistid tuleks koolitusele saata, siis võime kindlasti soovitada tähelepanu pöörata kolmandale rühmale.

Allikas: "nickart.spb.ru"

Klasteranalüüs on turu mõistmise võti

Klaster on vara hind teatud ajaperioodil, mille jooksul tehinguid tehti. Sellest tulenevat ostude ja müügi mahtu tähistab klastri number. Iga TF riba sisaldab tavaliselt mitut klastrit. See võimaldab teil üksikasjalikult näha ostude mahtusid, müüke ja nende saldot igas ribas ja igas hinnatasemes.


Klastrigraafiku koostamine

Ühe vara hinna muutus toob paratamatult kaasa teiste instrumentide hinnaliikumiste ahela. Enamasti tekib arusaam trendiliikumisest juba sel hetkel, kui see kiiresti areneb ning turule sisenemine mööda suundumust on täis korrigeerivasse lainesse langemist.

Eduka kauplemise jaoks peate mõistma hetkeolukorda ja suutma tulevasi hinnaliikumisi ette näha. Selle saate teada klastrigraafi analüüsides. Klastrianalüüsi abil on turuosaliste aktiivsust näha ka kõige väiksemas hinnaribas.

See on kõige täpsem ja üksikasjalikum analüüs, kuna see näitab tehingu mahtude jaotust punkti iga vara hinnataseme kohta. Turg seisab pidevalt silmitsi ostjate ja müüjate huvidega. Ja iga väiksemgi hinnaliikumine (linnuke) on liikumine kompromissile - hinnatasemele -, mis sobib praegu mõlemale poolele.

Kuid turg on dünaamiline, ostjate ja müüjate arv muutub pidevalt. Kui ühel ajahetkel domineerisid turul müüjad, siis järgmisel hetkel leidub tõenäoliselt ostjaid. Lõpetatud tehingute arv naaberhinnatasemetel pole samuti sama.

Ja ometi peegeldub turuolukord alguses tehingute kogumahus ja alles seejärel hinnas. Kui näeme domineerivate turuosaliste (müüjate või ostjate) tegevust, siis võib hinnaliikumist ennast ennustada.

Klastrianalüüsi edukaks rakendamiseks peate kõigepealt mõistma, mis on klaster ja delta:

  • Klaster on hinnaliikumine, mis jaguneb tasemeteks, kus tehti teadaolevate mahtudega tehinguid.
  • Delta näitab erinevust igas klastris toimuva ostu ja müügi vahel.


Klastri graafik

Iga klaster või delta rühm võimaldab teil mõista, kas ostjad või müüjad domineerivad turul teatud ajahetkel. Piisab, kui arvutada kogu delta kokku müügi ja ostu kokku liites. Kui delta on negatiivne, siis müüakse turg üle ja müügitehingud on sellel liiga suured. Kui delta on positiivne, domineerivad turul selgelt ostjad.

Delta ise võib omandada normaal- või kriitilise väärtuse. Klastris normaalset ületava delta mahu väärtus on esile tõstetud punasega. Kui delta on mõõdukas, siis iseloomustab see turu tasast seisundit. Normaalse delta väärtuse korral täheldatakse turul trendiliikumist, kuid kriitiline väärtus on alati hinna ümberpööramise kuulutaja.

Forexi kauplemine CA-ga

Maksimaalse kasumi saamiseks peate suutma kindlaks määrata delta ülemineku mõõdukalt tasemelt tavalisele. Tõepoolest, sel juhul võite märgata ülemineku algust tasapinnalt trendiliikumisele ja saada suurimat kasumit.

Klasterdiagramm on illustreerivam; sellel näete märkimisväärset mahtude kogunemise ja jaotumise taset, tugi- ja vastupanu taset.

See võimaldab kauplejal leida täpne sisenemine kauplemisse. Deltat kasutades saab hinnata müügi või ostu levimust turul. Klasteranalüüs võimaldab teil vaadata tehinguid ja jälgida nende mahtu mis tahes TF-i ribas. See on eriti oluline, kui lähenete olulisele toe või vastupanu tasemele. Klastrite otsused on turu mõistmiseks võtmetähtsusega.

Allikas: "orderflowtrading.ru"

Klasteranalüüsi rakendamise valdkonnad ja tunnused

Klasteranalüüsi mõiste (esmakordselt kasutusele proovinud Tryon, 1939) hõlmab tegelikult erinevaid klassifitseerimisalgoritme. Mitmete valdkondade teadlaste tavaline küsimus on, kuidas korraldada jälgitavad andmed visuaalseteks struktuurideks, s.t. laiendada taksonoomiaid.

Näiteks on bioloogide eesmärk jagada loomad erinevateks liikideks, et nende vahelisi erinevusi sisukalt kirjeldada. Bioloogias omaks võetud kaasaegse süsteemi kohaselt kuuluvad inimesed primaatide, imetajate, lootevee, selgroogsete ja loomade hulka.

Pange tähele, et selles klassifikatsioonis on kõrgem liitmise tase, seda väiksem on sarnasuse vastava klassi liikmete sarnasus. Inimene sarnaneb rohkem teiste primaatidega (st ahvidega) kui imetajate perekonna “kaugete” liikmetega (nt koerad) jne.

Pange tähele, et eelmine arutelu viitab klastrialgoritmidele, kuid statistilise olulisuse testimise kohta ei mainita midagi. Tegelikult pole klastrianalüüs mitte niivõrd tavapärane statistiline meetod, kuivõrd erinevate algoritmide „komplekt” objektide klastritesse jaotamiseks.

On seisukoht, et erinevalt paljudest teistest statistilistest protseduuridest kasutatakse klastrianalüüsi meetodeid enamikul juhtudel, kui teil pole klasside kohta a priori hüpoteese, kuid olete siiski uurimistöö kirjeldavas etapis. Tuleb mõista, et klastrianalüüs tuvastab "võimalikult olulise otsuse".

Seetõttu ei ole statistilise olulisuse testimine siin tegelikult rakendatav, isegi juhtudel, kui p-tasemed on teada (nagu näiteks K tähendab meetodit).

Klastritehnikat kasutatakse väga erinevates valdkondades. Hartigan (1975) on andnud suurepärase ülevaate paljudest klasteranalüüsi tulemusi sisaldavatest avaldatud uuringutest. Näiteks meditsiini valdkonnas põhjustab haiguste klastrite moodustamine, haiguste ravi või haigusnähud laialt levinud taksonoomiateni.

Psühhiaatria valdkonnas on eduka teraapia jaoks ülioluline selliste sümptomite klastrite õige diagnoosimine nagu paranoia, skisofreenia jne. Arheoloogias püüavad teadlased klastrianalüüsi abil luua kivist tööriistade, matmisobjektide jne taksonoomiaid.

Klastrianalüüsi on turundusuuringutes laialdaselt rakendatud. Üldiselt on alati, kui teabe "mäed" on vaja klassifitseerida edasiseks töötlemiseks sobivatesse rühmadesse, klastrianalüüs väga kasulik ja tõhus.

Puude rühmitamine

Liitumisalgoritmi (puude klastrite) eesmärk on ühendada objektid (näiteks loomad) piisavalt suurteks klastriteks, kasutades objektide vahel teatavat sarnasuse või kauguse mõõdikut. Sellise klastrite tüüpiline tulemus on hierarhiline puu.

Mõelge horisontaalsele puu skeemile. Diagramm algab klassi kõigi objektidega (skeemi vasakul küljel). Kujutame nüüd ette, et järk-järgult (väga väikeste sammudega) "nõrgendate" oma kriteeriumit selle kohta, millised objektid on ainulaadsed ja millised mitte. Teisisõnu, langetate kahe või enama objekti üheks klastriks ühendamise otsuse künnist.


Selle tulemusena ühendate järjest rohkem objekte ja koondate (kombineerite) üha uusi klastreid üha erinevatest elementidest. Lõpuks liidetakse viimases etapis kõik objektid omavahel.

Nendes diagrammides tähistavad horisontaalteljed liitumiskaugust (vertikaaltelgede diagrammides tähistavad vertikaalteljed liitumiskaugust). Seega näete graafiku iga sõlme (kus moodustub uus klaster) kaugust, mille jaoks vastavad elemendid on ühendatud uude ühtsesse klastrisse.

Kui andmetel on üksteisega sarnaste objektide klastrite osas selge "struktuur", siis tõenäoliselt kajastub see struktuur hierarhilises puus erinevate harude kaupa. Kombineerimismeetodil eduka analüüsi tulemusena saab klastreid (harusid) tuvastada ja neid tõlgendada.

Kauguse mõõdud

Objektide erinevuse või kauguse klastrite moodustamisel kasutatakse liidu või puu klastrimeetodit. Neid kaugusi saab määratleda ühemõõtmelises või mitmemõõtmelises ruumis. Näiteks kui peate kohvikus rühmitama toidutüüpe, võite arvestada selles sisalduvate kalorite arvu, hinda, subjektiivset maitset jms.

Kõige otsesem viis objektide vaheliste kauguste arvutamiseks mitmemõõtmelises ruumis on Eukleidese kauguste arvutamine. Kui teil on kahe- või kolmemõõtmeline ruum, siis see mõõdik on reaalne geomeetriline kaugus objektide vahel ruumis (nagu mõõdetaks objektidevahelisi kaugusi mõõdulindiga).

Kombineeriv algoritm ei hooli aga sellest, kas selleks ette nähtud "vahemaad" on reaalsed või mõni muu tuletatud kaugusemõõt, mis on teadlasele mõttekam; ja teadlaste ülesanne on leida konkreetse rakenduse jaoks õige meetod.

  1. Eukleidese kaugus.
  2. Tundub, et see on kõige levinum distantsitüüp. See on lihtsalt geomeetriline kaugus mitmemõõtmelises ruumis ja arvutatakse järgmiselt:

    Pange tähele, et Eukleidese kaugus (ja selle ruut) arvutatakse algandmete, mitte standardiseeritud andmete põhjal. See on tavaline selle arvutamise viis, millel on teatud eelised (näiteks ei muutu kahe objekti vaheline kaugus, kui analüüsisse lisatakse uus objekt, mis võib olla ka väljapoole jääv).

    Kuid kaugusi võivad tugevalt mõjutada erinevused telgede vahel, mille põhjal vahemaad arvutatakse.

    Näiteks kui üks telgedest mõõdetakse sentimeetrites ja teisendate selle siis millimeetriteks (korrutades väärtused 10-ga), siis koordinaatide abil arvutatud lõplik eukleidiline kaugus (või Eukleidese kauguse ruut) muutub oluliselt ja selle tulemusel klastri tulemused analüüsid võivad olla eelmistest väga erinevad.

  3. Eukleidese kaugus ruudus.
  4. Mõnikord võiksite ruutida standardse Eukleidese kauguse, et anda üksteisele kaugematele objektidele suurem kaal. See kaugus arvutatakse järgmiselt:

  5. Linnaosade kaugus (Manhattani kaugus).
  6. See kaugus on lihtsalt koordinaatide erinevuste keskmine. Enamasti viib see kauguse mõõtmine samade tulemusteni kui tavalise Eukleidese kauguse korral.

    Pange siiski tähele, et selle mõõtme korral üksikute suurte erinevuste (väljaarvamiste) mõju väheneb (kuna need ei ole ruudud). Manhattani kaugus arvutatakse järgmise valemi abil:

  7. Tšebõševi kaugus.
  8. See kaugus võib olla kasulik, kui soovite määratleda kaks objekti "erinevana", kui need erinevad ühe koordinaadi (ükskõik millise dimensiooni) poolest. Tšebõševi kaugus arvutatakse järgmise valemi abil:

  9. Võimsuskaugus.

    Mõnikord soovitakse järk-järgult suurendada või vähendada kaalu, mis on seotud dimensiooniga, mille puhul vastavad objektid erinevad. Seda saab saavutada võimsusseaduse kauguse abil. Võimsuskaugus arvutatakse järgmise valemi abil:

    kus r ja p on kasutaja määratud parameetrid.

    Mõni arvutusnäide võib näidata, kuidas see meede "töötab":

    • Parameeter p vastutab üksikute koordinaatide erinevuste järkjärgulise kaalumise eest.
    • Parameeter r vastutab objektide vaheliste suurte vahemaade järkjärgulise kaalumise eest.
    • Kui mõlemad parameetrid - r ja p on võrdsed kahega, langeb see kaugus kokku Eukleidese kaugusega.
  10. Erimeelsuste protsent.
  11. Seda mõõdet kasutatakse juhul, kui andmed on kategoorilised. See kaugus arvutatakse järgmise valemi abil:

Assotsieerimis- või linkimisreeglid

Esimeses etapis, kui iga objekt on eraldi klaster, määratakse valitud mõõtmete abil nende objektide vahelised kaugused. Kui aga mitu objekti omavahel ühendada, tekib küsimus, kuidas tuleks klastrite vahelised kaugused kindlaks määrata?

Teisisõnu vajate kahe klastri jaoks liidu- või lingireeglit. Siin on erinevaid võimalusi: näiteks võite kaks klastrit omavahel siduda, kui mis tahes kaks objekti kahes klastris on üksteisele lähemal kui vastav linkide kaugus.

Teisisõnu kasutate klastrite vahelise kauguse määramiseks "lähima naabri reeglit"; seda meetodit nimetatakse ühe lingi meetodiks. See reegel ehitab "kiulisi" klastreid, st. klastrid, mis on "ühendatud" ainult üksikute elementide abil, mis on juhtumisi üksteisele lähemal kui teised.

Teise võimalusena võite kasutada naabreid üksteisest kaugemal asuvates klastrites. Seda meetodit nimetatakse täielikuks sidumismeetodiks. Samuti on palju muid arutlusele sarnaseid klastrimeetodeid.

  • Üksik link (lähima naabri meetod).
  • Nagu eespool kirjeldatud, määratakse selles meetodis kahe klastri vaheline kaugus kahe klastri kahe lähima objekti (lähimate naabrite) vahel.

    See reegel peaks teatud mõttes objektid klastrite moodustamiseks kokku stringima ja sellest tulenevad klastrid kipuvad olema pikad "ahelad".

  • Täielik suhtlus (kaugemate naabrite meetod).
  • Selles meetodis määratakse klastrite vaheline kaugus kahe klastri kahe tunnuse (st "kõige kaugemate naabrite") suurima kauguse järgi.

    See meetod töötab tavaliselt väga hästi, kui objektid pärinevad tegelikult erinevatest “saludest”.

    Kui klastrid on mõnevõrra pikliku kujuga või nende loomulikuks tüübiks on "kett", siis pole see meetod sobiv.

  • Kaalumata paaris keskmine.
  • Selles meetodis arvutatakse kahe erineva klastri vaheline kaugus kõigi nendes paiknevate objektide paaride keskmise kaugusena. Meetod on efektiivne siis, kui objektid moodustavad tegelikult erinevad “salud”, kuid see toimib võrdselt hästi ka laiendatud (“ahelatüüpi”) klastrite korral.

    Pange tähele, et Sneath ja Sokal (1973) tutvustavad oma raamatus lühendit UPGMA, et viidata sellele meetodile kaalumata paarirühmade meetodina, kasutades aritmeetilisi keskmisi.

  • Kaalutud paaris keskmine.
  • Meetod on identne kaalumata paaris keskmise meetodiga, välja arvatud see, et arvutuste kaalutegurina kasutatakse vastavate klastrite suurust (st neis sisalduvate objektide arvu). Seetõttu tuleks kavandatavat meetodit kasutada juhul, kui eeldatakse klastrite ebavõrdset suurust.

    Sneathi ja Sokali (1973) raamatus on sisse toodud lühend WPGMA, mis viitab sellele meetodile kui kaalutud paarirühmade meetodile, kasutades aritmeetilisi keskmisi.

  • Kaalumata tsentroidmeetod.
  • Selles meetodis määratletakse kahe klastri vaheline kaugus nende raskuskeskmete vahelisest kaugusest.

    Sneath ja Sokal (1973) kasutavad lühendit UPGMC, et viidata sellele meetodile kaalumata paarirühma meetodina, kasutades tsentroidi keskmist.

  • Kaalutud tsentroidmeetod (mediaan).
  • See meetod on identne eelmisega, välja arvatud see, et arvutustes kasutatakse kaalusid klastri suuruste (st objektides olevate objektide arvu) erinevuse arvestamiseks.

    Seega, kui klastrite suuruses on (või kahtlustatakse) olulisi erinevusi, on see meetod eelistatum kui eelmine.

    Sneath ja Sokal (1973) kasutasid lühendit WPGMC, et viidata sellele kui kaalutud paarirühma meetodile, kasutades tsentroidi keskmist.

  • Wardi meetod.
  • See meetod erineb kõigist teistest meetoditest, kuna see kasutab klastrite vaheliste kauguste hindamiseks ANOVA tehnikaid. Meetod minimeerib ruutide summa (SS) kahe (hüpoteetilise) klastri jaoks, mida saab igal etapil moodustada.

    Üksikasju võib leida Wardi (1963) tööst. Üldiselt näib meetod olevat väga tõhus, kuid see kipub looma väikesi klastreid.

Kahesuunaline liit

Seda tehnikat käsitleti varem rühmitamist vajavate "objektide" osas. Kõigis muud tüüpi analüüsides väljendatakse uurijat huvitavat küsimust tavaliselt vaatluste või muutujatena. Selgub, et klasterdamine võib nii vaatlemise kui ka muutujate abil viia üsna huvitavate tulemusteni.

Kujutage näiteks ette, et meditsiiniteadlane kogub andmeid südamehaigusega patsientide (vaatluste) erinevate omaduste (muutujate) kohta. Teadlane võib soovida klastrivaatlusi (patsiente), et tuvastada sarnaste sümptomitega patsientide klastreid.

Samal ajal võib teadlane soovida muutujate klastreid, et tuvastada muutujate klastreid, mis on seotud sarnase füüsilise seisundiga. Pärast seda arutelu selle üle, kas klasterida vaatlusi või muutujaid, võib küsida, miks mitte kobarata mõlemas suunas?

Klastri analüüsi moodul sisaldab just selleks tõhusat kahepoolset liitumisprotseduuri. Kuid kahesuunalist kombineerimist kasutatakse (suhteliselt harva) olukordades, kus eeldatavasti aitavad nii vaatlused kui ka muutujad üheaegselt kaasa tähenduslike klastrite tuvastamisele.

Niisiis, eelmise näite juurde naastes võime eeldada, et meditsiiniteadlane peab tuvastama patsientide klastrid, mis on teatud füüsilise seisundi omaduste klastrite suhtes sarnased.

Raskused saadud tulemuste tõlgendamisel tulenevad asjaolust, et erinevate klastrite sarnasused võivad tuleneda (või põhjustada) muutujate alamhulkade mõningast erinevust. Seetõttu on tekkinud klastrid oma olemuselt heterogeensed.

Esialgu võib see veidi udune tunduda; tegelikult on kahesuunaline kombineerimine võrreldes teiste kirjeldatud klasteranalüüsi meetoditega kõige vähem kasutatav meetod. Kuid mõned teadlased usuvad, et see pakub võimsat uurimisandmete analüüsi tööriista (vt lähemalt Hartigani (1975) selle meetodi kirjeldust).

Meetod K tähendab

See klastrimeetod erineb oluliselt sellistest aglomeratsioonimeetoditest nagu Union (puude klastramine) ja Two-way join. Oletame, et teil on klastrite arvu kohta juba hüpoteese (vaatluste või muutujate järgi).

Võite anda süsteemile käsu luua täpselt kolm klastrit, et need oleksid võimalikult erinevad. See on täpselt seda tüüpi probleem, mille K-tähendab meetodi algoritm lahendab. Üldiselt ehitab K tähendab meetod täpselt K erinevat klastrit, mis asuvad üksteisest võimalikult suurel kaugusel.

Füüsilise seisundi näites võib meditsiiniuurija oma kliinilise kogemuse põhjal arvata, et tema patsiendid jagunevad tavaliselt kolme erinevasse kategooriasse. Järgmisena võib ta soovida teada, kas tema intuitsiooni saab arvuliselt kontrollida, st kas K klastrianalüüs annab tegelikult kolm patsientide klastrit ootuspäraselt?

Kui jah, võimaldavad iga klastri erinevate füüsikaliste parameetrite mõõdikute kvantitatiivne viis uurija hüpoteeside esitamiseks (näiteks 1. klastri patsientidel on kõrge parameeter 1, madalam parameeter 2 jne).

Arvutuslikust vaatenurgast võite mõelda sellele meetodile kui ANOVA-le.

Programm algab K juhuslikult valitud klastriga ja muudab seejärel neile kuuluvad objektid järgmiseks:

  1. minimeerida klastrite varieeruvust,
  2. maksimeerida klastrite vahelist varieeruvust.

See meetod sarnaneb dispersioonanalüüsi pöördanalüüsi (ANOVA) meetodiga selles mõttes, et dispersioonanalüüsi olulisuse test võrdleb hüpoteesi, et rühmade keskmised erinevad üksteisest, rühmade vahelist varieeruvust grupisisese varieeruvusega.

K-Means klastrite korral liigutab programm objekte (s.t vaatlusi) ühest rühmast (klastrist) teise, et dispersioonanalüüsis (ANOVA) saada kõige olulisem tulemus. Tavaliselt, kui on saadud K-keskmise klastrianalüüsi tulemused, saab iga klastri keskmise arvutada iga dimensiooni jaoks, et hinnata klastrite üksteisest erinevust.

Ideaalis peaksite saama enamiku, kui mitte kõigi teie analüüsis kasutatud mõõtmiste jaoks väga erinevaid vahendeid. Iga dimensiooni jaoks saadud F-statistilised väärtused on veel üks näitaja selle kohta, kui hästi vastav dimensioon klastreid diskrimineerib.

Allikas: "biometrica.tomsk.ru"

Objektide klassifitseerimine nende omaduste järgi

Klasteranalüüs on mitmemõõtmeliste statistiliste meetodite kogum objektide klassifitseerimiseks nende iseloomulike tunnuste järgi, objektide kogumi jagamine homogeenseteks rühmadeks, mis on kriteeriumide määratlemise osas lähedased, tuvastades teatud rühma objektid.

Klaster on objektide rühm, mis tuvastatakse klastrianalüüsi tulemusel, mis põhineb objektide täpsustatud sarnasuse või erinevuse mõõdul. Objekt - need on konkreetsed uurimisobjektid, mis tuleb klassifitseerida. Klassifitseeritavad objektid on reeglina vaatlused. Näiteks toodete, riikide või piirkondade, kaupade jms tarbijad.

Ehkki klastrianalüüsi ja muutujaid on võimalik läbi viia. Objektide klassifitseerimine mitmemõõtmelises klastrianalüüsis toimub samaaegselt mitme kriteeriumi järgi. Need võivad olla nii kvantitatiivsed kui ka kategoorilised muutujad, sõltuvalt klastrianalüüsi meetodist. Niisiis, klastrianalüüsi peamine eesmärk on leida valimist sarnaste objektide rühmad.

Klasteranalüüsi mitmemõõtmeliste statistiliste meetodite komplekti võib jagada hierarhilisteks meetoditeks (aglomeratiivsed ja jagavad) ja mittehierarhilisteks (k-keskmine meetod, kaheastmeline klastrianalüüs).

Siiski pole üldtunnustatud meetodite klassifikatsiooni ning otsustuspuude, närvivõrkude, diskrimineerivate analüüside ja logistilise regressiooni konstrueerimise meetodeid nimetatakse mõnikord ka klastrianalüüsi meetoditeks.

Klasteranalüüsi ulatus on selle mitmekülgsuse tõttu väga lai. Klasteranalüüsi kasutatakse majanduses, turunduses, arheoloogias, meditsiinis, psühholoogias, keemias, bioloogias, valitsuses, filoloogias, antropoloogias, sotsioloogias ja teistes valdkondades.

Siin on mõned näited klastrianalüüsi rakendamisest:

  • meditsiin - haiguste klassifikatsioon, nende sümptomid, ravimeetodid, patsiendirühmade klassifitseerimine;
  • turundus - ettevõtte sortimendi optimeerimise ülesanded, turu segmenteerimine kaubagruppide või tarbijate kaupa, potentsiaalse tarbija väljaselgitamine;
  • sotsioloogia - vastajate jagamine homogeensetesse rühmadesse;
  • psühhiaatria - sümptomite rühmade õige diagnoosimine on eduka ravi jaoks ülioluline;
  • bioloogia - organismide klassifitseerimine rühmade kaupa;
  • majandus - raadiosagedusala subjektide liigitamine investeeringute atraktiivsuse järgi.

Allikas: "statmethods.ru"

Klastrianalüüsi mõistmine

Klasteranalüüs sisaldab erinevate klassifikatsioonialgoritmide komplekti. Mitmete valdkondade teadlaste tavaline küsimus on, kuidas vaadeldavad andmed korrastada visuaalseteks struktuurideks.

Näiteks on bioloogide eesmärk jagada loomad erinevateks liikideks, et sisukalt kirjeldada nende vahelisi erinevusi.

Klastrianalüüsi ülesanne on jagada esialgne objektide komplekt sarnaste, lähedaste objektide rühmadeks. Neid rühmi nimetatakse klastriteks.

Teisisõnu, klastrianalüüs on üks viise objektide klassifitseerimiseks nende omaduste järgi. On soovitav, et klassifitseerimise tulemusi tõlgendataks mõistlikult.

Klasteranalüüsimeetodite abil saadud tulemusi kasutatakse paljudes valdkondades:

  1. Turunduses on see konkurentide ja tarbijate segmenteerimine.
  2. Psühhiaatrias on eduka teraapia jaoks ülioluline selliste sümptomite nagu paranoia, skisofreenia jms diagnoosimine.
  3. Juhtimisel on oluline klassifitseerida tarnijad, tuvastada sarnased tootmisolukorrad, kus defektid ilmnevad.
  4. Sotsioloogias vastajate jagunemine homogeensetesse rühmadesse.
  5. Portfelliinvesteeringute tegemisel on oluline rühmitada väärtpaberid vastavalt nende sarnasusele tootlustrendiga, et aktsiaturu kohta saadud teabe põhjal koostada optimaalne investeerimisportfell, mis maksimeerib investeeringutasuvuse teatud riskiastme korral.

Tegelikult on klastrianalüüs ennast hästi tõestanud kõigis inimelu valdkondades. Üldiselt osutub klasteranalüüs alati kasulikuks ja tõhusaks alati, kui on vaja klassifitseerida suur osa sellist laadi teavet ja esitada see edasiseks töötlemiseks sobival kujul.

Klasteranalüüs võimaldab arvestada üsna suure hulga teabega ja tihendada tihedaid sotsiaalmajanduslikke andmeid, muutes need kompaktseks ja visuaalseks.

Klasteranalüüs on majandusarengut iseloomustavate aegridade agregaatide (näiteks üldise majandus- ja toorolukorra) osas väga oluline.

Siin on võimalik välja tuua perioodid, mil vastavate näitajate väärtused olid piisavalt lähedal, samuti määrata aegridade rühmad, mille dünaamika on kõige sarnasem. Sotsiaalmajandusliku prognoosimise ülesannetes on klastrianalüüsi kombineerimine teiste kvantitatiivsete meetoditega (näiteks regressioonanalüüsiga) väga paljutõotav.

Eelised ja puudused

Klasteranalüüs võimaldab objektiivselt klassifitseerida kõiki objekte, mida iseloomustavad mitmed tunnused. Sellest võib saada mitmeid eeliseid:

  • Saadud klastreid saab tõlgendada, st kirjeldada, millised rühmad tegelikult eksisteerivad.
  • Üksikud klastrid saab ära visata. See on kasulik juhtudel, kui andmekogumis tehti teatud vigu, mille tagajärjel üksikute objektide näitajate väärtused järsult kõrvale kalduvad. Klasteranalüüsi kasutamisel langevad sellised objektid eraldi klastrisse.
  • Edasiseks analüüsiks saab valida ainult need klastrid, millel on huvipakkuvad omadused.

Nagu igal teisel meetodil, on ka klastrianalüüsil teatud puudused ja piirangud. Eriti:

  1. klastrite koosseis ja arv sõltub valitud jaotuskriteeriumidest,
  2. algse andmemassiivi vähendamisel kompaktsemale vormile võivad tekkida teatud moonutused,
  3. üksikute objektide individuaalsed omadused võivad kaduma minna, kuna need asendatakse klastri parameetrite üldistatud väärtuste omadustega.

Meetodid

Praegu on teada üle saja erineva klastrialgoritmi. Nende mitmekesisust ei seleta mitte ainult erinevad arvutusmeetodid, vaid ka erinevad klastrite aluseks olevad mõisted. Soovitusi konkreetse klastrimeetodi valimiseks saab anda ainult üldiselt ja peamine valikukriteerium on tulemuse praktiline kasulikkus.

Statistica pakett rakendab järgmisi klastrimeetodeid:

  • Hierarhilised algoritmid - puude rühmitamine. Hierarhilised algoritmid põhinevad järjestikuse klastrite ideel. Esialgses etapis käsitletakse iga objekti eraldi klastrina. Järgmises etapis ühendatakse mõned üksteisele lähimad klastrid eraldi klastriks.
  • K-tähendab meetodit. See on kõige sagedamini kasutatav meetod. See kuulub klastrianalüüsi nn võrdlusmeetodite rühma. Klastrite arvu K määrab kasutaja.
  • Kahe sisendiga liitumine. Selle meetodi kasutamisel toimub klastreerimine samaaegselt nii muutujate (veerud) kui ka vaatlustulemuste (read) abil.

Kahepoolne liitumisprotseduur viiakse läbi juhtudel, kui võib eeldada, et muutujate ja vaatluste samaaegne klasterdamine annab sisukaid tulemusi.

Protseduuri tulemused on kirjeldav statistika muutujate ja vaatluste kohta ning kahemõõtmeline värvikaart, mis värvib andmete väärtusi. Värvide jaotuse abil saate aimu homogeensetest rühmadest.

Muutujate normaliseerimine

Esialgse esemekomplekti jagamine klastriteks on seotud objektide vaheliste kauguste arvutamise ja objektide valimisega, mille vaheline kaugus on kõigist võimalikest väikseim. Kõige sagedamini kasutatav meile kõigile tuttav eukleidiline (geomeetriline) kaugus. See mõõdik vastab intuitiivsele ideele objektide lähedusest ruumis (nagu mõõdetaks objektide vahekaugusi mõõdulindiga).

Kuid antud mõõdiku puhul võivad objektide vahelist kaugust tugevalt mõjutada muutused skaalades (mõõtühikud). Näiteks kui üks tunnustest mõõdetakse millimeetrites ja seejärel teisendatakse selle väärtus sentimeetriteks, muutub objektide vaheline eukleidiline kaugus suuresti. See toob kaasa asjaolu, et klastrianalüüsi tulemused võivad eelmistest oluliselt erineda.

Kui muutujaid mõõdetakse erinevates mõõtühikutes, siis on vajalik nende esialgne normaliseerimine, see tähendab algandmete teisendamine, mis muudab need mõõtmeteta suurusteks.

Normaliseerimine moonutab oluliselt algse ruumi geomeetriat, mis võib muuta klastrite tulemusi. Statistica paketis on kõik muutujad x normaliseeritud järgmise valemi abil:

Selleks paremklõpsake muutuja nimel ja valige avanevast menüüst käskude jada: Täida / Standardiseeri plokk / Standardi veerge. Normaliseeritud muutuja väärtused muutuvad nulliks ja dispersioon üheks.

K-Means meetod statistikas

K-tähendab meetodit, mis jagab objektide hulga etteantud arvuks K erinevaks klastriks, mis asuvad üksteisest võimalikult suurel kaugusel. Tavaliselt saab pärast K-Means klastrianalüüsi tulemuste saamist arvutada iga dimensiooni iga klastri keskmised, et hinnata klastrite üksteisest erinevust.

Ideaalis peaksite saama enamiku analüüsis kasutatud mõõtmiste jaoks väga erinevaid vahendeid. Iga dimensiooni jaoks saadud F-statistilised väärtused on veel üks näitaja selle kohta, kui hästi vastav dimensioon klastreid diskrimineerib.

Näitena võib tuua ettevõtte 17 töötaja uuringu tulemused rahulolu kohta teenistuskarjääri kvaliteedinäitajatega. Tabel annab vastused küsimustiku küsimustele kümnepalliskaalal (1 - minimaalne punkt, 10 - maksimaalne).

Muutujate nimed vastavad vastustele järgmistele küsimustele:

  1. SLC - kombinatsioon isiklikest eesmärkidest ja organisatsioonilistest eesmärkidest;
  2. CCA - õigluse tunne palgas;
  3. TBD - maja territoriaalne lähedus;
  4. SEB - majanduse heaolu tunne;
  5. KR - karjääri kasv;
  6. ZhSR - soov vahetada töökohta;
  7. OSB - sotsiaalse heaolu tunne.


Nende andmete abil on vaja jagada töötajad rühmadesse ja igaühe jaoks välja selgitada kõige tõhusamad kontrollkangid. Samal ajal peaksid rühmade vahelised erinevused olema ilmsed ja grupisiseselt peaksid vastajad olema võimalikult sarnased.

Praeguseks annab enamik sotsioloogilisi küsitlusi ainult protsendi häältest: arvestatakse enamuse positiivselt vastanute või rahulolematute osakaaluga, kuid seda küsimust ei käsitleta süstemaatiliselt. Enamasti ei näita uuring olukorra muutumise trendi.

Klasteranalüüsi protseduure saab kasutada uuringuandmete põhjal, et tuvastada funktsioonide mõned tõeliselt olemasolevad seosed ja genereerida nende põhjal nende tüpoloogia. Sotsioloogi a priori hüpoteeside olemasolu klastrianalüüsi protseduuridega töötamisel ei ole vajalik tingimus.

Statistikas tehakse klastrianalüüs järgmiselt.

  1. Looge andmefail.
  2. Valige moodul Statistika / Mitmemõõtmeline uurimisvõte / Klastrianalüüs. Klõpsake nuppu OK, mille tulemusena kuvatakse dialoogiboks:

  3. Valige kuvatavas aknas K-klastrite meetod ja klõpsake nuppu OK.
  4. Ilmuvas dialoogiboksis määrake järgmised sätted:


    • Valige muutujad nupuga Muutujad.
    • Valige klastrite objektid: need võivad olla muutujad - veerud (muutujad veerud) või vaatlused - read (juhtumid (read)). Esmalt klastrime ridade kaupa (Juhtumid (read)).
    • Valige klastrite arv.
      Selle valiku teeb kasutaja, lähtudes enda eeldustest sarnaste objektide rühmade arvu kohta.

      Klastrite arvu valimisel juhinduge järgmisest:

      1. Võimaluse korral ei tohiks klastrite arv olla liiga suur.
      2. Selle klastri objektide ühendamise kaugus peaks võimaluse korral olema palju väiksem kui kaugus, mille juures selle klastriga on ühendatud midagi muud.
      Klastrite arvu valimisel tehakse kõige sagedamini mitu õiget otsust korraga. Meid huvitab näiteks see, kuidas korreleeruvad vastused tavatöötajate ja ettevõtte juhtkonna küsimustike küsimustele. Seetõttu valime K \u003d 2. Edasiseks segmentimiseks saate klastrite arvu suurendada.
    • Järgmisena peate valima objektide esialgse jaotuse klastriteks (esialgsed klastrikeskused). Statistica pakub:
      1. vali vaatlused klastrikeskuste maksimaalse kaugusega;
      2. sorteeri vahemaad ja vali vaatlused korrapäraste ajavahemike järel (vaikeseade);
      3. võtke esimesed keskuste vaatlused ja kinnitage ülejäänud objektid neile.

      Esimene võimalus sobib meie eesmärkidel.

Paljud klastrialgoritmid "kehtestavad" andmestruktuure, mis pole neile omased, ja moonutavad uurijat. Seetõttu on hädavajalik rakendada mitut klastrianalüüsi algoritmi ja teha järeldused algoritmide tulemuste üldise hinnangu põhjal.

Analüüsi tulemusi saab vaadata kuvatavas dialoogiboksis:

Vahekaardi Keskmiste graafik valimine joonistab klastrikeskuste koordinaadid:


Iga selle graafiku katkendlik joon vastab ühele klastrist:

  • Iga graafiku horisontaaltelje jagunemine vastab ühele analüüsis sisalduvale muutujale.
  • Vertikaaltelg vastab igas kobaras sisalduvate objektide muutujate keskmistele väärtustele.

Võib märkida, et kahe inimgrupi suhtumises oma karjääri on pea kõigis küsimustes märkimisväärsed erinevused. Täielik üksmeel on ainult ühes küsimuses - sotsiaalse heaolu (OSB) või õigemini selle puudumise mõttes (2,5 punkti kümnest).

Võib arvata, et:

  1. 1. klaster näitab töötajaid,
  2. klaster 2 - käsiraamat:
    • Juhid on rohkem rahul karjääri kujundamise (CR), isiklike eesmärkide ja organisatsiooniliste eesmärkide (SLC) kombinatsiooniga.
    • Neil on kõrgem majanduslik heaolu (SEW) ja palgakapital (WCO).
    • Territoriaalne kodu lähedus (LDP) muretseb neid vähem kui töötajaid, tõenäoliselt väiksemate transpordiprobleemide tõttu.
    • Samuti on juhtidel vähem soovi töökohta vahetada (WSR).

Hoolimata asjaolust, et töötajad jagunevad kahte kategooriasse, vastavad nad enamusele küsimustest suhteliselt sarnaselt. Teisisõnu, kui midagi ei sobi üldisele töötajate rühmale, ei sobi see sama ka tippjuhtkonnale ja vastupidi.

Graafikute joondamine võimaldab järeldada, et ühe rühma heaolu mõjutab teise heaolu.

1. klaster pole rahul territoriaalse kodulähedusega. See rühm on peamine osa töötajatest, kes tulevad ettevõttesse peamiselt linna erinevatest osadest. Sellest tulenevalt võite paluda peamisel juhtkonnal suunata osa kasumist ettevõtte töötajate eluaseme ehitamiseks.

Olulisi erinevusi on näha kahe inimrühma suhtumises oma karjääri:

  1. Neil töötajatel, kes on rahul karjäärikasvuga, kellel on isiklikel eesmärkidel ja organisatsiooni eesmärkidel suur kokkusattumus, pole soovi töökohta vahetada ja nad tunnevad end oma töö tulemustega rahul.
  2. Ja vastupidi, töötajad, kes soovivad töökohta vahetada ja pole rahul oma töö tulemustega, ei ole märgitud näitajatega rahul.

Tippjuhtkond peaks pöörama erilist tähelepanu hetkeolukorrale.

Iga omaduse dispersioonitulemuste kuvamiseks klõpsake nuppu Varianalüüs.

Kuvatud:

  • objektide klastrikeskustest kõrvalekalde ruutude summa (SS Within),
  • klastrite keskpunktide vaheliste kõrvalekallete ruutude summa (SS Between),
  • f-statistilised väärtused,
  • olulisuse tasemed lk.
Meie näitel on kahe muutuja olulisuse tasemed vaatluste vähese arvu tõttu üsna kõrged. Uuringu täisversioonis, mille võib leida töös, lükatakse hüpoteesid klasterkeskuste keskmiste võrdsuse kohta alla olulisuse tasemele alla 0,01.

Nupul Salvesta klassifikatsioonid ja kaugused kuvatakse igasse klastrisse kuuluvate objektide numbrid ja objektide kaugused iga klastri keskpunktini.

Iga klastri koostis ja objektide kaugus keskmest

Tabelis on toodud juhtumite numbrid (CASE_NO), mis moodustavad klastrid koos klastrite numbritega ja kaugus iga klastri keskmest (DISTANCE).

Teavet objektide klastritele kuulumise kohta saab faili kirjutada ja kasutada edasises analüüsis. Selles näites näitas saadud tulemuste võrdlus küsimustikega, et 1. klaster koosneb peamiselt tavalistest töötajatest ja 2. klaster juhtidest.

Seega võib märkida, et uuringutulemuste töötlemisel osutus klastrianalüüs võimsaks meetodiks, mis võimaldab teha järeldusi, milleni ei saa jõuda keskmiste histogrammi koostamise või tööelu kvaliteedi erinevate näitajatega rahulolijate protsendi arvutamise teel.

Puude rühmitamine on näide hierarhilisest algoritmist, mille põhimõte seisneb järjestikuses ühendamises klastriks, kõigepealt lähimate ja seejärel üksteisest järjest kaugemate elementidena. Enamik neist algoritmidest pärineb sarnasuse (kauguse) maatriksist ja iga üksikut elementi peetakse alguses eraldi klastriks.

Pärast klastrianalüüsi mooduli laadimist ja valiku Liitumine (puu klastrite) valimist saab klastrite parameetrite sisestusaknas muuta järgmisi parameetreid:

  1. Algandmed (sisend). Need võivad olla uuritud andmete maatriksi (toorandmed) ja vahemaatriksite (kaugusmaatriks) kujul.
  2. Objekti olekut kirjeldavate vaatluste (juhtumid (toores)) või muutujate (muutuja (veerud)) klasterdamine.
  3. Kauguse mõõt. Siin saate valida järgmised meetmed:
    • eukleidese kaugused,
    • ruudukujulised Eukleidese vahemaad,
    • linnaplokkide kaugus (Manhattani kaugus, linnabloki (Manhattani) kaugus), Tšebõtševi kauguse mõõdik,
    • võimuseaduse kaugus (võim ...;),
    • erimeelsuste protsent
  4. Klastrimeetod (ühendamise (sidumise) reegel).
    Siin on võimalikud järgmised valikud:
    • üks sidumine (lähima naabri meetod) (ühe sideme meetod),
    • täielik seos (kõige kaugemate naabrite meetod),
    • kaalumata paarirühma keskmine,
    • kaalutud paarirühma keskmine,
    • kaalumata paarirühma tsentroid,
    • kaalutud paarirühma tsentroid (mediaan),
    • wardi meetod.

Klastrite tulemusel ehitatakse horisontaalne või vertikaalne dendrogramm - graafik, millele määratakse objektide ja klastrite vaheline kaugus nende järjestikusel kombineerimisel.

Graafiku puulaadne struktuur võimaldab määratleda klastreid sõltuvalt valitud lävest - antud kaugusest klastrite vahel.

Lisaks kuvatakse kaugusmaatriks; iga lähteobjekti keskmine ja standardhälve (hajutav statistika). Vaadeldava näite jaoks teostame vaikeseadetega muutujate klastrianalüüsi. Saadud dendrogramm on näidatud joonisel:


Dendrogrammi vertikaaltelg on objektide ning objektide ja klastrite vaheline kaugus. Seega on muutujate SEB ja RSD vaheline kaugus viis. Need muutujad ühendatakse esimeses etapis üheks klastriks.

Dendrogrammi horisontaalsed segmendid joonistatakse tasemetele, mis vastavad antud klastrimissammule valitud vahemaade läviväärtustele.

Graafikult on näha, et küsimus „soov töökohta vahetada“ (FSW) moodustab eraldi klastri. Üldiselt külastab soov kõikjale prügimäed kõiki võrdselt. Lisaks on eraldi klaster maja territoriaalse läheduse küsimus (LDP).

Tähtsuse poolest on see teisel kohal, mis kinnitab K-keskmist meetodit kasutava uuringu tulemustest tehtud järeldust elamuehituse vajaduse kohta.

Majandusliku heaolu (SEW) ja palgakapitali (CCA) tunded on ühendatud - see on majandusküsimuste blokk. Kombineeritakse ka karjääri kasv (CR) ning isiklike ja organisatsiooniliste eesmärkide kombinatsioon (WLC).

Muud klastrimeetodid ja muud tüüpi vahemaade valimine ei too kaasa dendrogrammi olulist muutust.

tulemused

  1. Klasteranalüüs on võimas tööriist uurimuslikuks andmete analüüsiks ja statistilisteks uuringuteks igas valdkonnas.
  2. Statistica rakendab klastrianalüüsi nii hierarhilisi kui ka struktuurseid meetodeid. Selle statistikapaketi eelised tulenevad nende graafilisest võimekusest. Esitatakse saadud klastrite kahemõõtmelised ja kolmemõõtmelised graafilised kujutised uuritavate muutujate ruumis ning objektide rühmitamise hierarhilise protseduuri tulemused.
  3. On vaja rakendada mitut klastrianalüüsi algoritmi ja teha järeldused algoritmide tulemuste üldhinnangu põhjal.
  4. Klastrianalüüsi võib lugeda edukaks, kui seda tehakse erineval viisil, võrreldakse tulemusi ja leitakse üldisi mustreid ning leitakse stabiilseid klastreid, sõltumata klastrimeetodist.
  5. Klastrianalüüs võimaldab teil tuvastada probleemolukordi ja visandada nende lahendamise viisid. Seetõttu võib seda mitteparameetrilise statistika meetodit pidada süsteemianalüüsi lahutamatuks osaks.

Random Forest on üks minu lemmik andmekaevamise algoritme. Esiteks on see uskumatult mitmekülgne, seda saab kasutada nii regressiooni kui ka klassifitseerimise probleemide lahendamiseks. Otsige kõrvalekaldeid ja valige ennustajad. Teiseks on see algoritm, mida on tõesti raske valesti rakendada. Lihtsalt sellepärast, et erinevalt teistest algoritmidest on sellel vähe konfigureeritavaid parameetreid. See on ka oma sisult üllatavalt lihtne. Ja samal ajal on see tähelepanuväärne oma täpsuse poolest.

Mis on sellise imelise algoritmi idee? Idee on lihtne: oletame, et meil on mõni väga nõrk algoritm, ütleme. Kui me teeme selle nõrga algoritmi abil palju erinevaid mudeleid ja nende prognooside tulemuse keskmistame, on lõpptulemus palju parem. See on nn ansamblikoolitus tegevuses. Juhusliku metsa algoritmi nimetatakse seetõttu "juhuslikuks metsaks", saadud andmete jaoks loob see otsustuspuude kogumi ja keskmistab seejärel nende ennustuste tulemuse. Oluline punkt on siin juhuslikkuse element iga puu loomisel. Lõppude lõpuks on selge, et kui loome palju ühesuguseid puid, on nende keskmistamise tulemus ühe puu täpsus.

Kuidas ta töötab? Oletame, et meil on mõned sisendandmed. Iga veerg vastab mõnele parameetrile, iga rida vastab mõnele andmeelemendile.

Saame juhuslikult valida kogu andmekogumist kindla arvu veerge ja ridu ning nende põhjal ehitada otsustuspuu.


Neljapäev, 10. mai 2012

Neljapäev, 12. jaanuar 2012


See on kõik. 17-tunnine lend on läbi, Venemaa jäetakse välismaale. Ja San Francisco, kuulus Silicon Valley, California, USA, vaatab hubase 2-toalise korteri aknast välja. Jah, see on just põhjus, miks ma pole viimasel ajal peaaegu üldse kirjutanud. Me kolisime.

Kõik algas juba 2011. aasta aprillis, kui tegin Zyngas telefoniintervjuud. Siis tundus see kõik mingisuguse mänguna, millel polnud tegelikkusega midagi pistmist, ja ma ei osanud isegi ette kujutada, mis selle tulemuseks on. 2011. aasta juunis saabus Zynga Moskvasse ja viis läbi rea intervjuusid, kaaluti umbes 60 telefoniintervjuu läbinud kandidaati ja nende hulgast valiti välja umbes 15 inimest (ma ei tea täpset numbrit, keegi muutis hiljem meelt, keegi keeldus kohe). Intervjuu osutus üllatavalt lihtsaks. Programmeerimisprobleeme pole, luukide kuju kohta pole ühtegi keerulist küsimust, enamasti testiti vestlusvõimet. Ja teadmisi hinnati minu arvates ainult pealiskaudselt.

Ja siis algas trikk. Kõigepealt ootasime tulemusi, siis pakkumist, siis LCA heakskiitu, siis viisataotluse kinnitamist, siis USA-st pärit dokumente, siis järjekorda saatkonnas, siis lisakontrolli, siis viisat. Vahel tundus mulle, et olen valmis kõik ära viskama ja skoori tegema. Kohati kahtlesin, kas me seda Ameerikat vajame, pole ju ka Venemaa halb. Kogu protsess võttis aega umbes kuus kuud, selle tulemusena saime detsembri keskel viisad ja hakkasime lahkumiseks valmistuma.

Esmaspäev oli minu esimene tööpäev uues kohas. Kontoris on kõik tingimused mitte ainult töötamiseks, vaid ka elamiseks. Hommiku-, lõuna- ja õhtusöögid meie endi kokkadelt, hunnik erinevaid toite, mis on täidetud kõikjale, jõusaal, massaaž ja isegi juuksur. See kõik on töötajatele täiesti tasuta. Paljud inimesed jõuavad rattaga tööle ja seal on mitu ruumi sõidukite hoidmiseks. Üldiselt pole ma Venemaal midagi sellist kohanud. Kõigel on aga oma hind, meid hoiatati kohe, et peame palju tööd tegema. Mis on nende standardite järgi "palju", pole mulle eriti selge.

Loodetavasti suudan siiski vaatamata töö mahule blogitööd lähitulevikus jätkata ja võib-olla rääkida teile midagi Ameerika elust ja programmeerija tööst Ameerikas. Oota ja vaata. Seniks aga soovin teile kõigile head uut aastat ja jõule ning kohtumiseni!


Kasutamisnäite saamiseks printime välja Venemaa ettevõtete dividenditootluse. Baashinnana võtame aktsia sulgemishinna registri sulgemise päeval. Millegipärast pole seda teavet troika saidil, kuid see on palju huvitavam kui dividendide absoluutväärtused.
Tähelepanu! Koodi täitmine võtab kaua aega, sest iga reklaamikampaania jaoks peate esitama finami serveritele päringu ja saama selle väärtuse.

Tulemus<- NULL for(i in (1:length(divs[,1]))){ d <- divs if (d$Divs>0) (proovige ((jutumärgid<- getSymbols(d$Symbol, src="Finam", from="2010-01-01", auto.assign=FALSE) if (!is.nan(quotes)){ price <- Cl(quotes) if (length(price)>0) (dd<- d$Divs result <- rbind(result, data.frame(d$Symbol, d$Name, d$RegistryDate, as.numeric(dd)/as.numeric(price), stringsAsFactors=FALSE)) } } }, silent=TRUE) } } colnames(result) <- c("Symbol", "Name", "RegistryDate", "Divs") result


Samamoodi saate koostada eelmiste aastate statistikat.

KLASTERANALÜÜS SOTSIAAL-MAJANDUSLIKU PROGNOOSI ÜLESANDES

Klastrianalüüsi sissejuhatus.

Sotsiaalmajanduslike nähtuste analüüsimisel ja ennustamisel seisab uurija sageli silmitsi nende kirjelduse mitmemõõtmelisusega. See juhtub siis, kui lahendatakse turu segmenteerimise probleem, ehitatakse riikide tüpoloogia üsna suure arvu näitajate põhjal, ennustatakse üksikute kaupade turutingimusi, uuritakse ja ennustatakse majanduslangust ja paljusid muid probleeme.

Mitmemõõtmelised analüüsimeetodid on kõige tõhusam kvantitatiivne vahend sotsiaalmajanduslike protsesside uurimiseks, mida kirjeldab suur hulk tunnuseid. Nende hulka kuuluvad klastrianalüüs, taksonoomia, mustrituvastus, faktoranalüüs.

Klasteranalüüs peegeldab kõige selgemini mitmemõõtmelise analüüsi tunnuseid klassifikatsioonis, faktoranalüüsis - kommunikatsiooni uurimisel.

Mõnikord nimetatakse klastrianalüüsi lähenemist kirjanduses numbriliseks taksonoomiaks, numbriliseks klassifikatsiooniks, iseõppimise tuvastamiseks jne.

Klastrianalüüsi esimene rakendus leiti sotsioloogias. Klastrianalüüsi nimetus tuleneb ingliskeelsest sõnast cluster - bunch, cluster. Esimest korda 1939. aastal tuvastas ja kirjeldas klastrianalüüsi uurija Trion. Klastrianalüüsi peamine eesmärk on jagada uuritavate objektide ja tunnuste kogum homogeenseteks rühmadeks või klastriteks sobivas mõttes. See tähendab, et andmete klassifitseerimise ja selles oleva vastava struktuuri tuvastamise ülesanne on lahendatud. Klastrianalüüsi meetodeid saab rakendada mitmel juhul, isegi kui tegemist on lihtsa grupeerimisega, kus kõik taandub kvantitatiivse sarnasuse järgi rühmade moodustamisele.

Klastrianalüüsi suur eelis on see, et see võimaldab objekte jagada mitte ühe parameetri, vaid terve hulga funktsioonide kaupa. Lisaks ei kehtesta klasteranalüüs erinevalt enamikust matemaatilistest ja statistilistest meetoditest mingeid piiranguid vaadeldavate objektide tüübile ja võimaldab kaaluda mitmesuguseid peaaegu meelevaldse iseloomuga lähteandmeid. See on väga oluline näiteks konjunktuuri prognoosimisel, kui näitajad on mitmekesise kujuga, mis muudab traditsiooniliste ökonomeetriliste lähenemisviiside rakendamise keeruliseks.

Klasteranalüüs võimaldab arvestada üsna suure hulga teabega ja järsult vähendada, tihendada suuri sotsiaalmajandusliku teabe massiive, muuta need kompaktseks ja visuaalseks.

Klasteranalüüsil on suur tähtsus seoses majandusarengut iseloomustavate aegridade kogumitega (näiteks üldine majandus- ja toorolukord). Siin on võimalik välja tuua perioodid, mil vastavate näitajate väärtused olid piisavalt lähedal, samuti määrata aegridade rühmad, mille dünaamika on kõige sarnasem.

Klasteranalüüsi saab kasutada tsükliliselt. Sel juhul viiakse uuring läbi nõutavate tulemuste saavutamiseni. Pealegi võib iga siinne tsükkel anda teavet, mis võib oluliselt muuta klastrianalüüsi edasise rakendamise suunda ja lähenemisviise. Seda protsessi saab esindada tagasiside süsteemiga.

Sotsiaalmajandusliku prognoosimise ülesannetes on klastrianalüüsi kombineerimine teiste kvantitatiivsete meetoditega (näiteks regressioonanalüüsiga) väga paljutõotav.

Nagu igal teisel meetodil, on klastrianalüüsil teatud puudused ja piirangud: Eelkõige sõltub klastrite koostis ja arv valitud jaotuskriteeriumidest. Algse andmemassiivi vähendamisel kompaktsemale vormile võivad tekkida teatud moonutused ja üksikute objektide üksikud omadused võivad kaduda, kuna need asendatakse klastri parameetrite üldistatud väärtuste omadustega. Objektide klassifitseerimisel eiratakse väga sageli võimalust, et vaadeldavas komplektis pole ühtegi klastriväärtust.

Klastrianalüüsis arvatakse, et:

a) valitud tunnused tunnistavad põhimõtteliselt soovitud jaotuse klastriteks;

b) mõõtühikud (skaala) on õigesti valitud.

Suurt rolli mängib skaala valik. Tavaliselt normaliseeritakse andmed lahutades keskmine ja jagades standardhälbega, nii et dispersioon on üks.

Klastrianalüüsi probleem.

Klastrianalüüsi ülesandeks on jagada objektide hulk G komplektis m (m on täisarv) klastriteks (alamhulkadeks) Q1, Q2, ..., Qm, lähtudes komplektis X sisalduvatest andmetest, nii et iga objekt Gj kuulub ühte ja ainsasse partitsiooni sama alamhulk ja et samasse klastrisse kuuluvad objektid on sarnased, samas kui erinevatesse klastritesse kuuluvad objektid on erinevad.

Näiteks olgu G hõlmatud n riiki, millest ükskõik millist iseloomustab rahvamajanduse kogutoodang elaniku kohta (F1), M-autode arv 1000 inimese kohta (F2), elektritarbimine elaniku kohta (F3), terase tarbimine inimese kohta (F4) jne. Siis on X1 (mõõtevektor) esimese riigi jaoks määratletud omaduste kogum, teise riigi jaoks X2, kolmanda jaoks jne. Väljakutse seisneb riikide jaotamises arengutaseme järgi.

Mingile optimaalsuse kriteeriumile vastavad vaheseinad on lahendus klastrianalüüsi probleemile. See kriteerium võib olla teatud funktsionaalsus, mis väljendab erinevate partitsioonide ja rühmituste soovitavuse taset, mida nimetatakse objektiivseks funktsiooniks. Näiteks võib hälbe ruutude grupisisese summa võtta kui objektiivse funktsiooni:

kus xj - tähistab j-nda objekti mõõtmisi.

Klasteranalüüsi probleemi lahendamiseks on vaja määratleda sarnasuse ja heterogeensuse mõiste.

On selge, et i-s ja j-s objekt langeksid ühte kobarasse, kui punktide Xi ja Xj vaheline kaugus (kaugus) oleks piisavalt väike ja langeks erinevatesse klastritesse, kui see kaugus oleks piisavalt suur. Seega määrab ühte või erinevasse objektikobarasse sattumise Xi ja Xj vahelise kauguse mõiste Ep-st, kus Ep on p-mõõtmeline eukleidiline ruum. Mittegatiivset funktsiooni d (Xi, Xj) nimetatakse kaugusfunktsiooniks (mõõdik), kui:

a) d (Xi, Xj) 3, 0 kõigi Xi ja Xj jaoks Ep-st

b) d (Xi, Xj) \u003d 0 siis ja ainult siis, kui Xi \u003d Xj

c) d (Xi, Xj) \u003d d (Xj, Xi)

d) d (Xi, Xj) £ d (Xi, Xk) + d (Xk, Xj), kus Xj; Xi ja Xk on mis tahes kolm vektorit Ep-st.

Väärtust d (Xi, Xj) Xi ja Xj jaoks nimetatakse Xi ja Xj vaheliseks kauguseks ja see on valitud omaduste (F1, F2, F3, ..., Fр) järgi võrdne Gi ja Gj vahekaugusega.

Kõige sagedamini kasutatavad kaugusfunktsioonid on:

1. Eukleidese kaugus d2 (Xi, Xj) \u003d

2.l1 on norm d1 (Xi, Xj) \u003d

3. Supremum on norm d ¥ (Xi, Xj) \u003d sup

k \u003d 1, 2, ..., lk

4.lp - norm dр (Xi, Xj) \u003d

Eukleidese mõõdik on kõige populaarsem. L1 mõõdikut on kõige lihtsam arvutada. Ülemnorm on hõlpsasti arvutatav ja sisaldab tellimisprotseduuri, samas kui lp-norm hõlmab vahemaade 1, 2, 3, funktsioone.

Olgu n mõõtmist X1, X2, ..., Xn kujutatud suurusega p ´n andmemaatriksina:

Seejärel saab vektorite d (Xi, Xj) paaride vahekaugust kujutada sümmeetrilise kaugusmaatriksina:

Distantsile vastupidine mõiste on objektide sarnasuse mõiste Gi. ja Gj. Mittegatiivset reaalfunktsiooni S (Xi; Xj) \u003d Sij nimetatakse sarnasusmõõduks, kui: väärtust Sij nimetatakse sarnasuse koefitsiendiks.

1.3. Klasteranalüüsi meetodid.

Tänapäeval on klastrianalüüsi palju meetodeid. Peatugem mõnel neist (allpool toodud meetodeid nimetatakse tavaliselt minimaalse dispersiooni meetoditeks).

Olgu X tähelepanekute maatriks: X \u003d (X1, X2, ..., Xu) ja Xi ja Xj vahelise eukleidilise kauguse ruut määratakse valemiga:

1) täielike ühenduste meetod.

Selle meetodi põhiolemus on see, et kahel samasse rühma (klastrisse) kuuluva objekti sarnasuskoefitsient on väiksem kui teatud künnisväärtus S. Eukleidese kauguse d mõttes tähendab see, et klastri kahe punkti (objekti) vaheline kaugus ei tohiks olla ületavad mõnda läviväärtust h. Seega määratleb h klastri moodustava alamhulga maksimaalse lubatud läbimõõdu.

2) maksimaalse kohaliku kauguse meetod.

Iga objekti peetakse ühepunktiliseks klastriks. Objektid rühmitatakse järgmise reegli järgi: kaks klastrit on ühendatud, kui ühe klastri ja teise punktide maksimaalne kaugus on minimaalne. Protseduur koosneb n - 1 etapist ja tulemuseks on partitsioonid, mis langevad kokku kõigi eelmise meetodi võimalike partitsioonidega mis tahes künnisväärtuste korral.

3) Wordi meetod.

Selles meetodis kasutatakse objektiivse funktsioonina rühmasisest hälvete summasummat, mis on midagi muud kui iga punkti (objekti) ja seda objekti sisaldava klastri keskmise ruutude vaheliste kauguste summa. Igal etapil ühendatakse kaks klastrit, mis viivad minimaalse eesmärgifunktsiooni suurenemiseni, s.t. rühmasisene ruutude summa. Selle meetodi eesmärk on kombineerida tihedalt asetsevaid klastreid.

Klasteranalüüs on üks vahendeid majandusprobleemide lahendamiseks. Selle abiga klassifitseeritakse andmekogumi klastrid ja muud objektid rühmadesse. Seda tehnikat saab rakendada Excelis. Vaatame, kuidas seda praktikas tehakse.

Klastrianalüüsi abil on võimalik teha proove vastavalt uuritavale tunnusele. Selle peamine ülesanne on mitmemõõtmelise massiivi jagamine homogeenseteks rühmadeks. Rühmitamise kriteeriumina kasutatakse paarikorrelatsioonikordajat või objektide vahelist Eukleidese kaugust vastavalt antud parameetrile. Väärtused, mis on üksteisele kõige lähemal, on rühmitatud.

Kuigi seda tüüpi analüüse kasutatakse kõige sagedamini majanduses, saab seda kasutada ka bioloogias (loomade klassifitseerimisel), psühholoogias, meditsiinis ja paljudes muudes inimtegevuse valdkondades. Klasteranalüüsi saab rakendada Exceli tööriistade standardkomplekti abil.

Kasutamise näide

Meil on viis objekti, mida iseloomustavad kaks uuritud parameetrit - x ja y.

Klastrianalüüsil on statistikas kahte peamist tüüpi (mõlemad esitatakse SPSS-is): hierarhiline ja k-keskmine. Esimesel juhul määrab automatiseeritud statistiline protseduur sõltumatult klastrite optimaalse arvu ja hulga muid klastri jaoks vajalikke parameetreid

analüüs. Teist tüüpi analüüsil on praktilises rakendamises olulised piirangud - selle jaoks on vaja iseseisvalt kindlaks teha kindlaksmääratud klastrite täpne arv, iga klastri keskuste (tsentroidide) algväärtused ja veel mõni statistika. K-tähendab meetodil analüüsides lahendatakse need probleemid eelnevalt hierarhilise klastrianalüüsi tegemisega ja seejärel selle tulemuste põhjal arvutatakse klastermudel k-keskmise meetodi abil, mis enamikul juhtudel mitte ainult ei lihtsusta, vaid vastupidi raskendab uurija (eriti koolitamata) tööd.

Üldiselt võime öelda, et kuna hierarhiline klastrianalüüs on arvutiriistvara ressursside jaoks väga nõudlik, võeti SPSS-is kasutusele klastrianalüüs k-tähendab meetodiga, et töödelda tingimustes väga suuri andmekogumeid, mis koosnesid tuhandetest tähelepanekutest (vastajad) arvutiseadmete ebapiisav võimsus 1. Turundusuuringutes kasutatavad valimimahud ei ületa enamasti nelja tuhande vastaja piiri. Turundusuuringute praktika näitab, et just klastrianalüüsi esimest tüüpi - hierarhilist - soovitatakse kasutada kõigil juhtudel kõige asjakohasema, universaalsema ja täpsemana. Samas tuleks rõhutada, et klastrianalüüsi läbiviimisel on oluline asjakohaste muutujate valik. See märkus on väga oluline, kuna mitme või isegi ühe ebaolulise muutuja kaasamine analüüsi võib põhjustada kogu statistilise protseduuri ebaõnnestumise.

Klastrianalüüsi läbiviimise metoodikat kirjeldame järgmise näite abil turundusuuringute praktikast.

Esialgsed andmed:

Uuringu käigus küsitleti 745 lennureisijat, kes lendasid ühte 22 Venemaa ja välisriigi lennufirmast. Lennureisijatel paluti hinnata viie palli skaalal - 1 (väga halb) kuni 5 (suurepärane) - lennufirmade maapealse personali töö registreerimisprotsessi ajal seitse parameetrit: viisakus, professionaalsus, tõhusus, abivalmidus, järjekorra kontroll, välimus, töö töötajad üldiselt.

Nõutud:

Segmenteerige uuritavad lennufirmad vastavalt lennureisijate tajutud maapealse personali töö kvaliteedi tasemele.

Nii et meil on andmefail, mis koosneb seitsmest intervallmuutujast, mis tähistavad hinnanguid erinevate lennufirmade maapealse personali kvaliteedile (ql3-ql9), esitatuna ühes viiepalliskaalas. Andmefail sisaldab ühe variandi muutujat q4, mis näitab vastajate valitud lennuettevõtjaid (kokku 22 nime). Viime läbi klasteranalüüsi ja määrame, millistesse sihtgruppidesse saab lennufirma andmeid jagada.

Hierarhiline klastrianalüüs viiakse läbi kahes etapis. Esimese etapi tulemuseks on klastrite (sihtsegmentide) arv, kuhu tuleks jagada küsitletud vastajate valim. Klastrianalüüsi protseduur ise ei ole

saab iseseisvalt määrata klastrite optimaalse arvu. Ta oskab soovitada ainult vajalikku numbrit. Kuna segmentide optimaalse arvu määramise probleem on võtmetähtsusega, lahendatakse see tavaliselt analüüsi eraldi etapis. Teises etapis viiakse vaatluste tegelik klasterdamine läbi vastavalt analüüside esimeses etapis määratud klastrite arvule. Vaatame nüüd klastrianalüüsi neid samme järjekorras.

Klastrianalüüsi protseduur käivitatakse menüü Analüüs\u003e klassifitseerimine\u003e hierarhiline klaster abil. Avanevas dialoogiboksis valige andmefaili kõigi muutujate vasakpoolsest loendist muutujad, mis on segmenteerimiskriteeriumid. Meie puhul on neid seitse ja need tähistavad ql3-ql9 maapealse personali töö parameetrite hinnanguid (joonis 5.44). Põhimõtteliselt piisab klastrianalüüsi esimese etapi läbiviimiseks segmenteerimiskriteeriumide komplekti täpsustamisest.

Joonis: 5.44.

Vaikimisi kuvab SPSS lisaks klastrite moodustumise tulemustega tabelile, mille põhjal määrame nende optimaalse arvu, ka spetsiaalse tagurpidi histogrammi jääpurika, mis programmi loojate sõnul aitab kindlaks määrata klastrite optimaalse arvu; skeemid kuvatakse nupu Plots abil (joonis 5.45). Kui jätate selle parameetri märkimata, kulutame palju aega isegi suhteliselt väikese andmefaili töötlemiseks. Lisaks jääpurikale saate Plots aknas valida kiirema Dendogrammi tulpdiagrammi. Seda esindavad horisontaalsed ribad, mis kajastavad klastrite moodustumise protsessi. Teoreetiliselt aitab see diagramm väikese (kuni 50–100) vastajate arvuga tõepoolest valida vajaliku arvu klastrite jaoks optimaalse lahenduse. Kuid peaaegu kõigis turundusuuringute näidetes ületab valimi suurus seda väärtust. Dendogramm muutub täiesti kasutuks, kuna isegi suhteliselt väheste vaatluste korral on see algandmefailis väga pikk rea numbrite jada, mis on ühendatud horisontaalsete ja vertikaalsete joontega. Enamik SPSS-i õpikuid sisaldab selliste kunstlike, väikeste näidiste klastrianalüüsi näiteid. Selles õpetuses näitame teile, kuidas kõige tõhusamalt SPSS-iga töötada praktilises keskkonnas ja läbi reaalsete turu-uuringute.

Joonis: 5.45.

Nagu oleme kindlaks teinud, ei Icicle ega Dendogram praktiliseks otstarbeks. Seetõttu on dialoogiboksis Hierarhiline klastrianalüüs soovitatav mitte kuvada diagramme, tühistades vaikevaliku Plots valiku Kuva alal, nagu on näidatud joonisel 4. 5.44. Klastrianalüüsi esimeseks etapiks on kõik nüüd valmis. Alustage protseduuri, klõpsates nuppu OK.

Mõne aja pärast kuvatakse tulemused SPSS Vieweri aknas. Nagu eespool mainitud, on analüüsi esimese etapi ainus märkimisväärne tulemus meie jaoks tabelis Keskmine seos (rühmade vahel), mis on näidatud joonisel fig. 5.46. Selle tabeli põhjal peame määrama klastrite optimaalse arvu. Tuleb märkida, et klastrite optimaalse arvu määramiseks pole üht universaalset meetodit. Igal konkreetsel juhul peab teadlane selle numbri ise kindlaks määrama.

Olemasolevate kogemuste põhjal pakub autor selle protsessi jaoks järgmist skeemi. Kõigepealt proovime rakendada klastrite arvu määramiseks kõige tavalisemat standardset meetodit. Tabeli Keskmine seos (rühmade vahel) abil peaksite kindlaks määrama, millises klastri moodustamise protsessi etapis (veerg Stage) toimub esimene suhteliselt suur hüpe aglomeratsioonikoefitsiendis (veerg Koefitsiendid). See hüpe tähendab, et enne seda ühendati üksteisest üsna väikeste vahemaade kaugusel olevad vaatlused klastriteks (meie puhul on analüüsitud parameetrite jaoks sarnase hinnangutasemega vastajad) ja sellest etapist alates ühendatakse kaugemad vaatlused.

Meie puhul suurenevad koefitsiendid sujuvalt 0-lt 7,452-ni, see tähendab, et astmete 1 kuni 728 koefitsientide vahe oli väike (näiteks 728 ja 727 sammu vahel - 0,534). Alates etapist 729 toimub koefitsiendi esimene märkimisväärne hüpe: 7,452-lt 10 364-le (2,912 võrra). Koefitsiendi esimese hüppe samm on 729. Nüüd, klastrite optimaalse arvu kindlaksmääramiseks on vaja saadud väärtus lahutada vaatluste koguarvust (valimi suurus). Valimi kogu suurus on meie puhul 745 inimest; seetõttu on klastrite optimaalne arv 745-729 \u003d 16.


Joonis: 5.46.

Oleme hankinud üsna suure hulga klastreid, mida on tulevikus keeruline tõlgendada. Seetõttu on nüüd vaja uurida tekkinud klastreid ja teha kindlaks, millised neist on olulised ja mida tuleks proovida vähendada. See ülesanne lahendatakse klastrianalüüsi teises etapis.

Avage klastrianalüüsi protseduuri peamine dialoogiboks (Analüüsi\u003e Klassifitseeri\u003e Hierarhiline klaster). Analüüsitavate muutujate väljal on meil juba seitse parameetrit. Klõpsake nuppu Salvesta. Avanenud dialoogiboks (joonis 5.47) võimaldab teil algses andmefailis luua uue muutuja, mis jaotab vastajad sihtgruppidesse. Valige parameeter Single Solution ja määrake vastaval väljal vajalik arv klastreid - 16 (määratud klastrianalüüsi esimeses etapis). Nupul Jätka klõpsamine naaseb peamisesse dialoogiboksi, kus klastri analüüsi protseduuri alustamiseks klõpsake nuppu OK.

Enne klastrianalüüsi kirjelduse jätkamist on vaja esitada teiste parameetrite lühikirjeldus. Nende hulgas on nii kasulikke kui ka tegelikult üleliigseid võimalusi (praktiliste turundusuuringute seisukohalt). Näiteks sisaldab peamine hierarhilise klastri analüüsi dialoogiboks välja Siltide juhtumid välja järgi, kuhu saate soovi korral paigutada vastajaid tuvastava tekstimuutuja. Meie puhul saab nendeks eesmärkideks olla muutuja q4, mis kodeerib vastajate valitud lennuettevõtjaid. Praktikas on raske välja mõelda ratsionaalset selgitust väljade Siltide juhtumid kasutamise kohta, nii et võite selle ohutult alati tühjaks jätta.

Joonis: 5.47.

Klastrianalüüsi tegemisel kasutatakse harva dialoogiboksi Statistika, mida nimetatakse peamise dialoogiboksi samanimelise nupuga. See võimaldab SPSS-i vaatajal kuvada klastri liikmelisuse tabelit, mis kaardistab iga lähteandmefailis oleva vastaja klastri numbrile. Piisavalt suure hulga vastajate korral (peaaegu kõigis turundusuuringute näidetes) muutub see tabel täiesti kasutuks, kuna tegemist on pika väärtuste paaride jadaga "vastaja number / klastri number", mida ei saa sellisel kujul tõlgendada. Klastrianalüüsi tehniline eesmärk on alati luua andmefaili täiendav muutuja, mis kajastaks vastajate jaotust sihtgruppidesse (klastrianalüüsi peamises dialoogiboksis klõpsates nuppu Salvesta). See muutuja koos vastajate numbritega on klastriliikmete tabel. Ainus praktiliselt kasulik parameeter aknas Statistika on tabeli Keskmine seos (rühmade vahel) kuvamine, kuid see on vaikimisi juba määratud. Seetõttu on nupu Statistika kasutamine ja SPSS Vieweris eraldi klastriliikmete tabeli kuvamine ebapraktiline.

Nuppu Graafikud on juba eespool mainitud: see tuleks deaktiveerida, tühistades klastrianalüüsi peamises dialoogiboksis parameetri Plots valiku.

Lisaks nendele klastrianalüüsi protseduuri harva kasutatavatele funktsioonidele pakub SPSS ka väga kasulikke parameetreid. Nende hulgas kõigepealt nupp Salvesta, mis võimaldab teil lähteandmefailis luua uue muutuja, mis jaotab vastajad klastritesse. Samuti on peamises dialoogiboksis rühm klastriobjekti valimiseks: vastajad või muutujad. Seda funktsiooni käsitleti eespool osas 5.4. Esimesel juhul kasutatakse klastrianalüüsi peamiselt vastajate segmenteerimiseks mõne kriteeriumi järgi; teises on klasteranalüüsi eesmärk sarnane faktoranalüüsiga: muutujate klassifitseerimine (arvu vähendamine).

Nagu näha jooniselt fig. 5.44, klastrianalüüsi ainus kaalumata võimalus on statistilise protseduuri läbiviimise meetodi valimise nupp Meetod. Selle parameetriga tehtud katsed võimaldavad klastrite optimaalse arvu määramisel saavutada suuremat täpsust. Selle dialoogiboksi vaikeparameetritega üldvaade on näidatud joonisel fig. 5.48.

Joonis: 5.48.

Esimene asi, mis selles aknas seatakse, on klastrite moodustamise meetod (st vaatluste ühendamine). Kõigi SPSS-i pakutavate võimalike statistiliste meetodite hulgast valige kas vaikimisi rühmadevahelise sidumise meetod või Wardi (Wardi meetod). Esimest meetodit kasutatakse sagedamini selle mitmekülgsuse ja selle aluseks oleva statistilise protseduuri suhtelise lihtsuse tõttu. Selle meetodi kasutamisel arvutatakse klastrite vaheline kaugus kõigi võimalike vaatluspaaride vaheliste vahemaade keskmise väärtusena, kusjuures üks vaatlused ühest klastrist osalevad igas iteratsioonis ja teine \u200b\u200bvaatlusest. Vaatluste vahelise kauguse arvutamiseks vajalik teave leitakse kõigi teoreetiliselt võimalikud vaatluste paarid Wardi meetodit on raskemini mõistetav ja seda kasutatakse harvemini. See koosneb paljudest etappidest ja põhineb iga vaatluse kõigi muutujate väärtuste keskmistamisel ning seejärel arvutatakse iga vaatluse jaoks arvutatud keskmiste ruutude kaugused. Praktiliste probleemide lahendamiseks turundatakse Uute uuringute jaoks soovitame teil alati kasutada grupi vahelist sidumise vaikemeetodit.

Pärast statistilise klastrite protseduuri valimist peate valima vaatluste vaheliste kauguste arvutamise meetodi (dialoogiboksi Meetod ala mõõtmine). Klastrianalüüsis osalevate kolme tüüpi muutujate kauguste määramiseks on erinevad meetodid (segmenteerimiskriteeriumid). Nendel muutujatel võib olla intervall (intervall), nominaalne (loendused) või dihhotoomne (binaarne) skaala. Dihhotoomne skaala (binaarne) tähendab ainult muutujaid, mis kajastavad sündmuse algust / toimumist (ostetud / ostmata, jah / ei jne). Muud tüüpi dihhotoomseid muutujaid (nt mees / naine) tuleks kaaluda ja analüüsida nominaalsena (arvud).

Intervallimuutujate kauguste määramiseks kasutatakse kõige sagedamini ruutu Eukleidese kaugus, mis on vaikimisi. Just see meetod on ennast turundusuuringutes tõestanud kui kõige täpsemat ja mitmekülgsemat. Dihhotoomsete muutujate puhul, kus vaatlusi esitatakse ainult kahe väärtusega (näiteks 0 ja 1), see meetod ei sobi. Fakt on see, et see võtab arvesse ainult sellist tüüpi vaatluste vastastikmõjusid: X \u003d 1, Y \u003d 0 ja X \u003d 0, Y \u003d l (kus X ja Y on muutujad) ega võta arvesse muud tüüpi interaktsioone. Kõige ulatuslikum kauguse mõõtmine, võttes arvesse kõiki olulisi kahe dihhotoomse muutuja vastastikmõjude tüüpe, on Lambda meetod. Soovitame kasutada just seda meetodit selle mitmekülgsuse tõttu. Siiski on ka teisi meetodeid, näiteks Shape, Hamann või Anderbergsi D.

Dihhotoomsete muutujate kauguste määramise meetodi määramisel vastaval väljal peate määrama konkreetsed väärtused, mida uuritud dihhotoomsed muutujad võivad võtta: väljale Praegune - vastuse Jah kodeering ja väljal Puudub - Ei. Väljade nimed on olemas ja puuduvad seoses sellega, et binaarsete meetodite rühm peaks kasutama ainult dihhotoomseid muutujaid, mis peegeldavad sündmuse toimumist / mitte esinemist. Kahe tüübi Interval ja Binary muutujate jaoks on mitu kaugusmeetodit. Nominaalse skaalatüübiga muutujate jaoks pakub SPSS ainult kahte meetodit: (Chi-ruutmeede) ja (Phi-square-mõõt). Soovitame kasutada kõige tavalisemat esimest meetodit.

Dialoogiboksil Meetod on väärtusevärtuste ala, mis sisaldab välja Standardiseerida. Seda välja kasutatakse juhul, kui klastrianalüüsis on kaasatud erinevat tüüpi skaalaga muutujad (näiteks intervall ja nominaal). Nende muutujate klastrianalüüsis kasutamiseks on vaja läbi viia standardimine, viies need ühte tüüpi skaalasse - intervalli. Kõige tavalisem muutujate standardimise meetod on 2-standardiseerimine (Zscores): kõik muutujad redutseeritakse ühele väärtuste vahemikule -3 kuni +3 ja pärast teisendamist on intervall.

Kuna kõik parimad meetodid (klasterdamine ja kauguste määramine) on vaikimisi seatud, on soovitatav meetodi dialoogiboksi kasutada ainult analüüsitavate muutujate tüübi täpsustamiseks ja ka muutujate 2-standardiseerimise vajaduse näitamiseks.

Niisiis, oleme kirjeldanud kõiki peamisi funktsioone, mida SPSS pakub klastrianalüüsiks. Naaseme lennufirmade segmenteerimiseks läbi viidud klasteranalüüsi kirjelduse juurde. Tuletame meelde, et otsustasime kuueteistkümne klastri lahendusega ja lõime algsesse andmefaili uue muutuja clul6_l, mis jaotab kõik analüüsitud lennufirmad klastriteks.

Klastrite optimaalse arvu kindlaksmääramise õigsuse kindlakstegemiseks joonistame muutuja clul6_l lineaarse jaotuse (menüü Analüüsi\u003e Kirjeldav statistika\u003e Sagedused). Nagu näha jooniselt fig. 5.49, klastrites numbritega 5-16 on vastajate arv vahemikus 1 kuni 7. Koos ülalkirjeldatud universaalse meetodiga klastrite optimaalse arvu määramiseks (vastajate koguarvu ja aglomeratsioonikoefitsiendi esimese hüppe erinevuse põhjal) on ka täiendav soovitus: klastrite suurus peaks olema statistiliselt sisukas ja praktiliselt vastuvõetav. Meie valimi suuruse korral saab selle kriitilise väärtuse seada vähemalt tasemele 10. Näeme, et selle tingimuse alla kuuluvad ainult klastrid numbritega 1–4. Seetõttu on nüüd vaja klastrianalüüsi protseduur ümber arvutada neljaklastrilise lahenduse väljundiga (luuakse uus muutuja du4_l).


Joonis: 5.49.

Ehitades lineaarse jaotuse vastloodud muutuja du4_l kohale, näeme, et ainult kahes klastris (1 ja 2) on vastajate arv praktiliselt märkimisväärne. Peame klastrimudeli uuesti üles ehitama - nüüd kahe klastri lahenduse jaoks. Seejärel konstrueerime jaotuse muutuja du2_l järgi (joonis 5.50). Nagu tabelist näha, on kaheklastrilises lahenduses statistiliselt ja praktiliselt märkimisväärne arv vastajaid mõlemas moodustatud klastris: 1. klastris - 695 vastajat; klastris 2 - 40. Niisiis, oleme määranud oma ülesande jaoks optimaalse klastrite arvu ja reaalselt segmenteerinud vastajad seitsme valitud kriteeriumi järgi. Nüüd saame kaaluda oma ülesande saavutatud põhieesmärki ja liikuda klastrianalüüsi viimasesse etappi - saadud sihtrühmade (segmentide) tõlgendamisse.


Joonis: 5.50.

Saadud lahendus erineb veidi SPSS-i õpetustes nähtust. Isegi kõige praktilisema suunitlusega õpikud toovad kunstlikke näiteid, kus klastrite tulemusel saadakse ideaalsed vastajate sihtgrupid. Mõnel juhul (5) osutavad autorid isegi otseselt näidete kunstlikule päritolule. Selles õpetuses kasutame klasteranalüüsi toimimise illustreerimiseks reaalse elu näidet praktilistest turundusuuringutest, mis ei erine ideaalsetes proportsioonides. See võimaldab meil näidata klastrianalüüsi läbiviimisel kõige tavalisemaid raskusi ja ka parimaid meetodeid nende kõrvaldamiseks.

Enne kui hakkame saadud klastreid tõlgendama, võtame kokku. Klastrite optimaalse arvu määramiseks saime järgmise skeemi.

¦ 1. etapis määrame klastrite arvu matemaatilise meetodi põhjal, tuginedes linnastumissuhtele.

¦ 2. etapis rühmitame vastajad saadud klastrite arvu järgi ja seejärel konstrueerime lineaarse jaotuse vastavalt moodustunud uuele muutujale (clul6_l). Siin peaksite ka määrama, kui palju klastreid koosneb statistiliselt olulisest arvust vastajatest. Üldiselt on soovitatav määrata minimaalne oluline klastrite arv vähemalt 10 vastaja tasemel.

¦ Kui kõik klastrid vastavad sellele kriteeriumile, jätkame klastrianalüüsi viimase etapiga: klastrite tõlgendamine. Kui on klastreid, mille moodustavad ebaolulised arv vaatlusi, määrame kindlaks, kui palju klastreid koosneb märkimisväärsest arvust vastajatest.

¦ Arvutage klastrianalüüsi protseduur uuesti, määrates dialoogiboksis Salvesta märkimisväärsest hulgast juhtumitest koosnevate klastrite arv.

¦ Ehitage uue muutuja jaoks lineaarne jaotus.

Seda toimingute järjekorda korratakse seni, kuni leitakse lahendus, kus kõik klastrid koosnevad statistiliselt olulisest arvust vastajatest. Pärast seda saate minna klastrianalüüsi viimasesse etappi - klastrite tõlgendamisse.

Eraldi tuleb märkida, et klastrite arvu praktilise ja statistilise olulisuse kriteerium pole ainus kriteerium, mille järgi saab määrata klastrite optimaalse arvu. Uurija saab oma kogemuste põhjal iseseisvalt pakkuda klastrite arvu (olulisuse tingimus peab olema täidetud). Teine võimalus on üsna tavaline olukord, kui teadustöö eesmärgil on eelnevalt seatud tingimus vastajate segmentimiseks vastavalt sihtgruppide arvule. Sellisel juhul peate lihtsalt üks kord läbi viima hierarhilise klastrianalüüsi, säilitades samal ajal vajaliku arvu klastreid, ja proovige seejärel saadud teavet tõlgendada.

Saadud sihtsegmentide kirjeldamiseks tuleks kasutada protseduuri uuritud muutujate (klastri tsentriidide) keskmiste väärtuste võrdlemiseks. Võrdleme seitsme vaadeldava segmenteerimiskriteeriumi keskmisi väärtusi mõlemas tulemuseks olevas klastris.

Keskmiste väärtuste võrdlemiseks kasutatakse menüüd Analüüsi\u003e Võrdle vahendeid\u003e Vahendeid. Valige vasakpoolsest loendist avanevas dialoogiboksis (joonis 5.51) seitse segmenteerimiskriteeriumiks valitud muutujat (ql3-ql9) ja lohistage need sõltuvate muutujate väljale sõltuvate loendisse. Seejärel teisaldage muutuja сШ2_1, kajastades vastajate jaotumist klastritesse probleemi lõplikus (kaheklastrilises) lahenduses, vasakust loendist sõltumatute muutujate väljale iseseisvas loendis. Seejärel klõpsake nuppu Valikud.

Joonis: 5.51.

Avaneb dialoogiboks Suvandid, valige klastrite võrdlemiseks vajalik statistika (joonis 5.52). Selleks jätke väljale Lahtristatistika välja ainult keskmised väärtused, eemaldades sellest muu vaikestatistika. Sulgege dialoog Valikud, klõpsates nuppu Jätka. Lõpuks käivitage dialoogiboksis Peamised vahendid keskmine võrdlusprotseduur (nupp OK).

Joonis: 5.52.

Avanenud aknas SPSS Viewer kuvatakse statistiliste protseduuride tulemused keskmiste väärtuste võrdlemiseks. Meid huvitab aruande tabel (joonis 5.53). Sellest näete, mille alusel jagas SPSS vastajad kahte klastrisse. Meie puhul on selliseks kriteeriumiks analüüsitud parameetrite hinnangute tase. Klaster 1 koosneb vastajatest, kelle kõigi segmenteerimiskriteeriumite keskmised hinded on suhteliselt kõrgel tasemel (4,40 punkti ja rohkem). 2. klaster hõlmab vastajaid, kes hindasid jaotatud kriteeriume üsna madalaks (3,35 punkti ja vähem). Seega võime järeldada, et 93,3% 1. klastri moodustanud vastajatest hindas analüüsitud lennufirmasid kõigis aspektides heaks; 5,4% - üsna madal; 1,3% - oli raske vastata (vt joonis 5.50). Joon. 5.53, võib ka järeldada, et hinnangute tase iga vaadeldava parameetri kohta eraldi on kõrge ja mis on madal (ja selle järelduse teevad vastajad, mis võimaldab saavutada kõrge klassifitseerimise täpsuse). Aruandetabelis on näha, et järjekorramuutuja muutuja puhul on keskmine tulemus 4,40 ja parameetri Välimus 4,72.


Joonis: 5.53.

Võib selguda, et sarnasel juhul loetakse parameetri X jaoks kõrget hinde 4,5 ja Y-parameetri puhul ainult 3,9. See ei ole klastriviga, vaid vastupidi võimaldab teha olulise järelduse kaalutletud parameetrite olulisuse kohta vastajate jaoks. Seega on parameetri Y jaoks 3,9 punkti juba hea hinnang, samas kui vastajatel on X-parameetri suhtes rangemad nõuded.

Tuvastasime kaks olulist klastrit, mis erinevad segmenteerimiskriteeriumite keskmise punktisumma tasemest. Nüüd saate saadud klastritele määrata sildid: 1-le - vastajate nõuetele vastavad lennufirmad (vastavalt seitsmele analüüsitud kriteeriumile); 2-le - lennuettevõtjad, kes ei vasta vastajate nõuetele. Nüüd näete, millised konkreetsed lennufirmad (kodeeritud muutujasse q4) vastavad vastajate nõuetele ja millised ei vasta segmenteerimiskriteeriumidele. Selleks konstrueerige q4 muutuja (analüüsitud lennufirmad) ristjaotus sõltuvalt klastrimuutujast clu2_l. Selle ristlõikeanalüüsi tulemused on näidatud joonisel fig. 5.54.

Selle tabeli põhjal saab teha järgmised järeldused uuritavate lennuettevõtjate kuulumise kohta valitud sihtrühmadesse.


Joonis: 5.54.

1. Lennufirmad, mis vastavad täielikult kõigi klientide nõuetele maapealse personali töö osas (kuuluvad ainult ühte esimesse klastrisse):

¦ Vnukovo Airlines;

¦ American Airlines;

¦ Delta Airlines;

¦ Austrian Airlines;

¦ British Airways;

¦ Korean Airlines;

¦ Japan Airlines.

2. Lennufirmad, mis vastavad enamiku klientide nõuetele maapealse personali töö tulemuslikkuse osas (enamik nende lennuettevõtjatega lendavatest vastajatest on maapealse personali tööga rahul):

¦ Transaero.

3. Lennufirmad, mis ei vasta enamiku klientide nõuetele maapealse personali töö tulemuslikkuse osas (enamik nende lennufirmadega lendavaid vastajaid ei ole maapealse personali tööga rahul):

¦ Domodedovo Airlines;

¦ Pulkovo;

¦ Siberi;

¦ Ural Airlines;

¦ Samara Airlines;

Seega saime keskmiste reitingute osas kolm lennuettevõtjate sihtgruppi, mida iseloomustas vastajate erinev rahulolu maapealse personali tööga:

  • 1. maapealse personali töö taseme poolest reisijatele kõige atraktiivsemad lennufirmad (14);
  • 2. üsna atraktiivsed lennufirmad (1);
  • 3. üsna ebaatraktiivsed lennufirmad (7).

Oleme edukalt läbinud kõik klastrianalüüsi etapid ja segmenteerinud lennufirmad vastavalt seitsmele valitud kriteeriumile.

Nüüd kirjeldame klastrianalüüsi tehnikat koos faktoranalüüsiga. Kasutame jaotises 5.2.1 (faktoranalüüs) toodud probleemitingimust. Nagu juba mainitud, on suure hulga muutujate segmendiprobleemide korral soovitatav klasteranalüüsile eelistada faktoranalüüsi. Seda tehakse selleks, et vähendada segmenteerimiskriteeriumide arvu kõige olulisemaks. Meie puhul on algandmefailis 24 muutujat. Faktoranalüüsi tulemusena õnnestus meil vähendada nende arv viiele. Nüüd saab seda arvu tegureid klastrianalüüsiks tõhusalt kasutada ning tegureid ise saab kasutada segmenteerimiskriteeriumidena.

Kui seisame silmitsi vastajate segmenteerimise ülesandega vastavalt nende hinnangule lennufirma X praeguse konkurentsipositsiooni erinevatele aspektidele, saame läbi viia hierarhilise klastrianalüüsi vastavalt viiele valitud kriteeriumile (muutujad nfacl_l-nfac5_l). Meie puhul hinnati muutujaid erinevate skaalade abil. Näiteks reiting heakskiitmiseks 1. Ma ei tahaks, et lennufirma muutuks ja sama reiting kinnitamiseks. Lennufirma muudatused on positiivne hetk, tähenduses risti vastupidine. Esimesel juhul tähendab 1 punkt (ei nõustu täielikult), et vastaja tervitab muudatusi lennufirmas; teisel juhul näitab skoor 1, et vastaja lükkab lennufirmas tehtud muudatused tagasi. Klastrite tõlgendamisel seisame paratamatult silmitsi raskustega, kuna muutujate tähenduses on see vastupidine

samasse faktorisse. Seega on segmenteerimise eesmärgil soovitatav kõigepealt uuritud muutujate skaalad korrigeerida ja seejärel faktormudel uuesti arvutada. Ja seejärel teha klastrianalüüs faktoranalüüsi tulemusena saadud muutuvate tegurite kohta. Me ei kirjelda uuesti üksikasjalikult faktorite ja klastrianalüüsi protseduure (seda tehti eespool asjakohastes osades). Märgime ainult, et selle metoodikaga saime tulemuseks kolm lennureisijate sihtgruppi, mis erinevad valitud tegurite (st muutujate rühmade) hinnangute taseme poolest: madalaim, keskmine ja kõrgeim.

Klasteranalüüsi väga kasulik rakendus on jaotamine sagedustabelite rühmadesse. Oletame, et meil on lineaarne vastuste jaotus küsimusele, millised viirusetõrje kaubamärgid on teie organisatsiooni installitud? Selle jaotuse kohta järelduste tegemiseks on vaja viirusetõrje kaubamärgid jagada mitmeks rühmaks (tavaliselt 2-3). Klasteranalüüs on parim viis jagada kõik kaubamärgid kolme rühma (kõige populaarsemad kaubamärgid, keskmine populaarsus ja ebapopulaarsed kaubamärgid), ehkki reeglina eraldavad teadlased sagedustabelite elemente silma järgi, lähtudes subjektiivsetest kaalutlustest. Vastupidiselt sellele lähenemisele võimaldab klasteranalüüs teostatud rühmitamist teaduslikult põhjendada. Selleks sisestage iga parameetri väärtused SPSS-i (soovitav on need väärtused väljendada protsentidena) ja seejärel tehke nendele andmetele klastrianalüüs. Salvestades uue muutujana vajalikule rühmade arvule (meie puhul 3) klastrilahenduse, saame statistiliselt kehtiva grupeerimise.

Selle osa viimane osa pühendatakse klastrianalüüsi rakendamise kirjeldamisele muutujate klassifitseerimisel ja selle tulemuste võrdlemisel punktis 5.2.1 läbi viidud tegurianalüüsi tulemustega. Selleks kasutame taas probleemi olukorda, hinnates lennufirma X praegust positsiooni õhutranspordi turul. Klasteranalüüsi metoodika kordab peaaegu täielikult ülalkirjeldatut (kui vastajad olid segmenteeritud).

Niisiis, algses andmefailis on meil 24 muutujat, mis kirjeldavad vastajate suhtumist lennufirma X praeguse konkurentsipositsiooni erinevatesse aspektidesse. Avage peamine hierarhilise klastri analüüsi dialoogiboks ja asetage väljale Muutuja (d) 24 muutujat (ql-q24), joonis. 5.55. Klastri piirkonnas märkige, et klassifitseerite muutujaid (märkige valik Muutujad). Näete, et nupp Salvesta on muutunud kättesaamatuks - erinevalt faktoriaalanalüüsist ei saa klastrianalüüsis kõigi vastajate jaoks faktori hinnanguid salvestada. Diagrammide kuvamise lõpetamiseks desaktiveerige parameeter Plots. Esimeses etapis ei vaja te muid parameetreid, seega klastrianalüüsi protseduuri alustamiseks klõpsake lihtsalt nuppu OK.

Aknas SPSS Viewer ilmus tabel Agglomeration Schedule, mille järgi määrasime ülalkirjeldatud meetodil optimaalse klastrite arvu (joonis 5.56). Esimene aglomeratsioonikoefitsiendi hüpe on täheldatav 20. etapis (18834 000-lt 21980,967-le). Analüüsitud muutujate koguarvu põhjal, mis on võrdne 24-ga, on võimalik arvutada klastrite optimaalne arv: 24 - 20 \u003d 4.

Joonis: 5.55.


Joonis: 5.56.

Muutujate klassifitseerimisel on ainult ühest muutujast koosnev klaster praktiliselt ja statistiliselt oluline. Seetõttu, kuna saime matemaatiliselt vastuvõetava arvu klastreid, pole täiendavaid kontrolle vaja. Selle asemel avage uuesti klastrianalüüsi peamine dialoogiboks (kõik eelmises etapis kasutatud andmed on säilinud) ja klõpsake klassifikatsioonitabeli kuvamiseks nuppu Statistika. Näete samanimelist dialoogiboksi, kus peate määrama klastrite arvu, milleks peate jagama 24 muutujat (joonis 5.57). Selleks valige parameeter Üks lahendus ja määrake vastavale väljale vajalik arv klastreid: 4. Nüüd sulgege dialoogiboks Statistika, klõpsates nuppu Jätka ja alustage protseduuri klastri analüüsi peaaknast.

Selle tulemusena ilmub SPSS Vieweri aknasse klastri liikmelisuse tabel, mis jaotab analüüsitud muutujad nelja klastrisse (joonis 5.58).

Joonis: 5.58.

Selle tabeli kohaselt saab iga vaadeldava muutuja omistada konkreetsele klastrile järgmiselt.

Klaster 1

ql. Lennufirmal X on reisijateveo tipptase.

q2. Lennufirma X suudab konkureerida maailma parimate lennufirmadega.

q3. Usun, et lennufirmal X on globaalse lennunduse valdkonnas perspektiivikas tulevik.

q5. Olen uhke, et töötan lennufirmas X.

q9. Meil on veel pikk tee minna, enne kui võime väita, et meid nimetatakse maailmatasemel lennufirmaks.

qlO. Lennufirma X hoolib reisijatest tõesti.

ql3. Mulle meeldib, kuidas Airline X-i praegu visuaalselt avalikkusele esitletakse (värvide ja kaubamärgi osas).

ql4. Lennufirma X on Venemaa nägu.

ql6. X lennufirma teenus on kogu ulatuses ühtlane ja äratuntav

ql8. Lennufirma X peab oma potentsiaali täielikuks ärakasutamiseks muutuma.

ql9. Ma arvan, et lennufirma X peab ennast visuaalselt kaasaegsemalt esitama.

q20. Lennufirma X muudatused on positiivne areng. q21. Lennufirma X on tõhus lennufirma.

q22. Tahaksin näha, et lennufirma X kuvand paraneb välissõitjate osas.

q23. Lennufirma X on parem, kui paljud arvavad.

q24. On oluline, et inimesed kogu maailmas teaksid, et oleme Venemaa lennufirma.

2. klaster

q4. Ma tean, milline on lennufirma X tulevikustrateegia.

q6. Lennufirmal X on hea koostalitlusvõime.

q7. Iga lennufirma töötaja teeb kõik endast oleneva, et oma edu tagada.

q8. Lennufirma X paraneb nüüd kiiresti.

qll. Lennufirmade töötajate seas on kõrge rahulolu tööga.

ql2. Usun, et kõrgemad juhid on pühendunud lennufirma edule.

3. klaster

ql5. Me näeme välja nagu "eile" võrreldes teiste lennufirmadega.

4. klaster

ql7. Ma ei tahaks, et lennufirma X muutuks.

Faktooriumi (punkt 5.2.1) ja klastrianalüüside tulemusi võrreldes näete, et need erinevad oluliselt. Klasteranalüüs annab mitte ainult oluliselt vähem võimalusi muutujate klasterdamiseks (näiteks suutmatus säilitada grupireitinguid) võrreldes tegurianalüüsiga, vaid annab ka palju vähem selgeid tulemusi. Meie juhul, kui klastrid 2, 3 ja 4 on endiselt loogilise tõlgendamise alluvad1, siis klaster 1 sisaldab väiteid, mille tähendus on täiesti erinev. Selles olukorras võite proovida kirjeldada klastrit 1 sellisena, nagu see on, või taastada statistiline mudel uue klastrite arvuga. Viimasel juhul saate loogiliselt kirjeldatava klastrite optimaalse arvu leidmiseks kasutada dialoogiboksis Statistika parameetrit Range of solutions (vt joonis 5.57), täpsustades vastavatel väljadel klastrite minimaalse ja maksimaalse arvu (meie puhul vastavalt 4 ja 6). Sellises olukorras ehitab SPSS iga klastrite arvu jaoks klastriliikmete tabeli uuesti üles. Analüütiku ülesanne on antud juhul proovida leida klassifikatsioonimudel, milles kõiki klastreid tõlgendatakse üheselt. Klastrianalüüsi protseduuride muutujate klastrivõimaluste demonstreerimiseks ei ehita me klastrimudelit ümber, vaid piirdume ainult ülalpool öelduga.

Tuleb märkida, et vaatamata klastrianalüüsi näilisele lihtsusele võrreldes faktoranalüüsiga osutub turundusuuringute põhjal peaaegu kõigil juhtudel faktoranalüüs klastrianalüüsist kiiremaks ja tõhusamaks. Seetõttu soovitame muutujate klassifitseerimiseks (redutseerimiseks) tungivalt kasutada faktoranalüüsi ja jätta vastajate klassifitseerimiseks klastrianalüüs.

Klassifitseerimisanalüüs on koolitamata kasutaja seisukohalt võib-olla üks keerulisemaid statistilisi vahendeid. See on seotud selle väga madala levimusega turundusettevõtetes. Samal ajal on just see statistiliste meetodite rühm praktikute jaoks turundusuuringute valdkonnas üks kasulikumaid.