Критерій Манна-Уїтні: приклад, таблиця
Критерій в математичній статистиці - це суворе правило, відповідно до якого гіпотеза з певним рівнем значущості приймається або відкидається. Щоб побудувати його, необхідно знайти певну функцію. Вона повинна залежати від кінцевих результатів експерименту, тобто від емпірично знайдених значень. Саме ця функція буде інструментом оцінки розбіжності між вибірками.
Статистично значуща величина. Загальні відомості
Статистична значимість - це величина, ймовірність випадкового виникнення якої дуже мала. Незначні також і більш крайні її показники. Різницю називають статистично значущою в тому випадку, якщо існують дані, ймовірність появи яких незначна, якщо стверджувати, що ці розбіжності не існують. Але це не означає зовсім, що ця різниця обов`язково повинна бути велика і значима.
Рівень статистичної достовірності тесту
Під даним терміном слід розуміти ймовірність відхилення нульової гіпотези в разі її істинності. Це також називається помилкою першого роду або хибнопозитивним рішенням. У більшості випадків процес спирається на p-величину ("пі-величина"). Це накопичена ймовірність при спостереженні за рівнем статистичного критерію. Він, у свою чергу, налічується по вибірці під час прийняття нульової гіпотези. Припущення буде відкинуто, якщо ця p-величина буде менше заявленого аналітиком рівня. Від цього показника залежить безпосередньо значимість тестової величини: чим вона менша, тим, відповідно, і більше підстав відкинути гіпотезу. Рівень значимості, як правило, позначається буквою б (альфа). Популярні показники серед фахівців: 0,1%, 1%, 5% і 10%. Якщо, скажімо, говориться, що шанси на збіги рівні 1 до 1000, то безумовно мова йде про рівні 0,1% статистичної значущості випадкової величини. Різні за значенням б-рівні мають свої плюси і мінуси. Якщо показник менше, то більша ймовірність, що альтернативна гіпотеза значуща. Хоча при цьому можливий ризик, що помилкове нульове припущення НЕ БУДЕ відкинуто. Можна зробити висновок, що вибір оптимального б-рівня залежить від балансу "значимість-потужність" або, відповідно, від компромісу ймовірностей ложноположительного і хибнонегативного рішень. Синонімом "статистичної значущості" у вітчизняній літературі є термін "достовірність".
Визначення нульової гіпотези
У математичній статистиці це припущення, що перевіряється на узгодженість з вже наявними в запасі емпіричними даними. У більшості випадків в якості нульової гіпотези береться гіпотеза про те, що кореляція між досліджуваними змінними відсутній або що в досліджуваних розподілах немає відмінностей однорідності. При стандартних дослідженнях математик намагається спростувати нульову гіпотезу, тобто довести, що вона не узгоджена з експериментально отриманими даними. Причому повинно мати місце і альтернативне припущення, яке приймається замість нульового.
Ключове визначення
Критерій U (Манна-Уїтні) в математичній статистиці дозволяє оцінювати відмінності двох вибірок. Вони можуть бути дані по рівню якогось ознаки, який виміряно кількісно. Цей метод ідеальний для оцінки відмінностей малих вибірок. Цей простий критерій був запропонований Френком Уилкоксона в 1945 році. А вже в 1947 році метод був переглянутий і доповнений вченими Х. Б. Манном і Д. Р. Уїтні, іменами яких він і називається донині. Критерій Манна-Уїтні в психології, математики, статистики та в багатьох інших науках є одним з основних елементів математичного обгрунтування результатів теоретичних досліджень.
Опис
Критерій Манна-Уїтні - відносно простий метод без параметрів. Його потужність значна. Вона істотно вище, ніж потужність Q-критерію Розенбаума. Метод оцінює, наскільки мала область перехресних значень між вибірками, а саме між ранжируваних рядами значень першої та другої вибірки. Чим значення критерію менше, тим більше ймовірність, що розбіжності значень параметра достовірні. Щоб коректно застосувати критерій U (Манна-Уїтні), не варто забувати про деякі обмеження. У кожній вибірці повинно бути як мінімум 3 значення ознаки. Можлива ситуація, коли в одному випадку значень два, але в другому обов`язково тоді їх має бути хоча б п`ять. У досліджуваних вибірках має бути мінімальна кількість співпадаючих показників. Всі числа повинні бути різними в ідеальному випадку.
Використання
Як правильно використовувати критерій Манна-Уїтні? Таблиця, яка складена за цим методом, містить певні критичні значення. Для початку потрібно створити єдиний ряд з обох зіставлених вибірок, який потім ранжирується. Тобто елементи шикуються по мірі наростання ознаки, і менший ранг присвоюється меншому значенню. В результаті отримаємо таке загальне число рангів:
N = N1 + N2,
де величини N1 і N2 - кількість одиниць, що містяться в першій і другій вибірках відповідно. Далі єдиний ранжируваних ряд значень ділиться на дві категорії. Одиниці, відповідно, з першої і другої вибірок. Тепер вважається по черзі сума рангів значень в першому і в другому рядах. Визначається більша з них (Tx), яка відповідає вибірці з nx одиницями. Щоб використовувати метод Уилкоксона далі, обчислюється його значення за наступною методикою. Необхідно по таблиці для обраного рівня значущості з`ясувати критичне значення цього критерію для конкретно взятих N1 і N2. Одержаний показник може бути менше або дорівнює значенню з таблиці. У цьому випадку констатується значне розходження рівнів ознаки в досліджуваних вибірках. Якщо отримане значення більше табличного, тоді нульова гіпотеза приймається. Коли проводиться розрахунок критерію Манна-Уїтні, слід зауважити, що якщо нульова гіпотеза справедлива, критерій буде мати математичне очікування, а також дисперсію. Відзначимо, що при досить великих обсягах даних вибірок метод вважається практично нормально розподіленим. Достовірність відмінностей тим вище, чим менше значення приймає критерій Манна-Уїтні.