Перевірка гіпотез, заснованих на відомих даних
У статистиці, перевіряючи гіпотезу на основі даних, які були використані для її створення, ми більш схильні до успіху, навіть якщо гіпотеза не відповідає дійсності. Цей феномен відомий як замкнене коло міркування, або подвійне занурення. Цикл відбувається таким чином:
- Щось здається вірним на основі обмеженого набору даних.
- Ми робимо висновок, що це вірно в цілому.
- Ми (помилково) перевіряємо це на тому ж обмеженому наборі даних.
- Підтверджується, що це вірно, оскільки ми почали з припущення, що це вірно.
Виявлення замкнутого кола міркування
Виявити замкнене коло міркування може бути складно, особливо якщо ми вже переконані в правдивості гіпотези. Однак, є кілька ознак, які можуть допомогти:
- Надмірне узгодження: Гіпотеза дуже точно відповідає даним, на яких вона заснована.
- Відсутність зовнішньої перевірки: Гіпотезу не було перевірено на незалежному наборі даних.
- Перевірка занадто вузької гіпотези: Гіпотеза занадто конкретна і не може бути легко узагальнена.
- Пошук підтверджень: Ми схильні шукати дані, які підтверджують нашу гіпотезу, ігноруючи дані, які її спростовують.
Post hoc теоретизування
Висування гіпотез на основі вже відомих даних без тестування на нових даних називається post hoc теоретизуванням. Це означає "після цього" латинською мовою і передбачає, що гіпотеза була створена після того, як дані вже були зібрані.
Post hoc теоретизування є проблематичним, оскільки воно призводить до того, що гіпотези мають більшу ймовірність бути хибними. Це тому, що ми висуваємо гіпотези на основі випадкових коливань у даних, а не на основі реальних закономірностей.
Уникнення замкнутого кола міркування та post hoc теоретизування
Щоб уникнути замкнутого кола міркування та post hoc теоретизування, ми повинні дотримуватися наступних принципів:
- Збирайте дані незалежно для перевірки гіпотез: Не використовуйте ті самі дані, які використовувалися для створення гіпотези, для її перевірки.
- Створіть тестувальну та тренувальну вибірки: Розділіть дані на дві частини: одну для створення гіпотези (вибірка для навчання) і одну для її перевірки (вибірка для тестування).
- Використовуйте статистичні методи, що уникають перенавчання: Використовуйте методи, такі як перехресна перевірка, щоб запобігти моделі, що навчаються, на конкретному наборі даних.
- Будьте обережні з висновками, заснованими на невеликих наборах даних: Не покладайтеся на висновки, зроблені на основі невеликих наборів даних, оскільки вони більш схильні до помилок.
Перевірка гіпотез на основі відомих даних може призвести до помилкових висновків через замкнуте коло міркування і пост hoc теоретизування. Щоб уникнути цих пасток, необхідно збирати дані незалежно для тестування гіпотез, розділяти дані на тренувальні та тестові вибірки, використовувати статистичні методи, що уникають перенавчання, і бути обережними з висновками, заснованими на невеликих наборах даних.
Поширені запитання
1. Що таке замкнуте коло міркування?
Відповідь: Цикл, в якому щось здається вірним на основі обмеженого набору даних, тому передбачається, що воно вірно в цілому, а потім перевіряється на тому ж наборі даних, що, швидше за все, підтвердить цю віру.
2. Що таке пост hoc теоретизування?
Відповідь: Висування гіпотез на основі вже відомих даних без тестування на нових даних.
3. Як уникнути замкнутого кола міркування?
Відповідь: Збирати дані незалежно для перевірки гіпотез, розділяти дані на тренувальні та тестові вибірки, використовувати статистичні методи, що уникають перенавчання.
4. Які ознаки замкнутого кола міркування?
Відповідь: Надмірне узгодження, відсутність зовнішньої перевірки, перевірка занадто вузької гіпотези, пошук підтверджень.
5. Чому post hoc теоретизування проблематичне?
Відповідь: Воно призводить до підвищеної ймовірності помилкових гіпотез, оскільки воно засноване на випадкових коливаннях у даних, а не на реальних закономірностях.