2. Расчет p-value в экспериментах с «предвидением»
Подавляющее большинство научных экспериментов, связанных с измерениями, требуют работы со статистикой. Но освоить статистические методы имеет смысл любому исследователю, даже вне официальной науки, потому что без этих методов невозможно определить достоверность выявленных закономерностей в тех или иных наблюдениях. В 2010 году, когда мы проводили представленное в этой статье исследование, наша группа состояла из молодых и энергичных энтузиастов, ни один из которых толком не разбирался в статистике, поэтому изначально мы сформулировали методику и условия эксперимента не совсем корректно, хотя и старались это сделать в меру своих знаний и представлений, доступных нам на тот момент. В этом разделе мы постараемся подробно прояснить данный аспект для тех, кто захочет продолжить подобные эксперименты, чтобы эти исследователи не повторяли наших ошибок ни при планировании, ни при оценке результатов. Ведь на этих двух этапах обычно и встречаются главные сложности. Сформулируем их.
I.
Первая ошибка. Эксперимент может планироваться таким образом, что определить по его окончании достоверность успеха полученных результатов в принципе не представится возможным, потому что у организаторов исследования на первой волне энтузиазма может отсутствовать четкое понимание, каким образом далее будет производиться статистический расчет и с целью получения каких конкретно показателей.
II.
Вторая ошибка. Даже если эксперимент оказывается организован подходящим образом, на этапе анализа исследователи могут просто не знать, как правильно определить достоверность успеха или неудачи, и если не получилось достичь угадывания, приближенного к 100%, то им останется только сказать «видимо, ничего не получилось» и начинать искать что-то новое, в то время как это может оказаться большим заблуждением и упущением, ведь в такого рода экспериментах важен не только размер отклонения от средневероятного, но и стабильность этого отклонения относительно размера выборки. Например, чтобы разорить казино, вам совсем не обязательно угадывать чет/нечет 8 и более из 10 раз при игре в рулетку (что интуитивно кажется условием успеха, т. е. признаком способности к угадыванию) — на самом деле, для этого достаточно стабильно угадывать всего в 6 случаях из 10 вместо 5, т. е. всего на 1 раз чаще средневероятного. Важно только, чтобы этот слегка повышенный процент угадывания удалось сохранить на достаточно большом количестве попыток, и казино будет разорено. А ведь это в конечном итоге и является настоящим подтверждением способности к угадыванию, а не какие-то умозрительные проценты, не так ли? Полностью аналогичная ситуация и со статистическими расчетами.
Отметим, что в полноценной научной статье отступления такого рода были бы неуместны. Но поскольку «Золотой Тессеракт» — премия и журнал в большей степени для любителей и энтузиастов, а не представителей официальной науки, то в данном случае мы считаем это отступление полезным и оправданным. Также напомним, что статистических методов очень много и каждый из них существует и подходит для определенной практической цели. Одни методы годятся в работе с социологическими опросами, другие придуманы для поиска корреляции между явлениями и есть множество разнообразных прочих. Но в экспериментах с «предвидением» (угадыванием), когда мы оперируем некими случайными событиями в рамках нормального распределения вероятностей [
70] [
71] (например, выброс кубиков, подброс монеты, выбор карты из колоды и т. д.), нам чаще всего достаточно использовать всего один метод статистического расчета, который подразумевает использование т. н. «формулы Бернулли» [
72] («Bernoullitrial» [
73]). Математические подробности мы опускаем, потому что погружаться в математику для тех, у кого в этом нет опыта, совсем не обязательно. В этом разделе статьи мы ставим целью объяснить базовые понятия, которые необходимы для оценки статистической значимости результатов в такого рода экспериментах, и сформулировать главные принципы практической работы с этими понятиями. Но сама эта работа вполне может быть выполнена автоматически в одном из интернет-сервисов или в программе, написанной нами специально для решения такого рода задач. Программа «p-Bernoulli» вместе с исходным кодом на языке Delphi находится в Приложении «C». А математические подробности, кому это интересно, доступно и подробно изложены, например, в википедии.
После этого предисловия можно перейти к главному.
Показатель
p-value [
74] [
75] (или его аналог
z-score [
76] [
77]) — это своего рода «священный Грааль» для любого, кто пытается ставить какие-либо достоверные эксперименты, т. е. с такими результатами, на основании которых можно делать уверенные логические выводы о предмете исследования. От этого показателя зависит, подтвердится та или иная гипотеза с тем или иным уровнем статистической значимости, или нет. Т. е., в большинстве случаев, окажется ли эксперимент успешным. В случае с угадыванием («предвидением», «удаленным видением» и т. д.) p-value определяет, выходят ли полученные результаты за рамки случайных совпадений, и если да, то насколько. Конечно, p-valueможно использовать не всегда и в некоторых экспериментах, например, медицинских, это чревато опасными ошибками [
78] [
79], но когда речь идет о теории вероятностей [
80] [
81], как в нашем случае, то p-value — именно тот показатель, который нужен. Однако существуют тонкости. Даже в официальной науке нередки ошибки в вычислениях p-value (или z-score). Происходят они зачастую потому, что исследователи неправильно выбирают метод расчета из-за того, что толком не понимают, что на самом деле означает этот показатель «физически», зная только, к какому числовому значению нужно стремиться. Да, все хорошо помнят, что значение p<0.05 отмечается одной звездочкой (*) и означает нижний уровень значимости; p<0.01 (**) — это отличный результат, который подтверждает, что случайность в тех или иных измерениях и выводах практически исключена; а p<0.001 (***) — это наивысшая достоверность того или иного отклонения. Но почему используются именно эти числа и что они практически означают? На самом деле, по крайней мере в экспериментах, подобных исследуемому в данной статье, все очень просто.
Для примера давайте возьмем тривиальный случай: в 2009-м году мы показали опыт угадывания («удаленного видения») в ОС/ВТО, который снимала телевизионная группа. После выхода передачи нас часто спрашивали — правда это или нет, что сновидец вышел из тела и правильно «увидел», что яблок в спрятанной коробке лежит именно три, а не два или одно? На что мы всегда задавали встречный вопрос: а в этом есть логическая разница? Разве по одному случаю можно делать хоть какие-нибудь выводы о продемонстрированном феномене и методе? Нам-то очевидно, что нельзя, поэтому мы и производили этот опыт не в качестве доказательства, а в качестве в первую очередь примера и стимула к дополнительным изысканиям в данной сфере, особенно научным. Но оказалось, что не всем интуитивно очевидно, что одного случая в таких условиях эксперимента для достоверных выводов недостаточно. Давайте попробуем убедиться в этом математически.
Используя программу «p-Bernoulli», ведь она именно для решения таких вопросов и предназначена, разберемся в этом внимательно (см. рис. 7).