«Золотой Тессеракт»,
выпуск №1 (по итогам весны 2021 г.)

«Предвидение» (угадывание)

в осознанном сновидении:

статистическое исследование

(часть 2)

Артем Синин, май-июль 2021 г.
2. Расчет p-value в экспериментах с «предвидением»
Подавляющее большинство научных экспериментов, связанных с измерениями, требуют работы со статистикой. Но освоить статистические методы имеет смысл любому исследователю, даже вне официальной науки, потому что без этих методов невозможно определить достоверность выявленных закономерностей в тех или иных наблюдениях. В 2010 году, когда мы проводили представленное в этой статье исследование, наша группа состояла из молодых и энергичных энтузиастов, ни один из которых толком не разбирался в статистике, поэтому изначально мы сформулировали методику и условия эксперимента не совсем корректно, хотя и старались это сделать в меру своих знаний и представлений, доступных нам на тот момент. В этом разделе мы постараемся подробно прояснить данный аспект для тех, кто захочет продолжить подобные эксперименты, чтобы эти исследователи не повторяли наших ошибок ни при планировании, ни при оценке результатов. Ведь на этих двух этапах обычно и встречаются главные сложности. Сформулируем их.

I. Первая ошибка. Эксперимент может планироваться таким образом, что определить по его окончании достоверность успеха полученных результатов в принципе не представится возможным, потому что у организаторов исследования на первой волне энтузиазма может отсутствовать четкое понимание, каким образом далее будет производиться статистический расчет и с целью получения каких конкретно показателей.

II. Вторая ошибка. Даже если эксперимент оказывается организован подходящим образом, на этапе анализа исследователи могут просто не знать, как правильно определить достоверность успеха или неудачи, и если не получилось достичь угадывания, приближенного к 100%, то им останется только сказать «видимо, ничего не получилось» и начинать искать что-то новое, в то время как это может оказаться большим заблуждением и упущением, ведь в такого рода экспериментах важен не только размер отклонения от средневероятного, но и стабильность этого отклонения относительно размера выборки. Например, чтобы разорить казино, вам совсем не обязательно угадывать чет/нечет 8 и более из 10 раз при игре в рулетку (что интуитивно кажется условием успеха, т. е. признаком способности к угадыванию) — на самом деле, для этого достаточно стабильно угадывать всего в 6 случаях из 10 вместо 5, т. е. всего на 1 раз чаще средневероятного. Важно только, чтобы этот слегка повышенный процент угадывания удалось сохранить на достаточно большом количестве попыток, и казино будет разорено. А ведь это в конечном итоге и является настоящим подтверждением способности к угадыванию, а не какие-то умозрительные проценты, не так ли? Полностью аналогичная ситуация и со статистическими расчетами.

Отметим, что в полноценной научной статье отступления такого рода были бы неуместны. Но поскольку «Золотой Тессеракт» — премия и журнал в большей степени для любителей и энтузиастов, а не представителей официальной науки, то в данном случае мы считаем это отступление полезным и оправданным. Также напомним, что статистических методов очень много и каждый из них существует и подходит для определенной практической цели. Одни методы годятся в работе с социологическими опросами, другие придуманы для поиска корреляции между явлениями и есть множество разнообразных прочих. Но в экспериментах с «предвидением» (угадыванием), когда мы оперируем некими случайными событиями в рамках нормального распределения вероятностей [70] [71] (например, выброс кубиков, подброс монеты, выбор карты из колоды и т. д.), нам чаще всего достаточно использовать всего один метод статистического расчета, который подразумевает использование т. н. «формулы Бернулли» [72] («Bernoullitrial» [73]). Математические подробности мы опускаем, потому что погружаться в математику для тех, у кого в этом нет опыта, совсем не обязательно. В этом разделе статьи мы ставим целью объяснить базовые понятия, которые необходимы для оценки статистической значимости результатов в такого рода экспериментах, и сформулировать главные принципы практической работы с этими понятиями. Но сама эта работа вполне может быть выполнена автоматически в одном из интернет-сервисов или в программе, написанной нами специально для решения такого рода задач. Программа «p-Bernoulli» вместе с исходным кодом на языке Delphi находится в Приложении «C». А математические подробности, кому это интересно, доступно и подробно изложены, например, в википедии.

После этого предисловия можно перейти к главному.

Показатель p-value [74] [75] (или его аналог z-score [76] [77]) — это своего рода «священный Грааль» для любого, кто пытается ставить какие-либо достоверные эксперименты, т. е. с такими результатами, на основании которых можно делать уверенные логические выводы о предмете исследования. От этого показателя зависит, подтвердится та или иная гипотеза с тем или иным уровнем статистической значимости, или нет. Т. е., в большинстве случаев, окажется ли эксперимент успешным. В случае с угадыванием («предвидением», «удаленным видением» и т. д.) p-value определяет, выходят ли полученные результаты за рамки случайных совпадений, и если да, то насколько. Конечно, p-valueможно использовать не всегда и в некоторых экспериментах, например, медицинских, это чревато опасными ошибками [78] [79], но когда речь идет о теории вероятностей [80] [81], как в нашем случае, то p-value — именно тот показатель, который нужен. Однако существуют тонкости. Даже в официальной науке нередки ошибки в вычислениях p-value (или z-score). Происходят они зачастую потому, что исследователи неправильно выбирают метод расчета из-за того, что толком не понимают, что на самом деле означает этот показатель «физически», зная только, к какому числовому значению нужно стремиться. Да, все хорошо помнят, что значение p<0.05 отмечается одной звездочкой (*) и означает нижний уровень значимости; p<0.01 (**) — это отличный результат, который подтверждает, что случайность в тех или иных измерениях и выводах практически исключена; а p<0.001 (***) — это наивысшая достоверность того или иного отклонения. Но почему используются именно эти числа и что они практически означают? На самом деле, по крайней мере в экспериментах, подобных исследуемому в данной статье, все очень просто.

Для примера давайте возьмем тривиальный случай: в 2009-м году мы показали опыт угадывания («удаленного видения») в ОС/ВТО, который снимала телевизионная группа. После выхода передачи нас часто спрашивали — правда это или нет, что сновидец вышел из тела и правильно «увидел», что яблок в спрятанной коробке лежит именно три, а не два или одно? На что мы всегда задавали встречный вопрос: а в этом есть логическая разница? Разве по одному случаю можно делать хоть какие-нибудь выводы о продемонстрированном феномене и методе? Нам-то очевидно, что нельзя, поэтому мы и производили этот опыт не в качестве доказательства, а в качестве в первую очередь примера и стимула к дополнительным изысканиям в данной сфере, особенно научным. Но оказалось, что не всем интуитивно очевидно, что одного случая в таких условиях эксперимента для достоверных выводов недостаточно. Давайте попробуем убедиться в этом математически.

Используя программу «p-Bernoulli», ведь она именно для решения таких вопросов и предназначена, разберемся в этом внимательно (см. рис. 7).

Рис. 7. Расчет p-value в программе p-Bernoulli для случая одного угадывания с первой попытки с вероятностью удачи 1/3

1. По тому сюжету, который нам удалось снять в рамках ограниченного режиссером времени, мы вводим в программу следующие показатели:

количество случаев, т. е. сколько раз производилось угадывание,

     = 1;

количество удач, т. е. сколько раз угадано верно,

     = 1;

вероятность удачи (яблок всего было три, а значит и вариантов, сколько яблок режиссер положит в коробку, тоже три)

     = 1/3 (0,33333).

2. Смотрим итоговый расчет, который показывает программа:

     p-value = 0,333.

Откуда взялось это число и что оно означает? Вся необходимая информация есть на рисунке. Расшифруем:

• На графике мы видим два столбика, подписанные как «0» и «1». Это значит, что при одной попытке угадывания существует всего два варианта — либо количество удач (угадываний) будет равно 0, либо 1. Т. е. либо испытуемый за одну попытку угадает загаданное, либо нет, третьего не дано.

• При этом, вероятность угадывания мы указали равной 1/3 (0,33333), а значит вероятность промаха вычисляется как 1 – 1/3 = 2/3 (0,66667). Вот это, поскольку попытка угадывания была всего одна, мы и видим на графике: над столбиком «0» (не угадает) стоит подпись «66,667» (2/3 * 100, в процентах), а над столбиком «1» — «33,333» (1/3 * 100, в процентах). Их высота соответствует этим значениям.

• P-value в таком случае определяется очень просто: высотой красного столбика, подписанного как «1» (т. е. 1 удача). И означает, повторим:

     насколько вероятно, что данный исход произошел случайным образом.


Ответ: это вероятно на ~33,3% (p= 0,333 = 33,3 / 100). Т. е., если повторять данный эксперимент бесконечное количество раз, то ровно в трети из всех повторов данный исход (верное угадывание с первого раза при наличии трех равновероятных вариантов для выбора) произойдет случайно.

Теперь вспомним, для чего мы производили этот расчет и строили графики: мы задались вопросом, можно ли доверять полученному результату и считать его отклонение статистически значимым. Ответ однозначен: конечно, нет, раз этот результат случайным образом будет повторяться в трети всех случаев при таких условиях. И мы теперь можем говорить об этом не только интуитивно, но и на языке статистики, ведь p= 0,333 — это очень далекое значение от нижней границы статистической значимости, принимаемой обычно в районе p= 0,05. Тогда зададимся следующим вопросом: а сколько раз подряд нужно успешно угадать сколько из трех яблок спрятано в коробке, если мы хотим добиться статистической значимости этого отклонения? Для этого нам нужно получить как можно меньшее значение p-value. Обычно рассматривают три порога:

p < 0,05 (т. е. чтобы вероятность случайного получения таких или лучших результатов не превышала 5%),

• а лучше p < 0,01 (1%),

• а еще лучше p < 0,001 (0,1% = 1‰ = 1/10 процента или 1 промилле).

Определить необходимое для каждого из этих случаев количество повторов/удач очень просто при помощи той же программы, и мы это сейчас сделаем. Но давайте сначала посмотрим, что было бы с p-value, если бы сновидец не угадал с первого раза сколько спрятано яблок?

Рис. 8. Расчет p-value в программе «p-Bernoulli» для случая одного промаха в одной попытке с вероятностью удачи 1/3

Установив количество удач равным нулю при тех же условиях, мы получим p-value = 1, т. е. 100% (см. рис. 8). Как получается это значение? Вероятность, что мы получим ноль угадываний при одной попытке, т. е. не угадаем, равна 66,667% (2/3), как мы посчитали ранее. Но при расчете p-value нас интересует не только этот конкретный случай, а с какой вероятностью произойдет он или любой более успешный. Если бы у нас было, к примеру, 10 попыток, и мы считали p-value для 5 удач, то нас бы интересовала не вероятность случайного повторения этого конкретного случая, когда удач оказалось ровно 5 на 10 попыток, но и все более для нас успешные, т. е. если бы мы угадали 6, 7, 8, 9 или все 10 раз. Поэтому в p-value мы закладываем сумму вероятностей всех этих отдельных ситуаций, т. е. высоту всех этих столбиков (в программе они помечаются красным). В данном примере, когда мы исследуем ноль удач на одну попытку, мы складываем вероятность этой ситуации и вероятность ситуации, что удача окажется одна. То есть складываем 66,667% + 33,333% (оба столбика). Что в сумме дает 100%, что равно 1, что мы и видим в значении p-value. Таким образом мы констатируем очевидное: вероятность того, что мы случайно получим хотя бы ноль удач при одной попытке, т. е. угадаем ноль или один раз, т. е. угадаем или не угадаем — равна 100%, т. е. гарантирована. И это естественно.

Теперь посмотрим, какое же количество удачных попыток подряд нужно совершить в этих условиях, чтобы добиться p-value < 0.05, 0.01 и 0.001, т. е. прийти к статистической значимости этих результатов, а значит достоверности? Расчеты при помощи той же программы «p-Bernoulli» приведены в табл. 1.

Табл. 1. Расчет p-value в программе p-Bernoulli для разных вариантов последовательного угадывания с вероятностью ⅓

Вывод: в такого рода эксперименте (где вероятность угадывания составляет 1/3) нам нужно добиться хотя бы 3-4 угадываний подряд, чтобы можно было говорить о минимальной статистической значимости полученного отклонения от средневероятного. Но по-настоящему будет интересен результат с 5–6 угадываниями подряд, а совсем невероятный — начинается с 7 угадываний подряд. Случайным образом его можно достичь с частотой около 1 раза лишь на 2000 повторов эксперимента (1 / 2000 = 0,0005 ≈ 0,000457 = p-value). Вот с такими результатами уже совершенно точно можно громко заявлять об их серьезной статистической значимости и рассчитывать на интерес официальной науки.

Но здесь нужно сделать еще одно важное отступление. Можно ли даже при таких результатах говорить о наличии исчерпывающих доказательств того, что данный метод «предвидения» рабочий? Конечно, нет. Мы лишь говорим о
статистической значимости полученных результатов. Доказательствами занимаются следователи и юристы, ну или хотя бы авторы систематических обзоров и мета-анализов, а исследователи лишь собирают достоверные аргументы в пользу той или иной гипотезы или теории. Любое успешное исследование — это всего лишь такой аргумент. Если он первый в своем роде, то заслуженно столкнется с критикой и скепсисом, независимо от статистической значимости результатов, а может и обратно пропорционально ей — это нормально и необходимо. Тут важно другое. Если данные будут действительно интересными и высоко значимыми, то это послужит стимулом другим исследовательским группам провести подобное или усовершенствованное исследование. И если гипотеза действительно верна, то рано или поздно истина восторжествует эмпирически. Исследователю в этой связи если и стоит ожидать какое-то признание, то не за то, что он якобы что-то доказал, а за то, что первым сформулировал верную гипотезу и/или предоставил к ней первые веские аргументы, которые мотивировали научное сообщество далее это коллективно исследовать. А исчерпывающих доказательств никто от ученого в научном мире не требует и их в такого рода исследованиях и статьях не ищут — «детективный подход» не имеет отношения к науке. Это нужно осознавать, чтобы не тратить энергию впустую на организацию «фокусов» вместо научных исследований.

А теперь давайте вернемся к расчетам и посмотрим, можно ли добиться высокой статистической значимости, если мы в тех же условиях угадываем может быть совсем чуть-чуть чаще средневероятного, но зато на большой выборке. Допустим, что мы провели не 5-10, а целых 300 попыток. Насколько чаще среднего нам нужно угадывать, чтобы утверждать, что это уже статистически значимо, а значит отклонение достоверно? Ответ в табл. 2.

Табл. 2. Расчет p-value в программе p-Bernoulli для разных вариантов последовательного угадывания с вероятностью 1/3

Как мы видим, нормальный результат в 100 удач на 300 попыток (или лучший) будет естественным образом происходить более чем в половине случаев. Ни о какой значимости, конечно, здесь говорить не приходится. Минимальная значимость начинается со 115 удач (p<0,05). Т. е. всего на 15 угадываний больше, чем должно быть по теории вероятностей. Еще 5 угадываний (итого 120, p<0,01) — и мы уже имеем второй уровень значимости. Еще 7 (итого 127, p<0,001) — и третий. Почему достаточно такого малого отклонения от средневероятного? Получается всего какие-то 5% (15/300), 6,7% (20/300) или 9% (27/300) дополнительных фактов угадывания. Да потому что на такой большой выборке (300 попыток) получить случайным образом даже такое малое, но стабильное отклонение — очень маловероятно. Поэтому в тех случаях, когда исследуются слабые влияния, нужны как можно бо́льшие выборки. Для сравнения, если взять выборку в 1000 попыток, то в тех же условиях достаточно будет еще меньшего отклонения для достижения нижнего порога значимости: всего в 26/1000 = 2,6% случаев. Таким образом, даже микроскопически слабый феномен «предвидения», если он действительно будет иметь место, может быть зафиксирован как статистически значимый, если количество испытуемых и экспериментальных сессий будет достаточно велико. Что мы и наблюдаем, например, в приведенном в первой главе ряде научных исследований [82] [83]. Но формулу Бернулли при огромных выборках использовать не получится в виду слишком больших чисел, поэтому придется использовать другие методы.

В заключение этого раздела, рассмотрим пару других примеров. Допустим, мы угадываем не количество яблок, а какой стороной легла монета. Поскольку сторон у монеты две, то вероятность удачи будет равна 1/2. Предположим, что мы произвели 100 подходов и успешно угадали сторону в 58 случаях, т. е. на 8 раз (8% = 8/100) больше «нормы». Можно ли делать вывод о том, что это произошло не случайно (конечно, если монета «честная», т. е. идеально сбалансирована)?

Рис. 9. Расчет p-value в программе p-Bernoulli для 58 удач из 100 попыток с вероятностью удачи 1/2

Ответ: нет, в таком случае p-value оказывается в пределах нормы (см. рис. 9). В 6,66% случаев такой исход произойдет случайно, а мы традиционно устанавливаем нижний порог значимости в 5% (p<0.05). На графике мы видим, что для получения нижнего порога значимости нужно было угадать хотя бы 59 раз из 100, в то время как p<0.01 мы получили бы при 63 и более угадываниях, а p<0.001 при 66 и более.

Аналогичным образом можно рассчитать p-value в экспериментах с картами Зенера [84] [85] (вероятность удачи будет 1/5 = 20% = 0,2), угадыванием карты на колоде из 36 карт (без масти = 1/(36/4) = 1/9 ≈ 11,1% = 0,111), выигрышем в лотерею (вероятность в таком случае будет определяться условиями розыгрыша и обычно ее можно найти на тематических сайтах) и т. д. Но важно помнить, что данный подход годится только для тех случаев, когда вероятность удачи известна, постоянна и равнозначна для каждого из вариантов. В тотализаторе, к примеру, вероятность выигрыша/проигрыша/ничьей в том или ином спорте будет разная. И в таком случае можно будет говорить не о точном p-value, при данном подходе, а огрубленном, т. е. округленном в бо́льшую сторону.

Рис. 10. Вероятность ничьи в футболе, с сайта playbookmaker.ru [86]

К примеру, в футболе по открытой статистике за последние годы ничьи происходят с частотой около 26 на 100 случаев [87], т. е. 26%, т. е. 0,26 (см. рис. 10). Значит на выигрыш/проигрыш остается 100% – 26% = 74% = 0,74. Вероятность выигрыша или проигрыша таким образом составляет 74% / 2 = 37% = 0,37. Вот это число мы и должны ставить в поле «вероятность удачи» для того, чтобы приблизительно рассчитать p-value с округлением в большую сторону по формуле Бернулли, потому что оно соответствует наибольшей из трех вероятностей по каждому из исходов (37% = 37% > 26%). Рассчитанное огрубленное значение в таком случае получится заведомо выше истинного, т. е. с запасом, ведь мы стремимся к наименьшему значению p-value. Таким образом, если, к примеру, мы получим p<0.05, то по крайней мере будем знать, что результат точно в пределах минимально статистически значимого, а может быть еще «лучше». В таком случае мы не совершим ошибку, если сочтем эксперимент успешным (по крайней мере достойным пересчета по более сложным статистически методам, если мы хотим быть совсем уверенными и точными). А вот если мы получим большее значение p-value, то говорить об успешности эксперимента мы уже не сможем, хотя может быть он на самом деле и успешен, а нам просто не хватило точности в огрубленных расчетах. В таком случае, чтобы это выяснить, без более сложных методов расчета не обойтись.

При экспериментах с тотализатором нужно также иметь в виду, что коэффициенты, которые указываются букмекерами, не должны учитываться при ставках. Иначе формулу Бернулли использовать в принципе нельзя, ведь вероятность удачи получается каждый раз уникальная и если мы будем ставить на заведомо сильные команды, то, конечно, получим сильное отклонение от усредненного вероятного, рассчитанного по обобщенной статистике. И поскольку как-то объективно зафиксировать, что испытуемый не ориентируется на эти коэффициенты, на практике очень сложно, раз они общедоступны, то этот способ расчета в полноценных научных статьях использовать вряд ли получится, если исследуется именно тотализатор. Но есть и другие методы, например расчет коэффициента Спирмена [88] [89], Пирсона [90] [91] или Кендалла [92] [93], хи-квадрат [94] [95], t-критерий Стьюдента [96] [97] и т. д. Всегда можно найти что-то подходящее. Однако правильнее, конечно, сразу формулировать условия эксперимента так, чтобы выбранный статистический метод с этими условиями идеально сочетался.

Мы продолжим разговор о других статистических методах и связанных с ними принципах в новых статьях в рамках данного журнала, когда к этому появится подходящий пример и повод. А теперь можно перейти к собственно эксперименту.