– Какова вероятность, что, если открыть кран
на кухне, из него потечет коньяк?
– Пятьдесят на пятьдесят. Либо потечет, либо нет.
Народная мудрость
Есть три вида лжи: ложь, наглая ложь и статистика.
Марк Твен (истинный источник неизвестен)
Итак, среди нынешней паники, связанной с коронавирусной инфекцией, мы все чаще слышим о том, что этот вирус очень страшен, что надо всем вакцинироваться, иначе умрем. Что заразность зашкаливает, а смертность – и подавно, поэтому надо обязательно выявлять всех носителей вируса и сжигать на костре создавать им дополнительные проблемы в жизни, попутно добывая из них деньги. В связи с этим введена пока не обязательная вакцинация, но уже обязательное тестирование, которое и призвано выявить заболевших людей в обществе, даже если у них нет симптомов.
Не будем останавливаться на медицинских, моральных, финансовых аспектах этой проблемы – об это и так много копий сломано. Хотелось бы рассмотреть подробнее вот какой вопрос.
Предположим, вам сделали тест на коронавирус, этот пресловутый тест с использованием полимеразной цепной реакции (ПЦР). И тест – не дай Бог – показал положительный результат. Так стоит ли паниковать, запираться в четырех стенах, не пускать к себе своих близких, посыпать голову пеплом и готовиться к путешествию в мир иной?
Поставим вопрос математическим языком: У вас положительный тест. С какой вероятностью вы на самом деле больны?
Это очень важный вопрос. Ответ на него тщательно скрывается, потому что он напрямую связан не только с эффективностью ПЦР-тестирования, но и с общей статистикой заболеваемости. Кажущийся очевидным ответ – «Ну, с какой точностью работает тест, такая и вероятность» – абсолютно неверен.
Для расчета вероятности факта вашей болезни мы воспользуемся формулой Байеса для условной вероятности. Она определяется следующим образом:
Пусть у нас есть два связанных события A и B. Вероятность наступления одновременного события (и A, и B) через формулы для условной вероятности равна
В то же время та же вероятность равна
Здесь P(AB) – это вероятность одновременного события A и B; P(A) и P(B) – вероятности независимых событий A и B, соответственно. Выражениями P(A | B) и P(B | A) обозначаются условные вероятности: P(A | B) – вероятность события A при условии того, что событие B произошло, P(B | A) соответственно, наоборот – вероятность события B при условии того, что произошло событие A.
Теорема Байеса заключается в приравнивании этих двух выражений:
или
Последняя формула часто именуется формулой Байеса.
Приведем пример: Вы кидаете монетку два раза. Наверное, каждый, кто изучал хоть немного теорию вероятности, помнит, что каждый раз вероятность выпадения решки, как и вероятность выпадения орла, равна 1/2. Некоторые помнят также и то, что, кидая монетку два раза подряд, вероятность выбросить подряд два орла равна произведению вероятностей в каждом броске и составляет 1/4. Как это получить с помощью формулы Байеса?
Предположим, мы бросили монетку, и выпал орел. При условии того, что в первый раз выпал орел, вероятность выпадения орла во второй раз будет, очевидно, 1/2. Обозначим событие A = выпадение двух орлов подряд, событие B = выпадение орла в первый раз. Тогда в левой части формулы – P(A | B) – мы увидим вероятность выпадения двух орлов подряд при условии того, что в первый раз выпал орел. В числителе дроби перемножается вероятность P(B | A) того, что в первый раз выпал орел при условии того, что орел выпал два раза подряд (очевидно, это 1, или 100%) и вероятность P(A) выпадения двух орлов подряд просто, без всяких условий. Она равна 1/4. В знаменателе дроби стоит вероятность P(B) того, что орел выпал в первый раз, которая, как мы знаем, равна 1/2. Поскольку в нашем примере мы и так знаем все числа, у нас получается тождество – слева будет 1/2, справа – 1/4, которую мы делим на 1/2, также даст 1/2:
Приведем более практичный пример с Википедии. Там довольно подробно описана вообще теорема Байеса, поэтому интересующимся людям стоило бы заглянуть туда и узнать побольше.
Итак, пусть у нас есть машина, которая может не завестись (событие B). При этом бывают ситуации, когда в ней просто-напросто кончился бензин (событие A). Если бензина в машине нет, то она точно не заведется, то есть, P(B | A) = 1. Предположим, для определенности, что вероятность того, что машина не заводится, равна 0,02, а вероятность того, что в ней нет бензина, равна 0,01. Тогда вероятность отсутствия бензина в машине при условии, что она не завелась, равна P(A | B) = 0,01 / 0,02 = 0,5.
В данном случае, формула Байеса позволяет определить, насколько вероятно, что машина не завелась потому, что в ней нет бензина, и она показывает, что в половине случаев это так, тогда как в оставшейся половине случаев причина ее поломки иная. Иными словами, эта замечательная формула позволяет в некотором роде поменять причину и следствие и оценить, насколько вероятно, что следствие вызвано именно этой причиной.
Вернемся к ПЦР-тестированию и его связи с реальной болезнью. Обозначим через A вероятность того, что человек болен, и через B – вероятность срабатывания ПЦР-теста (другими словами, его эффективность). Эффективность теста – это как раз условная вероятность P(B | A). Нам необходимо определить условную вероятность P(A | B) – наличия заболевания при условии положительного теста.
Откуда же нам взять данные для расчетов? Для определения эффективности теста обратимся, например, к публикации РБК от 7 апреля 2020, где точность ПЦР-тестов оценивается в 70-80%. Правда, в более поздней статье от 5 ноября 2020 года точность тестов несколько снизилась (до 40% ошибочных тестов). Правда, там оговаривается со ссылкой на интервью директора Института здравоохранения ВШЭ Ларисы Попович, что точность самих тестов составляет 95-96%, а ошибки допускаются при заборе материалов, поэтому 60-70% точности относится только к ложноотрицательным тестам (когда результат отрицательный, но болезнь все равно есть.
Мы при расчетах покажем все варианты.
Самое трудное в получении наших желаемых результатов – это определить, насколько вероятно само наличие заболевания у человека. Это, можно сказать, ключевой момент в любом анализе такого рода. Как правило, в таких случаях берут не вероятность, а частоту распространения болезни среди людей. Для определения этой частоты, то есть, каков процент людей болеющих среди населения, обратимся к нашему главному оратору объявленной пандемии – сайту стопкоронавирус.рф. На момент написания этой статьи там были опубликованы следующие цифры: Количество проведенных тестов – более 81,5 млн; число заболевших – около 2,6 млн; число выздоровевших – чуть более 2,0 млн.
Побежали считать.
Нам понадобится частота заболеваний. Она равна число одновременно больных людей, поделенному на число протестированных людей. Точнее говоря, на число протестированных людей за исключением тех, что уже выздоровели. То есть, эту частоту подставляем в качестве нашей вероятности P(A), которая равна (2 600 000 – 2 000 000) / (81 500 000 – 2 000 000). Что составляет примерно 0,00755 или 0,755%.
Предположим, что эффективность теста – 70%. Мы ведь ожидаем, примерно такой же результат – тест положительный, значит, наверное, человек болен с вероятностью 70%?
Подставляем числа в формулу Байеса. В числителе стоит P(B | A) * P(A), где первая величина P(B | A), как мы уже сказали, есть эффективность ПЦР-теста, которая составляет 0,7, а вторая величина – частота, или, назовем ее так, априорная вероятность наличия заболевания, которая равна 0,00755.
В знаменателе стоит вероятность положительного теста. Эта вероятность состоит из суммы истинно положительного теста (если заболевание есть на самом деле, и оно правильно диагностировано) и ложного положительного теста (если тест показал наличие заболевания, а на самом деле человек здоров), который мы обозначим как ‑A.
Таким образом, вся формула, приведенная к известным нам величинам, будет выглядеть таким образом:
Первое слагаемое знаменателя, как несложно заметить, совпадает с числителем. Во втором слагаемом, при эффективности теста в 70%, вероятность его ложного срабатывания равна 30%, или 0,3. Вероятность отсутствия болезни P(‑A) = 1 – P(A).
Подставляем все значения в формулу:
Чуть менее двух процентов. Что за дела, спросите вы, и будете правы. Да, при столь редком заболевании эффективность тестирования в 70% недостаточна для его выявления. Оно даст колоссальное количество ложных результатов.
Что же делать, если лучших тестов нет? Ответ тут один – делать повторные тесты. Частота заболевания взята вместо вероятности и названа априорной вероятностью не просто так – это та информация, которой мы пользуемся априори, не зная наперед результатов. После проведения первого тестирования, наподобие того, как происходит в серии с бросанием монеток, можно уточнить результат с помощью повторного тестирования. В этом повторном тестировании вместо априорной вероятности P(A) берется апостериорная вероятность P(A | B1), которая равна вероятности наличия у человека заболевания по результатам первого теста. Ведь результат пусть не очень сильно, но увеличился – вместо величины менее одного процента, как было до какого-либо тестирования, теперь человеку известно, что он болен с вероятностью почти два процента. Вот эту вероятность и подставим в формулу для получения вероятности наличия болезни по результатам второго теста:
Вот так. Мы еще немного улучшили достоверность знаний о наличии заболевания при проведении двух тестов подряд. Не забывайте, что оба теста должны быть положительные.
Продолжаем улучшать результат с помощью третьего теста:
Уже почти 10%! Вот это результат. Всего-то три теста понадобилось для такой уверенности.
Не вдаваясь в подробности, скажем, что первый результат больше 50% наступает после шестого теста. После девятого теста результат будет 94%, а после десятого – 97%. Итак, необходимо произвести десять тестов подряд, при этом каждый из них должен быть положительным, чтобы с вероятностью в 97% убедиться, что человек болен!
Вы скажете, позвольте, может быть, тут что-то не так?
Не то, чтобы было что-то «не так». Все дело в исходных данных. Мы не зря привели ссылку на эффективность теста в 95-96%. Наши медики, видимо, стараются оправдаться сами и оправдать метод тестирования. Давайте посчитаем те же вероятности с этими данными. Пусть ложноотрицательных тестов столь же мало, как и ложноположительных, то есть, эффективность составляет 96%. Мы знаем, как любят натягивать данные для получения лучших результатов путем заявления вроде «95-96%№. Подозреваем, что там 95%, но делаем вид, что верим, и берем числа в пользу медиков, хотя разница между 95% и 96% будет огромная.
Целых пятнадцать процентов после первого же теста! Интересно, сколько тестов понадобится, чтобы получить 97%?
Вот это уже серьезно. Всего лишь один из пяти человек после получения двух положительных тестов подряд будет ошибочно объявлен больным.
Третий тест уже дает 99% – результат, который мы будем считать приемлемым.
Это лучший результат, который может быть получен по представленным российскими пиарщиками от медицины данным. Нетрудно посчитать, что «промежуточный» результат – когда количество ложноотрицательных тестов равно 70%, а заявленая «эффективность самого теста» – 96%, в первом тестировании вероятность будет 12%, во втором – чуть меньше 70%, в третьем – около 97%.
Рассмотрим еще один серьезный источник статистики по эффективности тестирования – статья сообщества Кокрейн, опубликованная 25 июня 2020 года. В этой статье приводятся результаты анализа данных из целого множества лабораторий, изучавших на тот момент коронавирус. В частности, там сказано, что эффективность выявления коронавируса с применением ПЦР-тестирования возрастает по мере проявления болезни и составляет от 30% спустя неделю при появлении первых симптомов до 90% на третьей неделе развития болезни, со средним показателем в 70%. В этой же статье сказано, что вероятность ложноположительных тестов – 2 процента. Отлично, давайте посчитаем интересующую нас вероятность с такими исходными данными. Обратите внимание на несимметричность пропорции ложноотрицательных и ложноположительных тестов.
Двадцать один процент после первого теста.
Девяносто процентов после второго теста. И все-таки, наверное, оказаться одним из десяти «ложноположительных» человеку не хочется, поэтому стоит сделать третий тест, чтобы получить вероятность более 99%.
Какие же выводы стоит сделать? Позволим себе немножечко порассуждать.
Начнем с того, что для определения того, больны вы или нет, необходимо куда больше, чем один ПЦР-тест. Необходимо минимум три теста, как показывает опыт множества лабораторий, и даже российские пропагандисты коронавирусы это косвенным образом признают – с математикой тут не поспоришь. Все эти три теста должны быть положительными! Это важно – три положительных теста из пяти не означают тот же результат!
Проанализируем внимательно формулу Байеса. Если вероятность ложноположительного теста равна нулю, то, как несложно заметить, числитель и знаменатель становятся одинаковыми, и вероятность с первого теста получить результат равна единице – что и неудивительно, если тест показал «болен», то тут уж болен, никуда не денешься. Вероятность получения этого «болен» равна заявленой эффективности теста, будь то 70%, 90% или 96%. А вот что тщательнейшим образом умалчивается – это вероятность ложноположительных тестов. Наши официальные голоса в медиа все как один заявляют, что «ложноположительных тестов не бывает», именно для того, чтобы заставить зрителей поверить, что эффективность теста равна вероятности достоверных сведений о том, больны вы или нет, по результатам теста. Конечно же, это неверное утверждение – идеальных тестов в реальной жизни не бывает. Уже забыт скандал, связанный с тестированием с помощью ПЦР всего подряд в Танзании, в результате чего коза и даже папайя показали положительный результат тестирования на коронавирус. Возможно, это и выдуманная история, но факт остается фактом: ложноположительные тесты существуют.
Даже малейший шанс получить ложноположительный результат дает такую низкую вероятность наличия заболевания потому, что само заболевание является очень редким: частота, или количество одновременно больных людей, в России составляет 0,7%. Если тестировать, например, вирус герпеса, который, по разным подсчетам, встречается у более чем 80% людей, то точности даже одного –двух тестов в 90% более чем достаточно. Это еще один факт, признание которого очень неудобно для поддержания истерической паники. Числа очень маленькие. А с маленькими числами удобно проводить различного рода манипуляции, в результате которого получаются большие различия.
Читатели, которые боятся коронавируса, добравшись до этих строк, уже кричат в негодовании: «А кто же тогда лежит штабелями в больницах?! Врачи работают, не покладая рук!» Да, работают. Оставшиеся врачи. Прямо после «оптимизации» медицины, проведенной в разгар объявленной эпидемии в Китае в конце 2019 года. Имеются также вопросы к качеству оказания помощи, но это, пожалуй, пусть останется за рамками данного исследования. Тут – математика. С калькулятором эмоциями не спорят.
От редакции.
Многие учёные утверждают, что «ошибки» тесты дают не менее чем в 60% случаев… если принять во внимание эту цифру… становится совсем грустно…
А «вирус мозга» продолжает растекаться по планете…