Причинно-следственная связь и корреляция: в чем разница и почему ее важно понимать в работе над продуктом

Линейный коэффициент корреляции

Частная корреляция

С помощью коэффициента частной корреляции определяется теснота связи между двумя
факторами при фиксировании или исключении влияния остальных. Коэффициент частной корреляции рассчитывается
по следующей формуле:

Пример 2. Собраны данные для установления зависимости цены квартиры,
с одной стороны, и общей площади, площади жилой зоны и площади кухни, с другой стороны. Установить тесноту связи между
ценой квартиры и её общей площади при исключении влияния площади жилой зоны и площади кухни.

Решение. Сначала выбираем две независимые переменные — площадь жилой зоны и общая площадь.
Устанавливаем тесноту связи между ценой квартиры и площадью жилой зоны при исключении влияния общей
площади. Значение коэффициента частной корреляции: 0,74. Теперь устанавливаем тесноту связи между ценой
квартиры и площадью жилой зоны при исключении влияния площади кухни. Значение коэффициента частной
корреляции: 0,61. Вывод: от площади жилой зоны цена квартиры более тесно зависит при исключении влияния
общей площади, чем при исключении площади кухни.

Назад Листать Вперёд>>>

Всё по теме «Математическая статистика»

Меры описательной статистики

Задача описательной статистики, как следует из названия, — дать хорошее описание данных. Она не для предсказаний, выводов или преобразований — только внешняя форма данных, измеренная в показателях.

Ключевые показатели, применяемые в описательной статистике (их ещё называют мерами или, если точнее, ), — это:

  • Среднее: чаще всего вычисляется как среднее арифметическое. Просто складываем все значения, делим на их количество — и вуаля, средняя температура по больнице готова.
  • Медиана: если выстроить все данные по возрастанию и найти середину этого ряда, это как раз и будет медиана. Одна половина из значений данных будет больше медианы, а другая — меньше.
  • Мода: значение в наборе данных, которое встречается чаще всего. Запомнить очень легко: мода — самое популярное из значений, то, что «носят все».

Посмотрите это небольшое видео о среднем, медиане и моде на сайте Академии Хана — образовательного ресурса, который славится доходчивыми объяснениями. Там всё просто, на понятном русском языке.

Кроме трёх перечисленных, есть и другие статистические показатели — например, . Главная из них — дисперсия, о ней ниже. Все они нужны, чтобы понять, какие перед нами данные и о чём именно они рассказывают.

Типы корреляции

Корреляция — это статистическая мера, которая исследует взаимосвязь между двумя переменными.Это помогает определить, насколько сильно переменные связаны друг с другом.Эта мера обычно используется во многих областях, включая финансы, экономику, психологию и социальные науки.Таким образом, важно знать различные типы корреляции, чтобы понять природу и силу взаимосвязи между изучаемыми переменными. Существует три типа корреляции: положительная, отрицательная и нулевая корреляция.Положительная корреляция — это когда увеличение одной переменной приводит к увеличению другой.Например, чем больше вы учитесь, тем выше будут ваши оценки.Отрицательная корреляция, с другой стороны, это когда увеличение одной переменной приводит к уменьшению другой.Примером этого является взаимосвязь между количеством часов, проведенных на просмотре телевизора, и оценками в школе.Наконец, нулевая корреляция — это когда нет никакой связи между двумя переменными.Например, нет никакой корреляции между цветом волос человека и размером обуви

Существует три типа корреляции: положительная, отрицательная и нулевая корреляция.Положительная корреляция — это когда увеличение одной переменной приводит к увеличению другой.Например, чем больше вы учитесь, тем выше будут ваши оценки.Отрицательная корреляция, с другой стороны, это когда увеличение одной переменной приводит к уменьшению другой.Примером этого является взаимосвязь между количеством часов, проведенных на просмотре телевизора, и оценками в школе.Наконец, нулевая корреляция — это когда нет никакой связи между двумя переменными.Например, нет никакой корреляции между цветом волос человека и размером обуви.

1. Положительная корреляция. Как упоминалось ранее, положительная корреляция — это когда увеличение одной переменной приводит к увеличению другой.Этот тип корреляции может быть сильным или слабым.Сильная положительная корреляция означает, что переменные тесно связаны, в то время как слабая положительная корреляция означает, что переменные имеют низкую степень ассоциации.Примером сильной положительной корреляции является связь между ростом и весом.Более высокие люди, как правило, весят больше, чем более короткие люди.С другой стороны, слабая положительная корреляция — это связь между количеством рабочих часов и доходом.

2. Отрицательная корреляция: отрицательная корреляция — это когда увеличение одной переменной приводит к снижению другой.Этот тип корреляции также может быть сильным или слабым.Сильная отрицательная корреляция означает, что переменные тесно связаны, в то время как слабая отрицательная корреляция означает, что переменные имеют низкую степень ассоциации.Примером сильной отрицательной корреляции является взаимосвязь между количеством сигарет копченых и функцией легких.Чем больше сигарет курит человек, тем ниже функция легких.С другой стороны, слабая отрицательная корреляция — это связь между количеством часов, проведенных физическими упражнениями, и увеличением веса.

3. Нулевая корреляция: нулевая корреляция — это когда нет никакой связи между двумя изученными переменными.Это означает, что изменения в одной переменной не влияют на другую.Примером нулевой корреляции является связь между цветом волос человека и их IQ.Независимо от того, какого цвета волосы человека, это не влияет на их IQ.

Понимание различных типов корреляции имеет важное значение для определения взаимосвязи между двумя переменными.Положительная корреляция означает, что увеличение одной переменной приводит к увеличению другой.Отрицательная корреляция означает, что увеличение одной переменной приводит к уменьшению другой.Наконец, нулевая корреляция означает, что между двумя переменными нет никакой связи.Зная эти типы корреляции, исследователи могут лучше понять природу и силу взаимосвязи между изучаемыми переменными. Типы корреляции — Корреляция: Дисперсия и зависимость: исследование корреляции

Типы корреляции — Корреляция: Дисперсия и зависимость: исследование корреляции

Примеры корреляций, которые ошибочно принимают за причинно следственную связь

Рассмотрим типовые ситуации из жизни, когда наличие корреляции приводит к ложному выводу о наличии причинно-следственной связи в бытовых ситуациях. 

В своей книге «» Daniel Kahneman (Даниэль Канеман) описывает на лекции для израильских летчиков. Один из инструкторов настаивал, что курсанты лучше справляются с задачей после того, как он жестко критикует их за ошибки. Канеман предложил провести эксперимент, в ходе которого эти курсанты должны были не глядя дважды бросить монетку в нарисованную на полу мишень. Опыт показал: те, у кого первый бросок был ближе к цели, во второй раз бросали не так точно. И наоборот.

Таким экспериментом Канеман продемонстрировал феномен регрессии к среднему. Когда летчик очень плохо или очень хорошо исполнил упражнение, то часто для него это было отклонением от среднего значения. Поэтому с высокой вероятностью его следующее исполнение будет ближе к среднему, то есть лучше или хуже предыдущего.

Получается, что не критика помогала курсантам показывать лучшие результаты после провального опыта, а регрессия к среднему. Инструктор ошибочно принял корреляцию между критикой и улучшением результатов курсантов после нее за причинно-следственную связь.

Некоторые широко известные убеждения тоже являются корреляцией, которая маскируется под причинно-следственную связь.

Например, идея о том, что занятия музыкой в дошкольном возрасте улучшают когнитивные способности, память и внимание ребенка. Хотя корреляция между этими факторами действительно может быть, говорить о прямой причинно-следственной связи нельзя, так как на результат может влиять масса факторов

Может быть, занятия музыкой для ребенка требуют от семьи дополнительных финансовых ресурсов. То есть, если семья может направить деньги не только на базовые потребности, но и на дополнительное образование, с высокой вероятностью ребенок имеет доступ к лучшему питанию, лучшему основному образованию и другим благам, которые могут позитивно отражаться на интеллекте ребенка.

Еще один пример.

В Washington Post пришла к выводу, что рост затрат на полицию в США не привел к сокращению преступности. Автор через кажущееся отсутствие прямой корреляции пытается опровергнуть причинно-следственную связь между событиями: увеличение бюджета полиции не приводит к пропорциональному сокращению уровня преступности. 

Но говорить о том, что здесь обязательно должна быть причинно-следственная связь, нельзя. Например, именно рост преступности может быть драйвером расходов на полицию, а не наоборот. Без тщательного исследования мы не можем утверждать ни того, ни другого.

В психологии

В психологии анализ корреляций является важным методом исследования, который позволяет установить связь между различными психологическими явлениями и явлениями окружающей среды. Корреляционный анализ позволяет определить, насколько сильно связаны между собой две или более переменные, и выявить направление и силу этой связи.

Одной из областей, где корреляционный анализ широко применяется, является изучение взаимосвязи между различными психологическими характеристиками личности. Например, с помощью корреляционного анализа можно определить, есть ли связь между уровнем тревожности и уровнем самооценки у человека. Если такая связь будет обнаружена, это может указывать на то, что люди с более высоким уровнем тревожности имеют более низкую самооценку.

Корреляционный анализ также применяется в исследованиях, направленных на выявление связи между психологическими характеристиками и результатами в различных областях жизни. Например, с помощью корреляционного анализа можно определить, есть ли связь между уровнем интеллекта и успехом в учебе или профессиональной деятельности. Если такая связь будет обнаружена, это может указывать на то, что люди с более высоким уровнем интеллекта имеют больше шансов достичь успеха в учебе или карьере.

Кроме того, корреляционный анализ может быть полезным инструментом для исследования эмоциональной и психической составляющей человека. Например, с помощью корреляционного анализа можно определить, есть ли связь между уровнем депрессии и уровнем самооценки у человека. Если такая связь будет обнаружена, это может указывать на то, что люди с более высоким уровнем депрессии имеют более низкую самооценку.

Таким образом, корреляционный анализ является важным инструментом в психологии, который позволяет выявить связи между различными психологическими явлениями и явлениями окружающей среды. Этот метод позволяет получить более глубокое понимание психологических процессов и характеристик личности, а также может быть полезным для разработки эффективных психологических интервенций и программ.

Смещение

Аналогично тому, как производится выборка из генеральной совокупности, дата-сайентисты из готового датасета выделяют тренировочный набор. Именно на этой «выборке второго порядка» модель учится делать предсказания.

Прочитайте нашу статью о создании простой модели машинного обучения. Она предсказывает город, в который вероятнее всего поедет турист, на основании его возраста, пола, места жительства, дохода и транспортных предпочтений. Такая рекомендательная система на минималках.

Смещение происходит, когда модель недооценивает или переоценивает какой-либо параметр. Представим, что модель из статьи выше отправляет всех краснодарцев в Париж — независимо от их дохода, предпочтений и других параметров. В этом случае мы скажем, что модель переоценивает значение параметра «Город проживания».

Чаще всего причиной смещения являются:

  • неправильный сбор данных в датасет: например, в него попали только краснодарцы — любители Парижа;
  • неправильное формирование тренировочного набора из датасета;
  • неправильное измерение ошибок.

Когда мы неверно собираем данные, говорят о систематической ошибке отбора. Например, в прошлом веке многие считали, что во Вселенной больше голубых галактик, — впечатление возникало потому, что плёнка была более чувствительна к голубой части спектра.


О доброте дельфинов мы знаем только от спасённых ими людей. Фото: Pixabay

Другая ошибка — ошибка меткого стрелка — происходит, когда мы вольно или невольно отбираем в выборку только схожие между собой данные, то есть фактически рисуем мишень вокруг места, куда попадём.

Причин, вызывающих смещение, так много, что Марк Твен заметил: «Существует три вида лжи: ложь, наглая ложь и статистика». Например:

  • Эффект низкой/высокой базы. Если в финансовом отчёте найти самый низкий показатель прибыли, то на его фоне любой другой результат будет выглядеть как достижение. И наоборот: если хотите показать, что ученик перестал прогрессировать, сравнивайте текущие оценки с его лучшими результатами за все годы обучения.
  • Сокращение рассматриваемого периода. Если хочется доказать, что рекламная кампания не приносит результатов, надо просто найти период, когда деньги уже потрачены, а эффекта ещё нет. И рассматривать только его.
  • Исключение из выборки. Если вы измеряете результативность методики снижения веса, то можно выкидывать из выборки участников, которые отказались от методики, не дойдя до конца. Это существенно «повысит» эффективность методики.
  • Ну и, конечно же, классика: «Интернет-опрос населения показал, что 100% населения пользуются интернетом».

Эти и другие ошибки смещения трудно выявить статистическими методами, поэтому нужно стараться избежать их до того, как вы начнёте сбор данных.

Если пить «Боржоми» уже поздно (датасет уже сформирован), обязательно спросите себя: «Не смещены ли мои данные?» — а они наверняка смещены, «Куда и почему они смещены?» и «Можно ли с этим жить?»

Выборочный коэффициент корреляции

Коэффициент корреляции обычно рассчитывают по выборке. Значит, у аналитика в распоряжении не истинное значение, а оценка, которая всегда ошибочна. Если выборка была репрезентативной, то истинное значение коэффициента корреляции находится где-то относительно недалеко от оценки. Насколько далеко, можно определить через доверительные интервалы.

Согласно Центральное Предельной Теореме распределение оценки любого показателя стремится к нормальному с ростом выборки. Но есть проблемка. Распределение коэффициента корреляции вблизи придельных значений не является симметричным. Ниже пример распределения при истинном коэффициенте корреляции ρ = 0,86.

Предельное значение не дает выйти за 1 и, как бы «поджимает» распределение справа. Симметричная ситуация наблюдается, если коэффициент корреляции близок к -1.

В общем рассчитывать на свойства нормального распределения нельзя. Поэтому Фишер предложил провести преобразование выборочного коэффициента корреляции по формуле:

Распределение z для тех же r имеет следующий вид.

Намного ближе к нормальному. Стандартная ошибка z равна:

Далее исходя из свойств нормального распределения несложно найти верхнюю и нижнюю границы доверительного интервала для z. Определим квантиль стандартного нормального распределения для заданной доверительной вероятности, т.е. количество стандартных отклонений от центра распределения.

cγ – квантиль стандартного нормального распределения;N-1 – функция обратного стандартного распределения;γ – доверительная вероятность (часто 95%).Затем рассчитаем границы доверительного интервала.

Нижняя граница z:

Верхняя граница z:

Теперь обратным преобразованием Фишера из z вернемся к r.Нижняя граница r:

Верхняя граница r:

Это была теоретическая часть. Переходим к практике расчетов.

Примеры отсутствия корреляции в законодательстве

1. Налоговое законодательство

Налоговое законодательство содержит различные налоги и сборы, которые взимаются с населения и организаций. Однако, налоги и сборы не всегда коррелируют напрямую с доходами населения и организаций. Например, земельный налог зависит от площади земельного участка, который может не иметь никакого отношения к доходам его владельца. Также существует подоходный налог, который зависит от дохода населения, но не учитывает другие факторы, такие как экономический рост, инфляция и другие социально-экономические показатели.

2. Уголовное законодательство

Уголовное законодательство предусматривает ответственность за нарушение закона, однако не всегда коррелирует с объективными фактами событий. Например, распространение наркотических веществ наказывается уголовно, несмотря на то, что некоторые из этих веществ могут быть полезными для лечения некоторых заболеваний.

3. Гражданское законодательство

Гражданское законодательство регулирует гражданские отношения между физическими и юридическими лицами. Например, если взять договор купли-продажи, то он не всегда коррелирует с реальной стоимостью товара, так как цена может зависеть от многих других факторов, например, конъюнктуры рынка и спроса на данный товар.

4. Административное законодательство

Административное законодательство устанавливает административные правонарушения и соответствующие санкции за их нарушение. Но административные правонарушения не всегда коррелируют со степенью нарушения и причинами, которые лежат в его основе. Например, штраф за парковку на газоне может быть одинаковым с штрафом за превышение скорости на 20 км/ч, хотя степень нарушения и социальная опасность в данном случае существенно отличаются друг от друга.

Проверка значимости корреляции

Для оценки статистических величин используется понятие их значимости или же достоверности, характеризующей вероятность случайного возникновения величины либо крайних ее значений.

Наиболее распространенным методом определения значимости корреляции является определение критерия Стьюдента.

Его значение сравнивается с табличным, количество степенней свободы принимается как 2. При получении расчетного значения критерия больше табличного, свидетельствует о значимости коэффициента корреляции.

При проведении экономических расчетов достаточным считается доверительный уровень 0,05 (95%) либо 0,01 (99%).

Понимание дисперсии

При изучении корреляции важно понимать дисперсию, которая относится к степени, в которой набор данных распределяется или распределяется.Понимание дисперсии является ключом к пониманию корреляции, поскольку оно может сильно повлиять на взаимосвязь между двумя переменными.Дисперсия может быть измерена с использованием различных статистических инструментов, таких как диапазон, дисперсия и стандартное отклонение, каждый из которых предоставляет различные уровни информации о распределении точек данных. С математической точки зрения дисперсия измеряется объемом изменчивости в наборе данных.На эту изменчивость может повлиять многие факторы, такие как выбросы, размер выборки и основное распределение данных.Выбросы — это точки данных, которые значительно отличаются от остальных данных и могут значительно повлиять на дисперсию данных.Размер выборки также может влиять на дисперсию, так как большие размеры выборки имеют тенденцию иметь меньшую изменчивость, чем меньшие размеры выборки.Основное распределение данных также может влиять на дисперсию, причем различные распределения приводят к различным уровням изменчивости

С математической точки зрения дисперсия измеряется объемом изменчивости в наборе данных.На эту изменчивость может повлиять многие факторы, такие как выбросы, размер выборки и основное распределение данных.Выбросы — это точки данных, которые значительно отличаются от остальных данных и могут значительно повлиять на дисперсию данных.Размер выборки также может влиять на дисперсию, так как большие размеры выборки имеют тенденцию иметь меньшую изменчивость, чем меньшие размеры выборки.Основное распределение данных также может влиять на дисперсию, причем различные распределения приводят к различным уровням изменчивости.

Чтобы лучше понять дисперсию, вот несколько ключевых концепций, которые следует иметь в виду:

1. Диапазон: диапазон измеряет разницу между самыми большими и наименьшими значениями в наборе данных.Несмотря на то, что он обеспечивает простой способ измерения дисперсии, на него могут сильно повлиять выбросы и могут не предоставить полную картину распределения данных.

2. Дисперсия: дисперсия измеряет, насколько распространены данные из среднего значения.Он учитывает все точки данных и обеспечивает более надежную меру дисперсии, чем диапазон.Тем не менее, это трудно интерпретировать, как это измеряется в квадратных единицах.

3. Стандартное отклонение: стандартное отклонение — это квадратный корень дисперсии и обеспечивает более интерпретируемую меру дисперсии.Он измеряет, насколько далеко точки данных находятся от среднего и часто используются для выявления выбросов или необычных точек данных.

Чтобы проиллюстрировать влияние дисперсии на корреляцию, рассмотрите следующий пример: предположим, что мы изучаем взаимосвязь между часами изучения и оценками экзаменов.Если данные сильно диспергированы, а некоторые студенты изучают очень мало, а другие много изучают, корреляция между часами обучения и оценками экзаменов может быть слабее, чем если бы данные менее рассеяны, причем большинство учащихся изучают аналогичное количество.Другими словами, дисперсия может повлиять на силу и направление взаимосвязи между двумя переменными и должна учитываться при интерпретации результатов корреляции.

Понимание дисперсии является ключевым компонентом изучения корреляции.Измеряя изменчивость точек данных, мы можем получить представление о распределении данных и о том, как это влияет на взаимосвязь между двумя переменными.Тщательное понимание дисперсии может помочь исследователям идентифицировать выбросы, интерпретировать результаты корреляции и сделать более осознанные выводы о данных.

Понимание дисперсии — Корреляция: Дисперсия и зависимость: исследование корреляции

Заключение и рекомендации

Предыдущие разделы проливают свет на концепции корреляции, дисперсии и зависимости.К настоящему времени должно быть ясно, что корреляция измеряет силу и направление линейной связи между двумя переменными.Дисперсия, с другой стороны, рассказывает нам, насколько распространены данные.Зависимость относится к взаимосвязи между двумя переменными, которые могут быть линейными или нелинейными.Эти концепции имеют решающее значение в статистике и анализе данных, поскольку они помогают нам понять закономерности и тенденции в данных.В этом разделе мы предоставим некоторые рекомендации и идеи, основанные на предыдущих обсуждениях.

1

Рассмотрим контекст: при интерпретации коэффициента корреляции важно рассмотреть контекст проблемы.Высокий коэффициент корреляции не обязательно означает, что существует причинно -следственная связь между переменными.Например, может быть высокая корреляция между продажами мороженого и тарифами преступности, но это не означает, что мороженое вызывает преступность.Вместо этого обе переменные могут зависеть от третьей переменной, такой как температура.Следовательно, крайне важно учитывать контекст и основные факторы, которые могут повлиять на взаимосвязь между переменными

2

Проверьте допущения: корреляция предполагает, что переменные непрерывны, обычно распределены и имеют линейную связь.Следовательно, перед применением корреляционного анализа крайне важно проверить эти предположения.Если переменные обычно не распределены, могут использоваться непараметрические меры корреляции, такие как коэффициент корреляции Спирмена.Точно так же, если взаимосвязь между переменными нелинейными, другие меры, такие как коэффициент определения или регрессионный анализ, могут быть более подходящими

3

Остерегайтесь выбросов: выбросы могут оказать существенное влияние на коэффициент корреляции.Следовательно, важно идентифицировать и обрабатывать выбросы перед применением анализа корреляции.Один из способов обработки выбросов — удалить их из данных.Тем не менее, это должно быть сделано с осторожностью, поскольку выбросы могут содержать ценную информацию или могут указывать на другую структуру в данных

4

Используйте корреляцию в сочетании с другими мерами: корреляция — это только одна мера взаимосвязи между двумя переменными.Следовательно, крайне важно использовать его в сочетании с другими показателями и методами, чтобы получить более полное понимание данных.Например, диаграммы рассеяния, диаграммы и регрессионный анализ могут дать дополнительную информацию о взаимосвязи между переменными

Корреляция, дисперсия и зависимость являются важными понятиями в статистике и анализе данных.Они помогают нам понять закономерности и тенденции в данных и принимать обоснованные решения.Тем не менее, крайне важно учитывать контекст, проверить предположения, остерегаться выбросов и использовать корреляцию в сочетании с другими мерами, чтобы получить более полное понимание данных. Заключение и рекомендации — Корреляция: Дисперсия и зависимость: исследование корреляции

Заключение и рекомендации — Корреляция: Дисперсия и зависимость: исследование корреляции

Этот блог автоматически переводится с помощью нашего сервиса искусственного интеллекта. Приносим извинения за возможные ошибки перевода. Оригинал статьи на английском языке можно найти здесь:Correlation Dispersion and Dependence Investigating Correlation

Понравилась статья? Поделиться с друзьями:
Твой Советник
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: