مقدار احتمال (p-value) و سطح معناداری

1776 Views

p-value در آمار، شواهد را در برابر یک فرضیه صفر کمی سازی می کند. مقدار p پایین نشان می‌دهد که داده‌ها با عدد صفر ناسازگار هستند و به طور بالقوه به نفع یک فرضیه جایگزین است. آستانه های معناداری رایج 0.05 یا 0.01 هستند.

آزمون فرضیه

هنگامی که یک آزمون آماری را انجام می دهید، یک مقدار p به شما کمک می کند تا اهمیت نتایج خود را در رابطه با فرضیه صفر تعیین کنید.

فرضیه صفر (H0) بیان می کند که هیچ رابطه ای بین دو متغیر مورد مطالعه وجود ندارد (یک متغیر بر دیگری تأثیر نمی گذارد). یعنی بیان می کند که نتایج به دلیل شانس هستند و در حمایت از ایده مورد بررسی قابل توجه نیستند. بنابراین، فرضیه صفر، فرض را بر این می‌گذارد که هر چیزی که بخواهید ثابت کنید، اتفاق نیفتاده است.

فرضیه جایگزین (Ha یا H1) فرضیه ای است که اگر مشخص شود فرضیه صفر نادرست است، آن را قبول خواهید کرد.

فرضیه جایگزین بیان می‌کند که متغیر مستقل بر متغیر وابسته تأثیر می‌گذارد و نتایج در حمایت از نظریه مورد بررسی معنادار هستند (یعنی نتایج به دلیل شانس تصادفی نیستند).

چیزی که یک p-value به شما می گوید

مقدار p یا مقدار احتمال، عددی است که نشان می‌دهد چقدر احتمال دارد که داده‌های شما به‌طور تصادفی رخ داده باشند (یعنی فرضیه صفر درست است).

سطح معنی داری آماری اغلب به صورت p-value بین 0 و 1 بیان می شود.

هرچه مقدار p کوچکتر باشد، احتمال اینکه نتایج به صورت تصادفی رخ دهد کمتر است و شواهد قوی‌تری مبنی بر رد فرضیه صفر وجود دارد.

به یاد داشته باشید، یک مقدار p به شما نمی گوید که آیا فرضیه صفر درست است یا نادرست. این فقط به شما می گوید که اگر فرضیه صفر درست باشد چقدر احتمال دارد داده هایی را که مشاهده کرده اید (یا داده های پرت تر) در واقعیت ببینید. در واقع قسمتی از شواهد است، نه یک مدرک قطعی.

مثال: آزمون آماری و p-Value

فرض کنید در حال انجام یک مطالعه هستید برای تعیین اینکه آیا یک داروی جدید در مقایسه با دارونما بر کاهش درد تأثیر دارد یا خیر.

اگر داروی جدید تأثیری نداشته باشد، آمار آزمایش شما به آماری که توسط فرضیه صفر پیش‌بینی شده نزدیک خواهد بود (هیچ تفاوتی بین گروه دارو و دارونما وجود ندارد)، و p-value نزدیک به 1 خواهد بود. ممکن است دقیقاً 1 نباشد زیرا ممکن است تغییرات در دنیای واقعی وجود داشته باشد.

برعکس، اگر داروی جدید واقعاً درد را به میزان قابل توجهی کاهش دهد، آمار آزمایش شما بیشتر از آنچه در فرضیه صفر انتظار می‌رود متفاوت است و مقدار p کاهش می‌یابد.

مقدار p هرگز به صفر نخواهد رسید، زیرا همیشه احتمال کمی وجود دارد، اگرچه بسیار غیرممکن است که نتایج مشاهده شده به صورت تصادفی رخ داده باشند.

تفسیر P-value

سطح معناداری (آلفا) یک آستانه احتمال تنظیم شده است (اغلب 0.05)، در حالی که p-value احتمالی است که شما بر اساس مطالعه یا تجزیه و تحلیل خود محاسبه می کنید.

مقدار p کمتر یا مساوی با سطح معنی‌داری شما (معمولاً 0.05 ≤) از نظر آماری معنی‌دار است.

مقدار p کمتر یا مساوی با سطح معناداری از پیش تعیین شده (اغلب 0.05 یا 0.01) یک نتیجه آماری معنی دار را نشان می دهد، به این معنی که داده های مشاهده شده شواهد قوی علیه فرضیه صفر ارائه می دهند.

این نشان می‌دهد که اثر مورد مطالعه احتمالاً یک رابطه واقعی را نشان می‌دهد نه فقط شانس تصادفی.

به عنوان مثال، اگر α = 0.05 را تنظیم کنید، اگر مقدار p شما 0.05 ≤ باشد، فرضیه صفر را رد خواهید کرد.

این نشان دهنده شواهد قوی علیه فرضیه صفر است، زیرا کمتر از 5٪ احتمال درستی صفر وجود دارد (و نتایج تصادفی هستند).

بنابراین فرض صفر را رد می کنیم و فرضیه جایگزین را می پذیریم.

مثال: معناداری آماری

پس از تجزیه و تحلیل اثرات تسکین درد داروی جدید در مقایسه با دارونما، مقدار p محاسبه شده کمتر از 0.01 است که بسیار کمتر از مقدار آلفای از پیش تعیین شده 0.05 است.

در نتیجه، شما نتیجه می گیرید که از نظر آماری تفاوت معنی داری در تسکین درد بین داروی جدید و دارونما وجود دارد.

p-value 0.001 به چه معناست؟

مقدار p 0.001 از نظر آماری بسیار معنی دار است که فراتر از آستانه 0.05 معمول استفاده می شود. این نشان دهنده شواهد قوی از یک اثر یا تفاوت واقعی، به جای تغییرات تصادفی است.

به طور خاص، مقدار p 0.001 به این معنی است که با فرض صحت فرضیه صفر، تنها 0.1٪ احتمال به دست آوردن نتیجه ای حداقل به اندازه نتیجه مشاهده شده وجود دارد.

چنین مقدار p کوچکی شواهد قوی علیه فرضیه صفر ارائه می دهد که منجر به رد صفر به نفع فرضیه جایگزین می شود.

مقدار p بیش از سطح معنی داری (معمولاً p> 0.05) از نظر آماری معنی دار نیست و شواهد قوی برای فرضیه صفر را نشان می دهد.

این بدان معنی است که ما فرضیه صفر را حفظ می کنیم و فرضیه جایگزین را رد می کنیم. باید توجه داشته باشید که نمی توانید فرضیه صفر را بپذیرید. ما فقط می توانیم آن را رد کنیم یا آن را رد نکنیم.

توجه: وقتی مقدار p بالاتر از آستانه معنی‌داری شما باشد، به این معنی نیست که احتمال 95 درصد درستی فرضیه جایگزین وجود دارد.

تست یک دنباله (one-tailed)

تک دنباله یا تک دم

در یک توزیع نرمال، سطح معنی داری مربوط به نواحی در انتهای منحنی است. در آزمون یک دنباله، کل سطح معنی داری به یک دنباله توزیع اختصاص می یابد. برای مثال، اگر از سطح معنی‌داری 0.05 (5%) استفاده می‌کنید، فرضیه صفر را رد می‌کنید اگر نقطه داده شما در دم 5% در سمت راست (برای آزمون دنباله راست) یا سمت چپ (برای یک آزمون دم چپ) انتهای توزیع. در این مثال، مقدار مشاهده شده از نظر آماری معنی‌دار است (05/0 p ≤)، بنابراین فرضیه صفر (H0) رد می‌شود و فرضیه جایگزین (Ha) پذیرفته می‌شود.

تست دو دنباله (با تاکید بر معناداری آماری و بازه اظمینان)

دو دنباله (دو دمه)

در یک توزیع نرمال، سطح معنی داری مربوط به نواحی در انتهای منحنی است. در آزمون دو دنباه ای، شما دو ناحیه دارید که هر کدام 2.5 درصد از سطح زیر منحنی را تشکیل می دهند. هرگونه فرود نقطه داده در این مناطق شدید از نظر آماری در سطح 0.05 معنی دار در نظر گرفته می شود و شما را به رد فرضیه صفر سوق می دهد.

مقدار p را چگونه محاسبه می کنید؟

اکثر بسته های نرم افزاری آماری مانند R، SPSS و سایر نرم افزارها به طور خودکار مقدار p شما را محاسبه می کنند. این ساده ترین و رایج ترین راه است.

منابع و جداول آنلاین برای تخمین مقدار p بر اساس آمار آزمون و درجات آزادی در دسترس هستند.

این جداول به شما کمک می کند تا بفهمید که چقدر انتظار دارید آمار آزمون خود را تحت فرضیه صفر ببینید.

آشنایی با آزمون آماری:

آزمون های آماری مختلف برای پاسخ به سؤالات یا فرضیه های تحقیق خاص طراحی شده اند. هر آزمون دارای مفروضات و ویژگی های اساسی خود است.

برای مثال، ممکن است از آزمون t برای مقایسه میانگین ها، آزمون کای دو برای داده های طبقه بندی شده، یا آزمون همبستگی برای اندازه گیری قدرت رابطه بین متغیرها استفاده کنید.

توجه داشته باشید که تعداد متغیرهای مستقلی که در تجزیه و تحلیل خود لحاظ می کنید می تواند بر بزرگی آمار آزمون مورد نیاز برای تولید همان p-value تأثیر بگذارد.

این عامل به ویژه هنگام مقایسه نتایج در تجزیه و تحلیل های مختلف مهم است.

مثال: انتخاب یک آزمون آماری

اگر اثربخشی تنها دو داروی مختلف را در تسکین درد مقایسه می‌کنید، آزمون t دو نمونه‌ای انتخاب مناسبی برای مقایسه این دو گروه است. با این حال، هنگامی که تاثیر سه یا چند دارو را بررسی می کنید، استفاده از تجزیه و تحلیل واریانس (ANOVA) مناسب تر است.

استفاده از مقایسه‌های زوجی متعدد در چنین مواردی می‌تواند منجر به مقادیر کم p مصنوعی و تخمین بیش از حد اهمیت تفاوت‌ها بین گروه‌های دارویی شود.

نحوه گزارش دادن p

نتیجه ای که از نظر آماری معنادار است نمی تواند صحت یک فرضیه تحقیق را ثابت کند (که دلالت بر قطعیت 100٪ دارد).

درعوض، ما ممکن است نتایج خود را “ارائه پشتیبانی برای” یا “ارائه شواهدی برای” فرضیه تحقیق خود بیان کنیم (زیرا هنوز احتمال کمی وجود دارد که نتایج به طور تصادفی رخ داده و فرضیه صفر درست بوده است – به عنوان مثال، کمتر از 5٪).

مثال: گزارش نتایج

در مقایسه ما از اثرات تسکین درد داروی جدید و دارونما، مشاهده کردیم که شرکت کنندگان در گروه دارو کاهش قابل توجهی در درد (M = 3.5؛ SD = 0.8) در مقایسه با افراد گروه دارونما (M = 5.2) تجربه کردند. SD = 0.7)، که منجر به اختلاف میانگین 1.7 امتیاز در مقیاس درد می شود (t(98) = 9.36؛ p <0.001).

سبک APA

ویرایش ششم کتابچه راهنمای سبک APA (انجمن روانشناسی آمریکا، 2010) موارد زیر را در مورد گزارش مقادیر p بیان می کند:

هنگام گزارش مقادیر p، مقادیر دقیق p (به عنوان مثال، p = 0.031) را به دو یا سه رقم اعشار گزارش کنید. با این حال، مقادیر p کمتر از 0.001 را به عنوان p <.001 گزارش کنید.

سنت گزارش مقادیر p به شکل p <.10، p <.05، p <0.01، و غیره، در زمانی مناسب بود که تنها جداول محدودی از مقادیر بحرانی موجود بود. (ص 114)

توجه:

از 0 قبل از اعشار برای مقدار آماری p استفاده نکنید زیرا نمی تواند برابر با 1 باشد. به عبارت دیگر، به جای p = .001، p = 0.001 بنویسید.
لطفاً به مسائل ایتالیک (p همیشه مورب) و فاصله (در هر طرف علامت =) توجه کنید.

p = 0.000 (که توسط برخی بسته های آماری مانند SPSS خروجی می شود) غیرممکن است و باید به صورت p <.001 نوشته شود.

نقطه مقابل معنادار «بی اهمیت nonsignificant» است، نه «insignificant».

چرا مقدار p کافی نیست؟

مقدار p کمتر گاهی اوقات به این معنا تفسیر می شود که رابطه قوی تری بین دو متغیر وجود دارد.

با این حال، معنی دار بودن آماری به این معنی است که بعید است که فرضیه صفر درست باشد (کمتر از 5٪).

برای درک قدرت تفاوت بین دو گروه (کنترل در مقابل تجربی) یک محقق باید اندازه اثر را محاسبه کند.

سوالات متداول

چه زمانی فرضیه صفر را رد می کنید؟

در آزمون فرضیه های آماری، زمانی که مقدار p کمتر یا مساوی با سطح معناداری (α) باشد که قبل از انجام آزمون خود تعیین کرده اید، فرضیه صفر را رد می کنید. سطح معناداری احتمال رد فرضیه صفر در صورت صحت است. سطوح معنی داری که معمولاً مورد استفاده قرار می گیرند 0.01، 0.05 و 0.10 هستند.

به یاد داشته باشید، رد فرضیه صفر، فرضیه جایگزین را ثابت نمی کند. این فقط نشان می دهد که فرضیه جایگزین ممکن است با توجه به داده های مشاهده شده قابل قبول باشد.

مقدار p مشروط به این است که فرضیه صفر درست باشد، اما با درستی یا نادرستی فرضیه جایگزین ارتباطی ندارد.

p-value 0.05 به چه معناست؟

اگر مقدار p شما کمتر یا مساوی 0.05 باشد (سطح معناداری)، نتیجه می گیرید که نتیجه شما از نظر آماری معنی دار است. این بدان معناست که شواهد به اندازه کافی قوی هستند تا فرضیه صفر را به نفع فرضیه جایگزین رد کنند.

آیا همه مقادیر p زیر 0.05 از نظر آماری معنی دار در نظر گرفته می شوند؟

خیر، همه مقادیر p زیر 0.05 از نظر آماری معنی دار در نظر گرفته نمی شوند. معمولاً از آستانه 0.05 استفاده می شود، اما این فقط یک قرارداد است. اهمیت آماری به عواملی مانند طرح مطالعه، حجم نمونه و میزان تأثیر مشاهده شده بستگی دارد.

مقدار p زیر 0.05 به این معنی است که شواهدی علیه فرضیه صفر وجود دارد که نشان دهنده یک اثر واقعی است. با این حال، در نظر گرفتن زمینه و سایر عوامل هنگام تفسیر نتایج ضروری است.

محققان همچنین به اندازه اثر و فواصل اطمینان برای تعیین اهمیت عملی و قابلیت اطمینان یافته ها نگاه می کنند.

اندازه نمونه چگونه بر تفسیر مقادیر p تاثیر می گذارد؟

اندازه نمونه می تواند بر تفسیر مقادیر p تاثیر بگذارد. حجم نمونه بزرگتر تخمین های قابل اعتمادتر و دقیق تری از جامعه ارائه می دهد که منجر به فاصله های اطمینان باریک تر می شود.

با یک نمونه بزرگ‌تر، حتی تفاوت‌های کوچک بین گروه‌ها یا اثرات می‌تواند از نظر آماری معنی‌دار شود و مقادیر p کمتری را به همراه داشته باشد. در مقابل، اندازه‌های نمونه کوچک‌تر ممکن است قدرت آماری کافی برای تشخیص اثرات کوچک‌تر نداشته باشند، و در نتیجه مقادیر p بالاتری ایجاد می‌شود.

بنابراین، حجم نمونه بزرگ‌تر، شانس یافتن نتایج آماری معنی‌دار را در صورت وجود یک اثر واقعی افزایش می‌دهد و یافته‌ها را قابل اعتمادتر و قوی‌تر می‌کند.

آیا یک مقدار p غیر معنی دار می تواند نشان دهد که هیچ اثر یا تفاوتی در داده ها وجود ندارد؟

خیر، یک مقدار p غیر معنی دار لزوماً نشان نمی دهد که هیچ تأثیر یا تفاوتی در داده ها وجود ندارد. به این معنی که داده های مشاهده شده شواهد کافی برای رد فرضیه صفر ارائه نمی دهند.

هنوز ممکن است یک اثر یا تفاوت واقعی وجود داشته باشد، اما ممکن است کوچکتر یا متغیرتر از آن چیزی باشد که مطالعه قادر به تشخیص آن است.

عوامل دیگری مانند اندازه نمونه، طراحی مطالعه و دقت اندازه گیری می توانند بر مقدار p تأثیر بگذارند. مهم است که کل شواهد را در نظر بگیرید و در تفسیر یافته‌های تحقیق صرفاً به مقادیر p تکیه نکنید.

آیا مقادیر P می تواند دقیقاً صفر باشد؟

در حالی که یک مقدار p می تواند بسیار کوچک باشد، از نظر فنی نمی تواند صفر مطلق باشد. هنگامی که یک p-value به صورت p = 0.000 گزارش می شود، مقدار p واقعی برای نمایش نرم افزار بسیار کوچک است. این اغلب به عنوان شواهد قوی علیه فرضیه صفر تفسیر می شود. برای مقادیر p کمتر از 0.001، به صورت p <.001 گزارش دهید.

مفاهیم آماری

آکادمی ویرایش ایران

آکادمی ویرایش ایران از سال 1395 فعالیت حرفه ای خود را در زمینه ویرایش تخصصی مقالات علمی (ویرایش نیتیو)، ترجمه فارسی به انگلیسی حرفه ای مقالات برای ارسال به ژورنال های ISI و آموزش مقاله نویسی تخصصی و جامع آغاز کرد.

مشاهده نمونه ویرایش ها مشاهده همه آموزش ها

آکادمی ویرایش ایران

با ما تماس بگیرید

ایمیل ما

مقدار احتمال (p-value) و سطح معناداری