مقدار احتمال (p-value) و سطح معناداری
p-value در آمار، شواهد را در برابر یک فرضیه صفر کمی سازی می کند. مقدار p پایین نشان میدهد که دادهها با عدد صفر ناسازگار هستند و به طور بالقوه به نفع یک فرضیه جایگزین است. آستانه های معناداری رایج 0.05 یا 0.01 هستند.
آزمون فرضیه
هنگامی که یک آزمون آماری را انجام می دهید، یک مقدار p به شما کمک می کند تا اهمیت نتایج خود را در رابطه با فرضیه صفر تعیین کنید.
فرضیه صفر (H0) بیان می کند که هیچ رابطه ای بین دو متغیر مورد مطالعه وجود ندارد (یک متغیر بر دیگری تأثیر نمی گذارد). یعنی بیان می کند که نتایج به دلیل شانس هستند و در حمایت از ایده مورد بررسی قابل توجه نیستند. بنابراین، فرضیه صفر، فرض را بر این میگذارد که هر چیزی که بخواهید ثابت کنید، اتفاق نیفتاده است.
فرضیه جایگزین (Ha یا H1) فرضیه ای است که اگر مشخص شود فرضیه صفر نادرست است، آن را قبول خواهید کرد.
فرضیه جایگزین بیان میکند که متغیر مستقل بر متغیر وابسته تأثیر میگذارد و نتایج در حمایت از نظریه مورد بررسی معنادار هستند (یعنی نتایج به دلیل شانس تصادفی نیستند).
چیزی که یک p-value به شما می گوید
مقدار p یا مقدار احتمال، عددی است که نشان میدهد چقدر احتمال دارد که دادههای شما بهطور تصادفی رخ داده باشند (یعنی فرضیه صفر درست است).
سطح معنی داری آماری اغلب به صورت p-value بین 0 و 1 بیان می شود.
هرچه مقدار p کوچکتر باشد، احتمال اینکه نتایج به صورت تصادفی رخ دهد کمتر است و شواهد قویتری مبنی بر رد فرضیه صفر وجود دارد.
به یاد داشته باشید، یک مقدار p به شما نمی گوید که آیا فرضیه صفر درست است یا نادرست. این فقط به شما می گوید که اگر فرضیه صفر درست باشد چقدر احتمال دارد داده هایی را که مشاهده کرده اید (یا داده های پرت تر) در واقعیت ببینید. در واقع قسمتی از شواهد است، نه یک مدرک قطعی.
مثال: آزمون آماری و p-Value
فرض کنید در حال انجام یک مطالعه هستید برای تعیین اینکه آیا یک داروی جدید در مقایسه با دارونما بر کاهش درد تأثیر دارد یا خیر.
اگر داروی جدید تأثیری نداشته باشد، آمار آزمایش شما به آماری که توسط فرضیه صفر پیشبینی شده نزدیک خواهد بود (هیچ تفاوتی بین گروه دارو و دارونما وجود ندارد)، و p-value نزدیک به 1 خواهد بود. ممکن است دقیقاً 1 نباشد زیرا ممکن است تغییرات در دنیای واقعی وجود داشته باشد.
برعکس، اگر داروی جدید واقعاً درد را به میزان قابل توجهی کاهش دهد، آمار آزمایش شما بیشتر از آنچه در فرضیه صفر انتظار میرود متفاوت است و مقدار p کاهش مییابد.
مقدار p هرگز به صفر نخواهد رسید، زیرا همیشه احتمال کمی وجود دارد، اگرچه بسیار غیرممکن است که نتایج مشاهده شده به صورت تصادفی رخ داده باشند.
تفسیر P-value
سطح معناداری (آلفا) یک آستانه احتمال تنظیم شده است (اغلب 0.05)، در حالی که p-value احتمالی است که شما بر اساس مطالعه یا تجزیه و تحلیل خود محاسبه می کنید.
مقدار p کمتر یا مساوی با سطح معنیداری شما (معمولاً 0.05 ≤) از نظر آماری معنیدار است.
مقدار p کمتر یا مساوی با سطح معناداری از پیش تعیین شده (اغلب 0.05 یا 0.01) یک نتیجه آماری معنی دار را نشان می دهد، به این معنی که داده های مشاهده شده شواهد قوی علیه فرضیه صفر ارائه می دهند.
این نشان میدهد که اثر مورد مطالعه احتمالاً یک رابطه واقعی را نشان میدهد نه فقط شانس تصادفی.
به عنوان مثال، اگر α = 0.05 را تنظیم کنید، اگر مقدار p شما 0.05 ≤ باشد، فرضیه صفر را رد خواهید کرد.
این نشان دهنده شواهد قوی علیه فرضیه صفر است، زیرا کمتر از 5٪ احتمال درستی صفر وجود دارد (و نتایج تصادفی هستند).
بنابراین فرض صفر را رد می کنیم و فرضیه جایگزین را می پذیریم.
مثال: معناداری آماری
پس از تجزیه و تحلیل اثرات تسکین درد داروی جدید در مقایسه با دارونما، مقدار p محاسبه شده کمتر از 0.01 است که بسیار کمتر از مقدار آلفای از پیش تعیین شده 0.05 است.
در نتیجه، شما نتیجه می گیرید که از نظر آماری تفاوت معنی داری در تسکین درد بین داروی جدید و دارونما وجود دارد.
p-value 0.001 به چه معناست؟
مقدار p 0.001 از نظر آماری بسیار معنی دار است که فراتر از آستانه 0.05 معمول استفاده می شود. این نشان دهنده شواهد قوی از یک اثر یا تفاوت واقعی، به جای تغییرات تصادفی است.
به طور خاص، مقدار p 0.001 به این معنی است که با فرض صحت فرضیه صفر، تنها 0.1٪ احتمال به دست آوردن نتیجه ای حداقل به اندازه نتیجه مشاهده شده وجود دارد.
چنین مقدار p کوچکی شواهد قوی علیه فرضیه صفر ارائه می دهد که منجر به رد صفر به نفع فرضیه جایگزین می شود.
مقدار p بیش از سطح معنی داری (معمولاً p> 0.05) از نظر آماری معنی دار نیست و شواهد قوی برای فرضیه صفر را نشان می دهد.
این بدان معنی است که ما فرضیه صفر را حفظ می کنیم و فرضیه جایگزین را رد می کنیم. باید توجه داشته باشید که نمی توانید فرضیه صفر را بپذیرید. ما فقط می توانیم آن را رد کنیم یا آن را رد نکنیم.
توجه: وقتی مقدار p بالاتر از آستانه معنیداری شما باشد، به این معنی نیست که احتمال 95 درصد درستی فرضیه جایگزین وجود دارد.
تست یک دنباله (one-tailed)
در یک توزیع نرمال، سطح معنی داری مربوط به نواحی در انتهای منحنی است. در آزمون یک دنباله، کل سطح معنی داری به یک دنباله توزیع اختصاص می یابد. برای مثال، اگر از سطح معنیداری 0.05 (5%) استفاده میکنید، فرضیه صفر را رد میکنید اگر نقطه داده شما در دم 5% در سمت راست (برای آزمون دنباله راست) یا سمت چپ (برای یک آزمون دم چپ) انتهای توزیع. در این مثال، مقدار مشاهده شده از نظر آماری معنیدار است (05/0 p ≤)، بنابراین فرضیه صفر (H0) رد میشود و فرضیه جایگزین (Ha) پذیرفته میشود.
تست دو دنباله (با تاکید بر معناداری آماری و بازه اظمینان)
در یک توزیع نرمال، سطح معنی داری مربوط به نواحی در انتهای منحنی است. در آزمون دو دنباه ای، شما دو ناحیه دارید که هر کدام 2.5 درصد از سطح زیر منحنی را تشکیل می دهند. هرگونه فرود نقطه داده در این مناطق شدید از نظر آماری در سطح 0.05 معنی دار در نظر گرفته می شود و شما را به رد فرضیه صفر سوق می دهد.
مقدار p را چگونه محاسبه می کنید؟
اکثر بسته های نرم افزاری آماری مانند R، SPSS و سایر نرم افزارها به طور خودکار مقدار p شما را محاسبه می کنند. این ساده ترین و رایج ترین راه است.
منابع و جداول آنلاین برای تخمین مقدار p بر اساس آمار آزمون و درجات آزادی در دسترس هستند.
این جداول به شما کمک می کند تا بفهمید که چقدر انتظار دارید آمار آزمون خود را تحت فرضیه صفر ببینید.
آشنایی با آزمون آماری:
آزمون های آماری مختلف برای پاسخ به سؤالات یا فرضیه های تحقیق خاص طراحی شده اند. هر آزمون دارای مفروضات و ویژگی های اساسی خود است.
برای مثال، ممکن است از آزمون t برای مقایسه میانگین ها، آزمون کای دو برای داده های طبقه بندی شده، یا آزمون همبستگی برای اندازه گیری قدرت رابطه بین متغیرها استفاده کنید.
توجه داشته باشید که تعداد متغیرهای مستقلی که در تجزیه و تحلیل خود لحاظ می کنید می تواند بر بزرگی آمار آزمون مورد نیاز برای تولید همان p-value تأثیر بگذارد.
این عامل به ویژه هنگام مقایسه نتایج در تجزیه و تحلیل های مختلف مهم است.
مثال: انتخاب یک آزمون آماری
اگر اثربخشی تنها دو داروی مختلف را در تسکین درد مقایسه میکنید، آزمون t دو نمونهای انتخاب مناسبی برای مقایسه این دو گروه است. با این حال، هنگامی که تاثیر سه یا چند دارو را بررسی می کنید، استفاده از تجزیه و تحلیل واریانس (ANOVA) مناسب تر است.
استفاده از مقایسههای زوجی متعدد در چنین مواردی میتواند منجر به مقادیر کم p مصنوعی و تخمین بیش از حد اهمیت تفاوتها بین گروههای دارویی شود.
نحوه گزارش دادن p
نتیجه ای که از نظر آماری معنادار است نمی تواند صحت یک فرضیه تحقیق را ثابت کند (که دلالت بر قطعیت 100٪ دارد).
درعوض، ما ممکن است نتایج خود را “ارائه پشتیبانی برای” یا “ارائه شواهدی برای” فرضیه تحقیق خود بیان کنیم (زیرا هنوز احتمال کمی وجود دارد که نتایج به طور تصادفی رخ داده و فرضیه صفر درست بوده است – به عنوان مثال، کمتر از 5٪).
مثال: گزارش نتایج
در مقایسه ما از اثرات تسکین درد داروی جدید و دارونما، مشاهده کردیم که شرکت کنندگان در گروه دارو کاهش قابل توجهی در درد (M = 3.5؛ SD = 0.8) در مقایسه با افراد گروه دارونما (M = 5.2) تجربه کردند. SD = 0.7)، که منجر به اختلاف میانگین 1.7 امتیاز در مقیاس درد می شود (t(98) = 9.36؛ p <0.001).
سبک APA
ویرایش ششم کتابچه راهنمای سبک APA (انجمن روانشناسی آمریکا، 2010) موارد زیر را در مورد گزارش مقادیر p بیان می کند:
هنگام گزارش مقادیر p، مقادیر دقیق p (به عنوان مثال، p = 0.031) را به دو یا سه رقم اعشار گزارش کنید. با این حال، مقادیر p کمتر از 0.001 را به عنوان p <.001 گزارش کنید.
سنت گزارش مقادیر p به شکل p <.10، p <.05، p <0.01، و غیره، در زمانی مناسب بود که تنها جداول محدودی از مقادیر بحرانی موجود بود. (ص 114)
توجه:
از 0 قبل از اعشار برای مقدار آماری p استفاده نکنید زیرا نمی تواند برابر با 1 باشد. به عبارت دیگر، به جای p = .001، p = 0.001 بنویسید.
لطفاً به مسائل ایتالیک (p همیشه مورب) و فاصله (در هر طرف علامت =) توجه کنید.
p = 0.000 (که توسط برخی بسته های آماری مانند SPSS خروجی می شود) غیرممکن است و باید به صورت p <.001 نوشته شود.
نقطه مقابل معنادار «بی اهمیت nonsignificant» است، نه «insignificant».
چرا مقدار p کافی نیست؟
مقدار p کمتر گاهی اوقات به این معنا تفسیر می شود که رابطه قوی تری بین دو متغیر وجود دارد.
با این حال، معنی دار بودن آماری به این معنی است که بعید است که فرضیه صفر درست باشد (کمتر از 5٪).
برای درک قدرت تفاوت بین دو گروه (کنترل در مقابل تجربی) یک محقق باید اندازه اثر را محاسبه کند.
سوالات متداول
چه زمانی فرضیه صفر را رد می کنید؟
در آزمون فرضیه های آماری، زمانی که مقدار p کمتر یا مساوی با سطح معناداری (α) باشد که قبل از انجام آزمون خود تعیین کرده اید، فرضیه صفر را رد می کنید. سطح معناداری احتمال رد فرضیه صفر در صورت صحت است. سطوح معنی داری که معمولاً مورد استفاده قرار می گیرند 0.01، 0.05 و 0.10 هستند.
به یاد داشته باشید، رد فرضیه صفر، فرضیه جایگزین را ثابت نمی کند. این فقط نشان می دهد که فرضیه جایگزین ممکن است با توجه به داده های مشاهده شده قابل قبول باشد.
مقدار p مشروط به این است که فرضیه صفر درست باشد، اما با درستی یا نادرستی فرضیه جایگزین ارتباطی ندارد.
p-value 0.05 به چه معناست؟
اگر مقدار p شما کمتر یا مساوی 0.05 باشد (سطح معناداری)، نتیجه می گیرید که نتیجه شما از نظر آماری معنی دار است. این بدان معناست که شواهد به اندازه کافی قوی هستند تا فرضیه صفر را به نفع فرضیه جایگزین رد کنند.
آیا همه مقادیر p زیر 0.05 از نظر آماری معنی دار در نظر گرفته می شوند؟
خیر، همه مقادیر p زیر 0.05 از نظر آماری معنی دار در نظر گرفته نمی شوند. معمولاً از آستانه 0.05 استفاده می شود، اما این فقط یک قرارداد است. اهمیت آماری به عواملی مانند طرح مطالعه، حجم نمونه و میزان تأثیر مشاهده شده بستگی دارد.
مقدار p زیر 0.05 به این معنی است که شواهدی علیه فرضیه صفر وجود دارد که نشان دهنده یک اثر واقعی است. با این حال، در نظر گرفتن زمینه و سایر عوامل هنگام تفسیر نتایج ضروری است.
محققان همچنین به اندازه اثر و فواصل اطمینان برای تعیین اهمیت عملی و قابلیت اطمینان یافته ها نگاه می کنند.
اندازه نمونه چگونه بر تفسیر مقادیر p تاثیر می گذارد؟
اندازه نمونه می تواند بر تفسیر مقادیر p تاثیر بگذارد. حجم نمونه بزرگتر تخمین های قابل اعتمادتر و دقیق تری از جامعه ارائه می دهد که منجر به فاصله های اطمینان باریک تر می شود.
با یک نمونه بزرگتر، حتی تفاوتهای کوچک بین گروهها یا اثرات میتواند از نظر آماری معنیدار شود و مقادیر p کمتری را به همراه داشته باشد. در مقابل، اندازههای نمونه کوچکتر ممکن است قدرت آماری کافی برای تشخیص اثرات کوچکتر نداشته باشند، و در نتیجه مقادیر p بالاتری ایجاد میشود.
بنابراین، حجم نمونه بزرگتر، شانس یافتن نتایج آماری معنیدار را در صورت وجود یک اثر واقعی افزایش میدهد و یافتهها را قابل اعتمادتر و قویتر میکند.
آیا یک مقدار p غیر معنی دار می تواند نشان دهد که هیچ اثر یا تفاوتی در داده ها وجود ندارد؟
خیر، یک مقدار p غیر معنی دار لزوماً نشان نمی دهد که هیچ تأثیر یا تفاوتی در داده ها وجود ندارد. به این معنی که داده های مشاهده شده شواهد کافی برای رد فرضیه صفر ارائه نمی دهند.
هنوز ممکن است یک اثر یا تفاوت واقعی وجود داشته باشد، اما ممکن است کوچکتر یا متغیرتر از آن چیزی باشد که مطالعه قادر به تشخیص آن است.
عوامل دیگری مانند اندازه نمونه، طراحی مطالعه و دقت اندازه گیری می توانند بر مقدار p تأثیر بگذارند. مهم است که کل شواهد را در نظر بگیرید و در تفسیر یافتههای تحقیق صرفاً به مقادیر p تکیه نکنید.
آیا مقادیر P می تواند دقیقاً صفر باشد؟
در حالی که یک مقدار p می تواند بسیار کوچک باشد، از نظر فنی نمی تواند صفر مطلق باشد. هنگامی که یک p-value به صورت p = 0.000 گزارش می شود، مقدار p واقعی برای نمایش نرم افزار بسیار کوچک است. این اغلب به عنوان شواهد قوی علیه فرضیه صفر تفسیر می شود. برای مقادیر p کمتر از 0.001، به صورت p <.001 گزارش دهید.
پاسخگوی سوالات و نظرات شما هستیم