رگرسیون لجستیک

ساخت وبلاگ

بسمه تعالی

سالتحصیلی: 1402-1401

رگرسیون لجستیک

نام استاد: دکتر کمال کوهی
درس: آمار پیشرفته و نرم افزارهای متناسب با آن

نام دانشجو: سیدمصطفی سیدرنجبرسقزچی
مقطع: دکتری جامعه شناسی اقتصادی و توسعه

تاریخچه استفاده از رگرسیون لجستیک
تابع لجستیک به عنوان مدلی برای پیش‌بینی رشد جمعیت توسط پیر فرانسوا ورهولست و کمک آدولف کوتله در دهه ۱۸۳۰ و ۱۸۴۰ توسعه یافت و «لجستیک» نامگذاری شد. تابع لجستیک به‌طور مستقل به عنوان مدلی برای پیش‌بینی رشد جمعیت در سال ۱۹۲۰ توسط ریموند پرل و لاول رید دوباره ایجاد و به چاپ رسید که منجر به استفاده آن در علم آمار شد. آنها در ابتدا این مدل را برای مدل‌سازی جمعیت ایالات متحده آمریکا به کار گرفته بودند. ریموند پرل و لاول رید در ابتدا از کار ورهولست بی‌خبر بودند و احتمالاً در مورد آن از گوستاو دو پاسگیر آگاهی یافتند، اما اعتبار کمی به او دادند و اصطلاحات او را اتخاذ نکردند. تقدم کار ورهولست بعدها مورد تأکید قرار گرفت و اصطلاح «لجستیک» توسط اودنی یول در سال ۱۹۲۵ احیا شد و از آن زمان مورد استفاده قرار گرفت(کرامر[1]، 2002: 5).
در دهه ۱۹۳۰، مدل پروبیت توسط چستر ایتنر بلیس و جان گادوم ابداع شد و اصطلاح «پروبیت» برای آن مورد استفاده قرار گرفت. فیشر کمی بعدتر مدل پروبیت را با تخمین از طریق برآورد درست‌نمایی بیشینه توسعه داد. مدل پروبیت در ابتدا اساساً برای زیست سنجی مورد استفاده قرار می‌گرفت و پیش از آن هم در کارهای مشابهی در این زمینه در دهه ۱۸۶۰ از آن استفاده می‌شد. مدل پروبیت بر توسعه بعدی رگرسیون لجستیک تأثیر گذاشت؛ این دو مدل رقیب یکدیگر بودند. مدل لجستیک احتمالاً برای اولین بار به عنوان جایگزینی برای مدل پروبیت در زیست سنجی توسط ادوین بیدول ویلسون و شاگردش جین ورسستر در مورد استفاده قرار گرفت. با این حال، توسعه مدل لجستیک به عنوان یک جایگزین کلی برای مدل پروبیت، عمدتاً ناشی از کار جوزف برکسون طی چند دهه بود. وی کلمه «لوجیت» را با قیاس به «پروبیت» ایجاد کرد. مدل لوجیت در ابتدا به عنوان مدلی ضعیف‌تر از پروبیت رد شد، اما به تدریج به برابری با مدل پروبیت دست یافت و بعد از آن پیشی‌گرفت. این محبوبیت نسبی بخاطر سادگی محاسباتی، خصوصیات ریاضی و کلی بودن مدل بود که اجازه استفاده از آن را در حوزه‌های گوناگون می‌داد. دیوید کاکس بعدها اصلاحات فراوانی بر روی مدل لوجیت اعمال کرد. با توسعه مدل لوجیت به مدلی چندجمله‌ای دامنه کاربرد و محبوبیت مدل به شدت افزایش پیدا کرد(ویلسون و لورنز[2]، 2015: 20 و 21).
کاربردها
رگرسیون لجستیک در زمینه‌های مختلف در علوم سلامت و علوم اجتماعی و علوم رفتاری مورد استفاده قرار می‌گیرد(جی، لیندا و فیدل[3]، 421:1395 ؛ میرز، گامست و گارینو[4]، 1396: 288).
ماهیت رگرسیون لجستیک
معمولاً برای تحلیل رگرسیون خطی متغیر وابسته باید کمی و در سطح سنجش فاصله ای / نسبی باشد. اگر متغیر وابسته تحقیقی در مقیاس کمی فاصله ای / نسبی نباشد و مقیاس آن به صورت اسمی دو وجهی/ یا چند وجهی باشد، در چنین حالتی چه باید کرد؟ پاسخ: در صورتی که متغیر وابسته اسمی (دو وجهی/ یا چند وجهی) باشد برای این که بتوانیم عوامل پیش بینی کننده تغییرات یک متغیر اسمی را شناسایی کنیم. از روش رگرسیون لجستیک که در اواخر دهه 1960 و اوایل دهه 1970 به عنوان بدیلی برای روش رگرسیون خطی و تحلیل تابع تشخیص مطرح شد(حبیب پور گتابی و صفری شالی، 1391: 704).
زمانی که متغیر وابسته در سطح اسمی است و متغیرهای مستقل هم ترتیبی و هم فاصله ای هستند، روش های رگرسیون خطی و تحلیل تشخیصی، مقدار برآوردها را کم تر از مقدار واقعی نشان می دهد(حبیب پور گتابی و صفری شالی، 1391: 704).
تفاوت رگرسیون لجستیک با رگرسیون خطی
نحوه محاسبه ضرایب در این روش با گرسیون لجستیک یکسان نیست. رگرسیون خطی مجذور خطاها را به حداقل برسد. در حالی که رگرسیون لجستیک احتمالی را که یک واقعه رخ می دهد به حداکثر می رساند. آزمون برازش مدل و معنی دار بودن مدل را در رگرسیون خطی با استفاده از آماره های F و T انجام می دهیم در حالی که در رگرسیون لجستیک با استفاده از آماره های X2 (کای اسکوئر) و والد(wald) برای برازش مدل و معنی دار بودن مدل استفاده می کنیم(مومنی، 1384: 158).
تفاوت رگرسیون لجستیک با تحلیل تشخیصی
گاهی اوقات در تحلیل تشخیصی احتمال وقوع یک پدیده خارج از طیف 0 و 1 قرار می گیرد. و متغیرهای پیش بین باید دارای توزیع نرمال بوده و همه متغیرهای پیش بین باید کمی و در سطح سنجش فاصله ای / نسبی باشند. در حالی که در رگرسیون لجستیک رعایت توزیع نرمال بودن برای داده ها در متغیرهای پیش بین لزومی ندارد. و احتمال وقوع یک پدیده در داخل طیف (0 و 1) قرار دارد(سرمد، 1384: 331).
مفاهیم کلیدیمدل رگرسیون لجستیک
شكل عمومی مدل لجستیک به صورت زیر است:
π=PX=(expa+B1X1+B2X2…+BkXk1+expa+B1X1+B2X2…+BkXk)
اما برخلاف رگرسیون، خطی رگرسیون لجستیک مستقیماً متغیر وابسته (Y) را مدل سازی نمی کند بلکه ابتدا متغیر وابسته را به یک متغیر لوجيت لگاریتم طبیعی بخت های وقوع یا عدم وقوع متغیر (Y) تبدیل می کند. یعنی به صورت (=π1-π)ln) و سپس از برآورد حداکثر درست نمائی برای برآورد ضرایب استفاده می کند. مدل پیچیده رگرسیون لجستیک که شامل چندین متغیر مستقل و یک متغیر وابسته می باشد. همانند شکل زیر است که در آن لگاریتم نسبت بخت ها به مدل لوجيت . است (مؤمنی ۱۳۸۶ ۱۵۹-۱۵۸). یعنی معادله رگرسیونی لجستیک لگاریتم طبیعی ( loge= ln) احتمال بودن در یک گروه (π) تقسیم بر احتمال بودن در گروه دیگر منهای یک( π – ۱) است(حبیب پور گتابی و صفری شالی، 1391: 705).
= expa+BX1+B2X2…+BkXk (π1-π) Logit(Y) = natural log(odds)=ln
π = احتمال پیامد یا واقعه مورد نظر تحت وجود متغیر مستقل X
α = پارامتر محور مختصات Y
β = ضریب رگرسیونی
= X متغیر مستقل (پیش بین)
نکته در حالی که دامنه تغییرات نسبت بختها بین (۰) تا (۱) توسان دارد، دامنه تغییرات لوجيت نسبت بخت ها بین∞+ تا ∞- است(سرمد، 1384: ۳۳۲).لوجيت ( Logit )
محوری ترین مفهوم ریاضی در رگرسیون لجستیک لوجبت است لوجیست به معنای لگاریتم طبیعی (ln) بختهای متغیر وابسته (Y) می باشد که مدل آن به مدل لوجبت معروف است. ساده ترین مثال از یک لوجیت را می توان در قالب یک جدول توافقی ۲×۲ مشاهده کرد. در جدول زیر توزیع متغیر وابسته شرکت در انتخابات (Y) براساس یک متغير مستقل جنسيت (X) آمده است(حبیب پور گتابی و صفری، 1391: 706). مدل رگرسیون لجستیک را مدل لوجیت نیز می گویند(بایزیدی، اولادی و عباسی، 1391: 132).آماره والد (Wald)
در رگرسیون لجستیک آماره والد معنی دار بودن حضور هر متغیر مستقل در معادله را نشان میدهد. در نتیجه آماره والد معادل آماره tدر رگرسیون خطی است. آزمون والد از رابطه زیر محاسبه میشود که در آن βi به معنای بتا و ضریب متغیر xi و S.E خطای استاندارد آن است.
Wald(xi) =βiS.E.βi
در واقع، آماره والد این فرض صفر را به آزمون می گذارد که مقدار تمامی ها برابر است با (۰) یعنی میزان تأثیر تمامی متغیرهای مستقل بر متغیر وابسته برابر با صفر (۰) است. پس اگر قرار است فرض صفر را رد کنیم مقدار حداقل یکی از βها نباید صفر باشد.
نکته1 : زمانی که مقدار β بزرگ باشد مقدار والد اریب پیدا می کند(حبیب پور گتابی و صفری شالی، 1391: 705).
نکته 2: موقعی که درجه آزادی یک متغیر برابر با عدد (۱) باشد در آن صورت مقدار آماره والد از جذر نسبت ضریب رگرسیونی (β) آن متغیر به خطای استاندارد (.S.E) آن به دست می آید. اما برای متغیرهای ترتیبی که درجه آزادی آنها همیشه از عدد (۱) بیشتر است، درجه آزادی آماره والد یک متغیر برابر است با تعداد طبقات آن متغیر منهای عدد یک(N - 1)( حبیب پور گتابی و صفری شالی، 1391: 706).
4- بخت ها ( Odds)
بختها عبارت می باشند از احتمال رخ دادن یک واقعه بر احتمال رخ ندادن آن واقعه. بخت ها از طریق فرمول زیر محاسبه می شوند که در آن، p1 احتمال رخ دادن یک واقعه و p1-۱ احتمال رخ ندادن آن واقعه است)( حبیب پور گتابی و صفری شالی، 1391: 707).
o1= p11- p1

5- نسبت بختها (Odds ratio)
در رگرسیون لجستیک برای تعیین میزان تأثیر هر متغیر مستقل بر متغیر وابسته از آمارهای به نام نسبت بختها (OR) استفاده می شود نسبت بختها، در واقع نسبت دو بخت به همدیگر است و به معنای نسبت احتمال وقوع یک پیامد با فرض عضویت در گروه اول به احتمال وقوع آن پیامد با فرض عضویت در گروه دوم می باشد. به عبارتی، نسبت بخت ها نشان دهنده یک واحد تغییر در بخت های وقوع یک پیامد به ازای یک واحد تغییر در متغیر مستقل است(حبیب پور گتابی و صفری شالی، 1391: 707).

از این رو، نسبت بخت ها را می توان معادل β در رگرسیون خطی دانست که براساس فرمول زیر و از طریق تقسیم در بخت بر همدیگر محاسبه می شود:
OR= p11- p1p01- p0
که در آن
=p1احتمال وقوع یک پیامد با فرض عضویت در گروه اول (۱)
= p0احتمال وقوع یک پیامد با فرض عضویت در گروه دوم (0)
نکته 1: نسبت بخت ها در فرمول با نماد OR و در خروجی SPSS با نماد(EXPB ) مشخص شده است.
نکته :۲ در تفسیر نتایج نسبت بختها باید قواعد زیر را رعایت کنیم:
۱ - هرگاه نسبت بخت ها بزرگتر از عدد (۱) باشد تغییر متغیرهای مستقل و وابسته مثبت و هم جهت است یعنی با افزایش مقدار متغير مستقل مقدار متغیر وابسته نیز افزایش می یابد در این حالت مقدار B نیز مثبت است.
2- هرگاه نسبت بختها کوچکتر از عدد (۱) باشد تغییر متغیرهای مستقل و وابسته منفی و در جهت مخالف هم است یعنی با افزایش مقدار متغیر مستقل، مقدار متغیر وابسته کاهش می یابد در این حالت مقدار B نیز منفی است.
3- هرگاه نسبت بختها برابر با عدد (۱) باشد، متغیر مستقل تأثیر معنی داری بر متغیر وابسته ندارد و مقدار بتا یا اثر آن (۰) است.
نکته: نسبت بختها را می توانیم به دو شیوه تفسیر کنیم 1 در شیوه اول همان طور که در بالا اشاره شد براساس نسبت تغییر در متغیر وابسته به ازای یک واحد تغییر در متغیر مستقل تفسیر میکنیم به عنوان مثال، نسبت بخت های ۱۷۸ در مثال مربوط به شرکت مردان و زنان در انتخابات نشان میدهد که زنان نزدیک به دو برابر مردان در انتخابات شرکت می کنند.
۲- در شیوه دوم می توانیم نسبت بخت ها را به صورت درصد تفسیر کنیم. برای ایــن کار ابتدا نسبت بخت ها را از عدد (۱) کم و سپس در عدد ۱۰۰ ضرب می کنیم به عنوان مثال اگر نسبت بخت های ۱۷۸ را از عدد (۱) کم و در عدد ۱۰۰ ضرب کنیم، حاصل آن برابر با ۷۸ درصد خواهد بود که نشان می دهد با افزایش یک واحد در متغیر جنسیت بخت شرکت در انتخابات به اندازه ۷۸ درصد افزایش می یابد( حبیب پور گتابی و صفری شالی، 1391: 708 -709).
حجم نمونه در رگرسیون لجستیک
برخی نویسندگان در حوزه آمار چند متغیره حداقل حجم نمونه برای یک تحلیل رگرسیون لجستیک خوب را ۱۰۰ نفر و برخی نیز ۵۰ نفر عنوان کرده اند در خصوص حداقل نسبت تعداد نمونه به تعداد متغیر مستقل ،نیز به عنوان یک قاعده کلی حداقل نسبت ۱۰ متغیر مستقل به ۱ نمونه لازم است اما آنچه مسلم می باشد این است که هر چه تعداد متغیرهای مستقل بیشتر باشد حجم نمونه باید بیشتر .باشد. ضمن آن که در رگرسیون لجستیک به حجم نمونه بسیار بیشتر از حجم نمونه در رگرسیون خطی نیاز داریم همچنین در خصوص حجم نمونه نابرابر در طبقات متغیر وابسته نیز در طبقه ای که حجم نمونه آن کمتر است به ازای هر متغیر مستقل حداقل ۱۰ نمونه لازم است ( حبیب پور گتابی و صفری شالی، 1391: 709).
نحوه تعریف متغیرهای طبقه بندی شده اسمی و ترتیبی در رگرسیون لجستیک
یکی از مهم ترین مشکلات در اجرای تحلیل رگرسیون لجستیک وجود متغیرهای ترتیبی است. در هنگام اجرای رگرسیون لجستیک فرض بر این است که تمامی متغیرهای مستقل در سطح سنجش فاصله ای/ انسبی هستند در حالی که در عمل چنین نیست و برخی از آنها اسمی و ترتیبی نیز هستند اما از آنجا که رگرسیون لجستیک با نسبت احتمال وقوع یک پدیده به احتمال عدم وقوع آن پدیده سروکار دارد، بنابراین متغیرهای مستقل حتماً باید به متغیرهای شبه فاصله ای با (دو کد ۰ و ۱) تبدیل شوند تا بتوانیم نسبت طبقات آن در متغیر وابسته را بررسی کنیم به همین خاطر در نرم افزار SPSS در هنگام اجرای دستور رگرسیون لجستیک از طریق کادر ...Categorical در کادر اصلی دستور، این امکان وجود دارد که متغیرهای طبقه بندی شده اسمی و ترتیبی را به صورت تصنعی به متغیرهای فاصله ای تبدیل کنیم( حبیب پور گتابی و صفری شالی، 1391: 710).
برای تصنعی کردن متغیرهای اسمی و ترتیبی باید هر یک از طبقات (گزینه های آن متغیر )به عنوان یک متغیر جداگانه با دو طبقه تعریف شده و به طبقه اول کد (۰) و به طبقه دوم کد (۱) تعلق گیرد به عنوان مثال اگر متغیر مورد نظر ما سطح تحصیلات است که در طبقات پائین متوسط و بالا تعریف شده است باید هر گزینه را به عنوان یک متغیر دووجهی حساب کرده و به کسانی که آن میزان تحصیلات را دارند کد (۱) و به کسانی که آن میزان تحصیلات را ندارند کد (۰) تعلق گیرد. یعنی بدین صورت
متغير اول) تحصیلات پائین ۱ و تحصیلات غیر پانین
متغير دوم) تحصیلات متوسط ۱۰ و تحصیلات غیر متوسط...
نکته 1: همان طور که در طبقه بندی بالا ملاحظه می شود متغیر تحصیلات در هنگام تبدیل به متغیر تصنعی فقط در ۲ طبقه تعریف شده و (طبقه سوم یعنی تحصیلات بالا) حذف شده است. دلیل این امر آن است که در رگرسیون لجستیک، همانند رگرسیون خطی، متغیر تصنعی برای طبقه آخر یعنی (بزرگترین کد) تعریف نمی شود و تعداد آن همواره باید یکی کم تر از تعداد طبقات متغیر اصلی باشد (یعنی ۱K - ) این اصل برای اجتناب از مسأله تکنیکی چندهم خطی بودن در رگرسیون لجستیک است. طبقه ای که به متغیر تصنعی تبدیل نمی شود طبقه مرجع نام دارد که مبنای مقایسه و تقابل با سایر طبقات قرار می گیرد(دواس، ۱۳۷۶ :۲۱۹).
نکته :۲ موقعی که طبقات متغیر مستقل با طبقات مختلف متغير وابسته به منظور مقایسه در تقابل قرار می گیرند در هنگام اجرای کادر ...Categorical در دستور رگرسیون لجستیک امکان انتخاب چندین نوع تقابل وجود دارد:شاخص: در این روش تقابلها به صورت عضویت یا عدم عضویت در یک طبقه نشان داده می شوند. طبقه مرجع نیز به صورت یک ردیف در ماتریس تقابل با مقادیر (۰ ) نشان داده می شود این روش رایج ترین روش انتخاب تقابل ها است که اغلب نیز از این روش استفاده می کنیم. ساده در این روش هر طبقه از متغیر پیش بین جز (طبقه مرجع) با طبقه مرجع متغير وابسته مقایسه می شوند.تفاوت هر طبقه از متغیر پیش بین (جز طبقه اول) با میانگین اثر طبقات قبلی مقایسه می شود این روش به معکوس تقابل های هلمرت نیز معروف است. هلمرت: هر طبقه از متغیر پیش بین (جز طبقه آخر) با میانگین اثر طبقات بعدی مقایسه می شوند (یعنی برعکس روش تفاوت) چند جمله ای: در این روش که به تقابل های چند جمله ای متعامد نیز معروف است فرض بر این است که فاصله بین طبقات برابر می باشد این تقابل ها فقط برای متغیرهای عددی امکان پذیر هستند.
6- انحراف هر طبقه از متغیر پیشبین (جز طبقه مرجع) با اثر کل مقایسه می شود.( حبیب پور گتابی و صفری شالی، 1391: 710 -711).
ارزیابی مدل رگرسیونی لجستیک
در تحلیل رگرسیون لجستیک برای ارزیابی میزان برازش کل مدل از آزمون نسبت درست نمائی[5] (LR) استفاده می شود که آماره آن میباشد بنابراین، در اینجا، آماره x2معادل آماره F در تحلیل رگرسیون خطی .است هدف آزمون نسبت درست نمائی این است که تفاوت بین احتمال پیش بینی شده حضور یک پاسخگو در یک طبقه و طبقه واقعی او را به حداقل کاهش دهد برای این، منظور این آزمون ضرایب لجستیک تولید می کند که قادرند پاسخگویان را با دقت هر چه بیشتری در طبقه واقعی خود قرار دهند ( حبیب پور گتابی و صفری شالی، 1391: 712).
نسبت درست نمائی بر اساس تفاوت در مقدار انحراف ها محاسبه می شود. یعنی انحراف بدون وجود متغیر پیش بین در مدل منهای انحراف با وجود متغیر پیشبین در مدل به عبارتی روشن تر در آزمون نسبت درست نمائی مقدار آماره و یک بار فقط برای عدد ثابت در معادله بدون هیچ متغیر پیش بین (مستقل) و بار دیگر پس از ورود هر متغیر پیشبین به معادله محاسبه می شود (سرمد، ١٣٨٤: ٣٣٣).
مقدار انحراف از طریق فرمول زیر محاسبه می آید:
D=2i=1nyi lnπ(xi)yi+lyi lnlπ(xi)lyi
بنابراین، مقدار تفاضل دو انحراف از همدیگر (D) که نسبت درست نمائی براساس آن محاسبه می شود برابر است با
(مدل با متغیر) - (مدل بدون متغير) G =x2 = D
نکته ۱ در تفسیر مقدار نسبت درست نمائی با استفاده از معنی داری مقدار آمارهx2 در سطح خطای کوچکتر از ۰/۰۵ می توانیم پی ببریم که آیا مدل رگرسیونی به خوبی داده ها را برازش میدهد یا خیر؟ البته باید توجه داشت که برخلاف آماره x2 پیرسون در جدول توافقی و همچنین سایر آزمون های مشابه که از آماره x2 استفاده می کنند و در آنها مقدار بالاتر نشان دهنده میزان بیشتر رابطه با تفاوت است در آزمون نسبت درست نمائی برعکس است. یعنی در اینجا هر چه مقدار آماره x2 کوچک تر باشد، برازش مدل بهتر است (سرمد، 1384: ۳۳۳).
نکته ۲ بر اساس توضیحات بالا می توان چنین نوشت کهبرای پی بردن به برازش کل مدل رگرسیونی، لجستیک از آماره و استفاده می کنیم. برای پی بردن به معنی داری اثر هر متغیر بر متغیر وابسته از آماره Wald استفاده می کنیم.برای پی بردن به میزان تأثیر هر متغیر بر متغیر وابسته از آماره(ExpB) استفاده می کنیم که همان نسبت بختهاست بنابراین آماره Wald مقدم بر آماره (ExpB) می باشد( حبیب پور گتابی و صفری شالی، 1391: 712- 713).
انواع رگرسیون لجستیک
۱- رگرسیون لجستیک اسمی دووجهی موقعی است که متغیر وابسته در سطح اسمی دووجهی (دوشقی) است یعنی زمانی که با یک متغیر وابسته اسمی دووجهی سروکار داریم.
2- رگرسیون لجستیک اسمی چندوجهی یا چند جمله ای موقعی مورد استفاده قرار می گیرد که متغیر وابسته اسمی چندوجهی (چندشقی) است(حبیب پور گتابی و صفری شالی، 1391: 713).
روشهای انتخاب متغیرها در رگرسیون لجستیک در رگرسیون لجستیک روشهای متعددی برای انتخاب و ورود متغیرها به مدل وجود دارند که به ما کمک می کنند تا مشخص کنیم. چگونه متغیرهای مستقل وارد تحلیل شوند و نیز بتوانیم مدلهای رگرسیونی مختلفی را بر روی یک مجموعه متغیر یکسان ایجاد کنیم. روش همزمان: در این روش تمامی متغیرها در یک مرحله وارد مدل می شوند.روش پیش رو مشروط: نوعی روش گام به گام است که در آن، ورود متغیرهـا بـه تحلیل براساس معنی داری مقدار آماره نسبت درست نمائی و خروج متغیرها از تحلیل بر اساس احتمال این آماره و با توجه به برآوردهای پارامتر مشروط انجام می گیرد.روش پیش رو نسبت درست نمائی: نوعی روش گام به گام است که در آن، ورود متغیرها به تحلیل براساس معنی داری مقدار آماره نسبت درست نمائی، و خروج متغیرها از تحلیل براساس احتمال این آماره و با توجه به برآوردهای حداکثر درست نمائی جزئی (تفکیکی) انجام می شود.روش پیشرو والد: نوعی روش گام به گام است که در آن، ورود متغیرهـا بـه تحلیل براساس معنی داری مقدار آماره نسبت درست نمائی و خروج متغیرها از تحلیل براساس احتمال آماره والد انجام می گیرد.روش حذف پس رو مشروط: نوعی روش گام به گام پس رو است که در آن، خروج متغیرها از تحلیل بر اساس احتمال آماره نسبت درست نمائی و با توجه به برآوردهای پارامتر مشروط انجام می گیرد.روش حذف پسرو نسبت درست نمائی: نوعی روش گام به گام پسرو است که در آن، خروج متغیرها از تحلیل براساس احتمال آماره نسبت درست نمائی و با توجه به برآوردهای حداکثر درست نمائی جزئی یا تفکیکی انجام می گیرد. روش حذف پس رو والد: نوعی روش گام به گام پسرو است که در آن، خروج متغیرها از تحلیل براساس احتمال آماره والد انجام می گیرد(حبیب پور گتابی و صفری شالی، 1391: 714).

رگرسیون لجستیک اسمی دووجهی(Binomial Logistic Regression=BLR)
تحلیل رگرسیون لجستیک اسمی دووجهی زمانی مورد استفاده قرار می گیرد که متغیر وابسته در سطح اسمى دووجهی (دوشقی) است و بنا داریم وجود یا عدم یک صفت را براساس مجموعه ای از متغیرهای مستقل پیش بینی کنیم بنابراین در رگرسیون لجستیک اسمی دووجهی ما نمی توانیم همانند رگرسیون خطی چند متغیره مقدار عددی دقیق یک متغیر و بسته را بر اساس اطلاعاتی که راجع به متغیرهای مستقل داریم تعیین کنیم بلکه در این روش ما با نسبت احتمال (p) سروکار داریم که آن را با کد (۱) نشان می دهند تا کد (۰) مثال های متعددی را می توان برشمرد که در آن با یک متغیر وابسته اسمی دووجهی سروکار داریم این که چرا برخی کودکان در هنگام تولد میمیرند و برخی دیگر زنده می مانند؟ این که چرا برخی شهروندان در انتخابات شرکت میکنند و برخی دیگر شرکت نمی کنند؟ این که چرا برخی دانشجویان موفق به دریافت مدرک تحصیلی می شوند و برخی دیگر موفق نمی شوند؟ این که چرا برخی مردم دچار بیماری قلبی می شوند و دیگران نمی شوند؟ این که چرا برخی بنگاهها موفق اند و برخی دیگر ناموفق؟ اینها همگی سئوالاتی هستند که نرم افزار SPSS این امکان را برای ما فراهم کرده است تا بتوانیم عوامل پیش بینی کننده تغییرات یک متغیر اسمی دو وجهی را نیز شناسایی کنیم در واقع در این نوع رگرسیون لجستیک می توانیم احتمال وقوع یک واقعه را به طور مستقیم برآورد کنیم( حبیب پور گتابی و صفری شالی، 1391: 715).
پیش فرضهامتغير وابسته حتماً باید در سطح سنجش اسمی دووجهی (دوشقی) باشد. متغیرهای مستقل می توانند هم در سطح کمی (فاصله ای نسبی) و هم در سطح کیفی طبقه بندی شده (اسمی ترتیبی) باشند اما چنانچه یک یا چند متغیر مستقل در سطح اسمی / ترتیبی بودند حتماً باید ابتدا این متغیرها را به متغیرهای تصنعی تبدیل کنیم (یعنی کدهای ۱ و 0) البته در روش رگرسیون لجستیک، کادری به نام ... Categorical وجود دارد که با انتخاب و اجرای آن متغیرهای ترتیبی به طور خودکار به متغیرهای تصنعی تبدیل می شوند بنابراین نیازی به کدگذاری مجدد آنها توسط محقق نیست.لزوم تبعیت دادههای متغیرهای مستقل از توزیع نرمال ضروری نیست. اما چنانچه این متغیرها دارای توزیع نرمال چند متغیره باشند در آن صورت برازش مدل بهتر خواهد بود. چندهم خطی نبودن متغیرهای مستقل از دیگر مفروضات رگرسیون لجستیک می باشد. چراکه در صورت چندهم خطی بودن این متغیرها برآوردها دارای اریب بوده و خطاهای استاندارد نیز نوسان زیادی خواهند داشت. ترسیم نمودار پراکنش به ما کمک می کند تا از چندهم خطی بودن یا نبودن متغیرهای مستقل اطمینان حاصل کنیم.
نکته: چنان چه پیش فرضهای نرمال بودن چند متغیره و برابری ماتریسهای واریانس و کوواریانس تأمین شدند در آن صورت پیشنهاد می شود که از روش تحلیل تشخیصی به جای روش تحلیل لجستیک استفاده کنیم.( حبیب پور گتابی و صفری شالی، 1391: 715 -716).
مثال پژوهش گری در صدد است تا مهمترین عوامل موثر بر فرار از خانه دانش آموزان را شناسایی کند و پی ببرد که فرار از خانه این دانش آموزان تحت تأثیر چه عواملی می باشد؟ به عبارتی این پژوهش گر قصد دارد تا پی ببرد که آیا با استفاده از یک سری متغیرها می تواند تعیین کند که احتمال ماندن یا فرار دانش آموزان از خانه چقدر است؟ در این تحقیق 520 دانش آموز به عنوان حجم نمونه انتخاب و در آن وضعیت فرار از خانه توسط دانش آموزان به عنوان متغیر وابسته و ۵ متغیر جنسیت، اعتماد به مدرسه، نظارت اجتماعی، گرایش به آسیب های اجتماعی و ضعف آگاهی از عواقب آسیب های اجتماعی به عنوان متغیرهای مستقل در نظر گرفته شده اند. این پژوهشگر سپس با استفاده از دستور (Transform> Recode)، متغیرها را به صورت صفحه بعد تعریف و کدگذاری کرده است.متغیر وابسته آیا دانش آموزان تا به حال از خانه فرار کرده اند؟ که در دو طبقه دسته بندی شده اند.
طبقه 1 خیر
طبقه 2 بلی
متغیر مستقل
متغیر جنسیت
طبقه 1 مرد
طبقه 2 زن
نحوه اجرا در Spssدستور … Binary logistic Regression Analyze را اجرا می کنیم.

متغیر وابسته یعنی فرار از خانه وارد کادر Dependent و متغیرهای مستقل را در این جا 5 متغیر را وارد کادر covariates می کنیم. سپس، در کادر Method، روش Forward:LR را انتخاب می کنیم.
دكمه ...Categorical را کلیک می کنیم در پنجره جدیدی که باز می شود، متغیرهای طبقه بندی نشده (جنسیت پاسخگو) را از سمت چپ انتخاب کرده و به سمت راست انتقال می دهیم (اگر در کادرContrast روشی غیر از Indicator را به عنوان روش تقابل و First را به عنوان طبقه مرجمع انتخاب کردیم در آن صورت حتماً باید بر روی دکمه Change کلیک کنیم تا تغییرات اعمال شود).

بر روی دکمه... Save کلیک می کنیم در پنجره جدیدی که باز می شود، گزینه های Probabilities و Group membership را در قسمت Predicted Values، گزینه Cooks را در قسمت Influence و گزینه Studentized را در قسمت Residuals انتخاب و سپس بر روی دکمهContinue کلیک می کنیم.

دکمه ... Options را کلیک کرده و در پنجره جدیدی که باز می شود گزینه های Classification plots Hosmer-Lemeshow goodness-of-tits را در قسمت Statistics and Plots انتخاب می کنیم. سپس، دکمه Continue را کلیک می کنیم.

بر روی دکمه ok در کادر اصلی دستور ... Binary Logistic کلیک می کنیم.

جدول زیر به عنوان اولین خروجی رگرسیون لجستیک نشان میدهد که از مجموع 520 دانش آموز (نفر) 375 دانش آموز (72.1) درصد مورد تحلیل قرار گرفته و 145 دانش آموز (27.9 درصد) به علت داشتن مقدار گمشده و نامعلوم وارد تحلیل نشده اند توجه داشته باشید زمانی که مقدار یکی از متغیرهای وابسته یا مستقل برای یک پاسخگو نامعلوم باشد، رگرسیون لجستیک آن پاسخگو را از تحلیل خارج تحلیل خارج می کند. مانند 145 دانش آموز در این مثال).

Case Processing Summary
Unweighted Casesa
N
Percent
Selected Cases
Included in Analysis
375
72.1
Missing Cases
145
27.9
Total
520
100.0
Unselected Cases
0
.0
Total
520
100.0
a. If weight is in effect, see classification table for the total number of cases.

جدول زیر با عنوان (Dependent Variable Encoding) کدهای اولیه متغیر وابسته را به کدهای جدید تغییر می دهد در تحقیق حاضر متغیر وابسته مورد نظر، تا به حال دانش آموزان از خانه فرار کرده اند؟ که از دو طبقه خیر با کد (۱) بلی با کد (۲) تشکیل شده است اما همان طور که در این جدول ملاحظه می شود دستور رگرسیون لجستیک کدهای (۱) و (۲) را به کدهای (۰) و (۱) تبدیل می کند یعنی کد (۱) برای گروه خیر را به (۰) و کد (۲) برای گروه بلی را به (۱) تبدیل می کند، بنابراین موقعی که ضریب تأثیر (B) یک متغیر مستقل بر متغیر وابسته مثبت باشد، بدین معنی است که در نتیجه این متغیر مستقل شاهد افزایش در احتمال فرار از خانه توسط دانش آموزان خواهیم بود و، برعکس ضریب تاثیر منفی دلالت بر کاهش احتمال فرار از خانه توسط دانش آموزان و در واقع افزایش احتمال ماندن دانش آموزان در خانه وجود دارد.

Dependent Variable Encoding
Original Value
Internal Value
خیر
0
بلی
1

جدول زیر اطلاعات توصیفی در خصوص نحوه برخورد با کدهای متغیرهای کیفی طبقه بندی شده اسمی را ارائه می دهد در این جدول در مورد متغیرهای دووجهی برای طبقه اول از هر، متغیر کد (۱) و برای طبقه دوم کد (۰) در نظر گرفته شده است.

Categorical Variables Codings

Frequency
Parameter coding
(1)
جنسیت پاسخگو:
مرد
65
1.000
زن
310
.000

خروجی تحلیل رگرسیون لجستیک شامل دو بلوک است:(0) Block این بلوک خروجی مرحله صفر (۰) در رگرسیون لجستیک را نشان می دهد یعنی مرحله ای که هنوز هیچ دادهای وارد تحلیل نشده است برای تفسیر نتایج رگرسیون لجستیک از این بلوک استفاده نمی کنیم. (1) Block این بلوک، بلوک اصلی رگرسیون لجستیک است که در هنگام تفسیر نتایج باید آن را گزارش کنیم این، مرحله نتایج پس از ورود متغیرها به تحلیل را در بر می گیرد.
در این ،قسمت به تفکیک به نتایج هر دو بلوک اشاره می شود اما باز متذکر می شویم که برای ارائه گزارش نتایج تحقيق حتماً باید خروجی بلوک (۱) را تفسیر کنیم نه خروجی بلوک(۰).
۱- خروجی بلوک (۰)
خروجی جدول زیر نتایج مربوط به 0 Block یا تحلیل اولیه را نشان می دهد. در این بلوک، هیچ مرحله ای (گامی برای ورود داده ها به مدل اجرا نشده است. به همین خاطر، برچسب Step0 (مرحله صفر) را در تمامی خروجی های این بلوک مشاهده می کنیم در این بلوک با استفاده از روش تحلیل رگرسیون گام به گام Forward: LR متغیرهای مستقل در صورت معنی دار بودن به ترتیب مقدار نمره از بالا به پائین وارد مدل می شوند. البته در نرم افزار SPSS زمانی که مقدار نمره متغیرها بیشتر باشد، ورود آنها به مدل به صورت پیش گزیده و خود به خود انجام می شود.

جدول طبقه بندی زیر نشان می دهد که با اطمینان 86.7 درصد با استفاده از مجموع 5 متغیر مستقل در این تحقیق قادریم تغییرات متغير وابسته فرار دانش آموزان از خانه را تبیین کنیم.
Block 0: Beginning Block

Classification Tablea,b

Observed
Predicted

تا بحال قصد فرار از خانه داشته اید؟
Percentage Correct

خیر
بلی
Step 0
تا بحال قصد فرار از خانه داشته اید؟
خیر
325
0
100.0
بلی
50
0
.0
Overall Percentage

86.7
a. Constant is included in the model.
b. The cut value is .500

در جدول زیر چون هنوز هیچ متغیری وارد مدل ،نشده بنابراین تنها نتایج مربوط به عدد ثابت در مدل آمده است که مقدار آماره والد آن برابر با 340.957 و نسبت بخت های آن 4.657 می باشد.

Variables in the Equation

B
S.E.
Wald
df
Sig.
Exp(B)
Step 0
Constant
-1.872
.152
151.825
1
.000
.154

در تحقیق حاضر، ۵ متغیر asibkol ، etemadbemadrasehekol، جنسیت پاسخگو و nezaratekol و zafeagahiazavagebkol به عنوان متغیرهای پیش بینی کننده احتمال فرار دانش آموزان از خانه مورد تحلیل قرار گرفته اند. با توجه به نتایج تحلیل اولیه در بلوک (۰) به استثنای متغیر zafeagahiazavagebkol، asibkolو جنسیت، بقیه متغیرها etemadbemadrasehekol، و nezaratekol و با سطح معنی داری بزرگتر از0.05 به ترتیب با سطح معنی داری 0.400و 0.105 سایر متغیرهای وارد شده ( zafeagahiazavagebkol، asibkolو جنسیت ) در تحلیل رگرسیونی قادر به پیش بینی تغییرات متغير وابسته فرار دانش آموزان از خانه می باشند.
Variables not in the Equation

Score
df
Sig.
Step 0
Variables
asibkol
26.701
1
.000
etemadbemadrasehekol
.708
1
.400
جنسیتپاسخگو(1)
4.581
1
.032
nezaratekol
2.623
1
.105
zafeagahiazavagebkol
4.710
1
.030
Overall Statistics
39.133
5
.000
۲- خروجی بلوک (۱)

مهم ترین خروجی تحلیل رگرسیون لجستیک خروجی 1 Block است که تفسیر نتایج رگرسیون لجستیک باید بر اساس این خروجی انجام گیرد. این خروجی، نتایج رگرسیون نجستیک را به تفکیک در هر مرحله (گام) نشان می دهد در مجموع کل خروجی رگرسیون لجستیک در بلوک (۱) را می توان به چهار بخش تقسیم کرد که هر محققی در هنگام گزارش نویسی، باید به آنها اشاره کند:
۱- ارزیابی کل مدل
۲- آماره های نکوئی برازش
3- آزمونهای آماری مربوط به تاثیر هر متغیر پیشبین (مستقل) 3 ارزیابی اعتبار احتمالات پیش بینی شده
اولین بخش از خروجی بلوک (۱) نتایج آزمون اوم نی بوس[6] مربوط به ارزیابی کل مدل رگرسیونی لجستیک را نشان می دهد این ازمون به بررسی این موضوع می پردازد که مدل تا چه اندازه قدرت تبیین و کارایی دارد؟ با توجه به نتایج حاصل از آزمون اوم نیبوس در مرحله چهارم برازش مدل قابل قبول و در سطح خطای کوچکتر از ۰/۰۱ معنی دار است.

Block 1: Method = Forward Stepwise (Likelihood Ratio)

Omnibus Tests of Model Coefficients

Chi-square
df
Sig.
Step 1
Step
25.152
1
.000
Block
25.152
1
.000
Model
25.152
1
.000
Step 2
Step
3.796
1
.051
Block
28.947
2
.000
Model
28.947
2
.000
Step 3
Step
7.571
1
.006
Block
36.518
3
.000
Model
36.518
3
.000

جدول بعدی نتایج مربوط به دو آماره لگاریتم درست نمائی و ضریب تعیین پزودو(شامل ضریب تعیین کاکس و نل و ضریب تعیین نیجل کرک) را نشان می دهد. این ضرایب تقریب های ضریب تعیین (R) در رگرسیون خطی هستند که در اینجا در رگرسیون لجستیک استفاده می شوند. در رگرسیون لجستیک چون محاسبه دقیق مقدار ضريب تعيين دشوار است، بنابراین از مقادیر آماره های فوق برای این کار استفاده می شود تا مشخص گردد که متغیرهای مستقل توانسته اند تا چه میزان از واریانس متغیر وابسته را تبیین کنند. مقادیر آماره های ضریب تعیین پزودو بین (۰) تا (۱) نوسان دارد و هرچه مقدار این آماره ها به عدد (۱) نزیکتر باشد نشان می دهد که نقش متغیرهای مستقل در تبیین واریانس متغیر وابسته زیاد است و برعکس، مقادیر نزدیک به (۰) دلالت بر نقش ضعیف متغیرها در این امر دارد. در مورد مثال زیرملاحظه می شود که در مرحله سوم مقادیر هر دو آماره مربوط به ضریب تعیین پزودو پائین (0.093 و 0.171) بوده و این نشان می دهد که ۵ متغیر مستقل این تحقیق از قدرت تبیین چندان بالایی در خصوص واریانس و تغییرات متغیر فرار دانش آموزان از خانه برخوردار نیستند. در واقع این ۵ متغیر توانسته اند بین 9.3 تا 17.1 درصد از تغییرات فرار دانش آموزان از خانه را تبیین کنند.

Model Summary
Step
-2 Log likelihood
Cox & Snell R Square
Nagelkerke R Square
1
269.354a
.065
.119
2
265.559a
.074
.137
3
257.988b
.093
.171
a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.
b. Estimation terminated at iteration number 6 because parameter estimates changed by less than .001.
در دستور رگرسیون لجستیک به کمک دو روش می توانیم به میزان برازش مدل با داده هایی پی ببریم.آماره نکوئی برازش هوسمر - لمشو: با توجه به نتیجه حاصل از آزمون هوسمر و لمشو در مرحله سوم ،(3.983) برازش میزان پیش بینی تغییرات متغیر وابسته در سطح خطای کوچک تر از ۰/۰۱ معنی داراست بدین معنی که مدل تحقیق مناسب بوده و از برازش لازم برخوردار است یعنی متغیرهای مستقل قادر به پیش بینی نسبت بالایی از تغییرات متغير وابسته (وضعیت فرار دانش آموزان از خانه) می باشندنمودارهای باقیمانده دو نمودار مفیدی که برای این کار وجود دارند، نمودار تغییر در مقابل احتمالات پیش بینی شده و نمودار فواصل کوک در مقابل احتمالات پیشینی شده می باشند برای ترسیم این نمودارها می توانیم در هنگام اجرای دستور رگرسیون لجستیک با انتخاب گزینه Cook's از قسمت Influence و گزینه Deviance از در انحراف درقسمت Residuals در کادر... Save نمودارهای مورد نظر را ترسیم می کنیم.

Hosmer and Lemeshow Test
Step
Chi-square
df
Sig.
1
12.738
3
.005
2
12.511
8
.130
3
3.983
8
.859

مبنای محاسبه مقدار آزمون هو سمر - لمشو که در بالا مشاهده شد، جدول توافقی زیر می باشد. در این جدول برای هر تکرار در هر مرحله از تحلیل فراوانی های مشاهده شده و مورد انتظار پاسخگویان در هر طبقه از متغیر وابسته نشان داده شده است.

Contingency Table for Hosmer and Lemeshow Test

تا بحال قصد فرار از خانه داشته اید؟ = خیر
تا بحال قصد فرار از خانه داشته اید؟ = بلی
Total
Observed
Expected
Observed
Expected
Step 1
1
38
40.857
4
1.143
42
2
18
17.753
1
1.247
19
3
207
199.016
18
25.984
225
4
38
41.981
12
8.019
50
5
24
25.393
15
13.607
39
Step 2
1
34
36.929
4
1.071
38
2
36
35.311
2
2.689
38
3
35
32.915
1
3.085
36
4
38
36.249
2
3.751
40
5
33
34.087
5
3.913
38
6
37
35.474
3
4.526
40
7
32
33.142
6
4.858
38
8
33
32.254
5
5.746
38
9
29
30.303
9
7.697
38
10
18
18.334
13
12.666
31
Step 3
1
36
37.134
2
.866
38
2
35
36.265
3
1.735
38
3
35
34.536
2
2.464
37
4
37
35.847
2
3.153
39
5
36
34.369
2
3.631
38
6
34
33.788
4
4.212
38
7
33
32.873
5
5.127
38
8
31
31.631
7
6.369
38
9
29
29.543
9
8.457
38
10
19
19.015
14
13.985
33

بعد از اجرای تحليل رگرسيونى نمودار طبقه بندی فراد در طبقات متغیر وابسته را تعیین کنیم 1) جدول طبقه بندی Classification Table 2) نمودار طبقه بندی .(Classification Plot) در خروجی رگرسیون لجستیک ابتدا نتایج جدول طبقه بندی و سپس نتایج نمودار طبقه بندی نشان داده می.شود به همین خاطر، ابتدا به نتایج جدول طبقه بندی و سپس نمودار طبقه بندی که آخرین خروجی (است) اشاره میشود البته ابتدا باید اشاره داشت که نتایج هر دو خروجی یکسان و مکمل همدیگر است جدول صفحه بعد که جدول طبقه بندی نام ،دارد به ما کمک می کند تا از طریق ترسیم توافقی پاسخها در طبقات مشاهده شده و مورد انتظار عملکرد مدل و قدرت تفکیک افراد در طبقات متغير وابسته را ارزیابی کنیم این جدول به صورت توافقی نسبت های پاسخ مشاهده شده در طبقات متغیر وابسته نوزادان زنده مانده و نوزادان فوت شده را به پاسخ مورد انتظار در همان طبقات نشان میدهد این جدول به ما کمک میکند تا میزان عملکرد پیش بینی پذیری مدل را ارزیابی .کنیم در این ،جدول برای هر ،پاسخگویی طبقه پیش بینی شده ،پاسخ با گزینش طبقه ای که بالاترین احتمال پیش بینی شده مدل را دارد انتخاب می شود. همچنین در این جدول، خانه های قطری، تعداد پیش بینی های صحیح را نشان می دهند و خانه های خارج از قطر نیز تعداد پیش بینی های غیر صحیح بر اساس نتایج این جدول می توانیم به میزان صحت و سقم مدل در طبقه بندی افراد پی . همان طور که در جدول ملاحظه می شود درصد صحت پیش بینی و طبقه بندی مدل در از ورود هر متغیر به مدل نشان داده شده است به عنوان مثال، در 3 پس از ورودد هر متغیر به مدل نشان داده شده است. مرحله اول که ببریم.
برای مثال 46 نفر که پاسخ بلی داده اند در قسمت خیر طبقه بندی شده اند. صحت طبقه بندی این جدول 88.3 درصد با ورود متغیر ضعف آگاهی از عواقب افزایش یافت.

Classification Tablea

Observed
Predicted

تا بحال قصد فرار از خانه داشته اید؟
Percentage Correct

خیر
بلی
Step 1
تا بحال قصد فرار از خانه داشته اید؟
خیر
325
0
100.0
بلی
46
4
8.0
Overall Percentage

87.7
Step 2
تا بحال قصد فرار از خانه داشته اید؟
خیر
324
1
99.7
بلی
45
5
10.0
Overall Percentage

87.7
Step 3
تا بحال قصد فرار از خانه داشته اید؟
خیر
324
1
99.7
بلی
43
7
14.0
Overall Percentage

88.3
a. The cut value is .500

این جدول ضمن ارائه ی خلاصه ای از نقش هر متغیر در مدل، نشان می دهد که کدام متغیرها بعد از اجرای رگرسیون لجستیک در مدل باقی مانده اند. آماره والد برای آزمون معنی داری حضور هر متغیر مستقل در مدل می باشد معادل آماره t می باشد. که در سطح خطای کوچکتر از 0.05 معنادار است. نسبت بخت exp نسبت احتمال وقوع یک پدیده را نشان می دهد. متغیرهای Asibkol، nezaratekol ،zafeagahiazavagebkol و zafeagahiazavagebkol با توجه به سطح معنی داری کوچکتر از 0.05 تاثیر معنی داری بر فرار دانش آموزان از خانه را دارند.

Variables in the Equation

B
S.E.
Wald
df
Sig.
Exp(B)
Step 1a
asibkol
.250
.057
18.939
1
.000
1.284
Constant
-4.037
.544
55.045
1
.000
.018
Step 2b
asibkol
.251
.056
20.173
1
.000
1.286
nezaratekol
-.021
.011
3.917
1
.048
.979
Constant
-2.568
.885
8.411
1
.004
.077
Step 3c
asibkol
.247
.055
19.989
1
.000
1.280
nezaratekol
-.034
.012
7.913
1
.005
.966
zafeagahiazavagebkol
.224
.083
7.224
1
.007
1.251
Constant
-3.583
.994
12.984
1
.000
.028
a. Variable(s) entered on step 1: asibkol.
b. Variable(s) entered on step 2: nezaratekol.
c. Variable(s) entered on step 3: zafeagahiazavagebkol.

جدول پایین سهم هر متغیر به مدل را تبیین می کند تغییرات متغیر وابسته در هر سه مرحله نشان می دهد که مبنای خروج هر سطح معنی داری بزرگ تر از 1/0 است. برای مثال با ورود متغیر zafeagahiazavagebkol به مقدار 7.571 افزایش یافت.

Model if Term Removed
Variable
Model Log Likelihood
Change in -2 Log Likelihood
df
Sig. of the Change
Step 1
asibkol
-147.253
25.152
1
.000
Step 2
asibkol
-146.000
26.441
1
.000
nezaratekol
-134.677
3.796
1
.051
Step 3
asibkol
-141.728
25.468
1
.000
nezaratekol
-132.912
7.836
1
.005
zafeagahiazavagebkol
-132.779
7.571
1
.006

متغیرهایی را نشان می دهد که در هر مرحله از تحلیل، تاثیر معنی داری بر تغییرات متغیر وابسته نداشته و در نتیجه از مدل خارج شده اند. اگر سطح معنی داری از 0.05 بیشتر باشند تاثیر معنی داری بر متغیر وابسته نخواهند داشت. به عنوان مثال سطح معنی داری متغیر etemadbemadrasehekol 0.934 که بزرگ تر از 0.05 است می باشد. لذا تاثیر معنی داری بر فرار کودکان از خانه را ندارند. مقدار کل آماره هم در گام آخر 0.671 می باشد.
Variables not in the Equation

Score
df
Sig.
Step 1
Variables
etemadbemadrasehekol
.056
1
.812
جنسیت پاسخگو(1)
1.348
1
.246
nezaratekol
3.996
1
.046
zafeagahiazavagebkol
3.438
1
.064
Overall Statistics
12.048
4
.017
Step 2
Variables
etemadbemadrasehekol
.030
1
.862
جنسیت پاسخگو(1)
1.244
1
.265
zafeagahiazavagebkol
7.371
1
.007
Overall Statistics
8.206
3
.042
Step 3
Variables
etemadbemadrasehekol
.007
1
.934
جنسیت پاسخگو(1)
.794
1
.373
Overall Statistics
.797
2
.671

این نمودار پایین صحت طبقه بندی و پیش بینی را نشان می دهد.صحت طبقه بندی 88.3 درصد می باشد.

Step number: 3

Observed Groups and Predicted Probabilities

32 + 1 +
I 0 I
I 0 1 I
F I 0101 I
R 24 + 0000 +
E I 0000 I
Q I 1 000001 I
U I 01 000000 I
E 16 + 0000000000 +
N I 00000000000 1 I
C I 00000000000 011 1 I
Y I 00000000000010001 1 I
8 + 000000000000000001 1 +
I 000000000000000000101 1 I
I 0000000000000000000001 0 01 0 0 I
I0000000000000000000000000000000 001 00 0 01 0 1 1 11 0 1 1 1 I
Predicted ---------+---------+---------+---------+---------+---------+---------+---------+---------+----------
Prob: 0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
Group: 0000000000000000000000000000000000000000000000000011111111111111111111111111111111111111111111111111

Predicted Probability is of Membership for بلی
The Cut Value is .50
Symbols: 0 - خیر
1 - بلی
Each Symbol Represents 2 Cases.

رگرسیون لجستیک چندگانه چیست؟
در ابتدا باید اشاره کرد که خود روش رگرسیون ، یکی از روش های آماری پارامتریک می باشد که به بررسی تاثیرات متغیرهای پیش بین بر روی متغیرهای ملاک می پردازد. نوع متغیر وابسته تحقیق ، روش و نوع رگرسیونی را که باید استفاده کنیم را برای ما مشخص می کند . زمانی که متغیر تحقیق از نوع فاصله ای نباشد، باید از رگرسیون لوجستیک (Logistic Regression) که یکی از انواع رگرسیون است استفاده کنیم. خود رگرسیون لوجستیک انواعی دارد مانند: رگرسیون یک جمله ای و ترتیبی و چندگانه. رگرسیون لوجستیک چند جمله ای زمانی کاربرد دارد که متغیر وابسته ما اسمی باشد و چندین طبقه داشته باشد.
کاربرد روش رگرسیون لجستیک چندگانه
با استفاده از روش رگرسیون لجستیک چندگانه، می توانیم روابط بین متغیرهای پیش بین را با متغیر وابسته در چندین طبقه بررسی نماییم. مثلا بررسی عوامل موثر بر گرایش به انتخاب رشته دانش آموزان یا دانشجویان و…. . خود رشته های دانشگاهی یا دبیرستانی ، از نوع اسمی هستند ، برای همین باید از رگرسیون لجستیک چند جمله ای بهره گرفت.
مفروضه های رگرسیون لجستیک چند جمله ایمفروضه خطی بودن متغیرهاهمگنی واریانس‌هاحجم نمونه کافیبررسی بهنجاری توزیع متغیر وابسته یا ملاکسطح سنجش کیفی متغیر وابسته و به صورت اسمی با بیش از دو حالتبررسی نقاط پرت کیس هاچند هم خطی بین متغیرهای مستقل و تکینی
اجرا رگرسیون لوجستیک چند جمله ای در SPSS
برای اجرا تحلیل ، ابتدا داده های تحقیق را وارد نرم ‌افزار SPSS می کنیم و متغیرها را تعریف می نماییم . در گام بعدی از بخش Analyze گزینه Regression را انتخاب می کنیم و سپس Multinomial Logistic را می زنیم. این گزینه را زمانی می زنیم که متغیر وابسته تحقیق ما به صورت کیفی و در سطح اسمی با چند حالت سنجیده شده باشد. مثلا در این مثال ما می خواهیم عوامل موثر بر علاقه به رشته را در بین دانش آموزان یک مدرسه بررسی کنیم. این دانش آموزان این گزینه ها را داشته اند: رشته ریاضی، انسانی، تجربی و هنر .

در گام بعدی باید متغیر وابسته اسمی خود را در قسمت Dependent وارد کنیم و سپس متغیرهای پیش بین خود را در قسمت Independents وارد می‌کنیم. قسمت Covariate(s) هم برای متغیرهای کنترل می باشد.

سپس باید به قسمت Statistics برویم و گزینه‌های Classification table و Goodness-of-fit را فعال کنیم. سپس بر روی Continue کلیک می کنیم.

در گام چهارم وارد قسمت save می شویم و گزینه های این قسمت را فعال می کنیم . سپس بر روی Continue کلیک می کنیم. در پایان گزینه ok را بزنید تا خروجی های رگرسیون لوجستیک چند جمله ای برای شما نمایش داده شود.

تفسیر خروجی های رگرسیون لوجستیک چند جمله ای
جدول Case Processing Summary
در جدول اول، شما می توانید متغیرها و حجم هر کدام از آن ها را به تفکیک طبقه ها بررسی نمایید. همان طور که می بینید ما در این جا متغیر علاقه به رشته و درآمد وا جامعه شناسی...

ما را در سایت جامعه شناسی دنبال می کنید

برچسب : نویسنده : isocial-mee بازدید : 51 تاريخ : سه شنبه 22 فروردين 1402 ساعت: 19:17