استنباط آماري مدل رگرسيوني با خطاهاي خودبازگشتي به روش لاسو- قسمت 4

رگرسیون ریج در سال 1962 برای اولین بار توسط هوئرل و کنارد[4] معرفی شد. همان طور که می دانیم اساس و پایه برآوردگر کمترین مربعات یک رگرسیون خطی این است که وجود داشته باشد. دو دلیل وجود دارد که این معکوس وجود نداشته باشد : یکی ماتریس طرح پر رتبه ستونی نباشد و دیگری چند همخطی بودن می باشد. روش رگرسیون ریج یکی از بهترین و محبوب ترین گزینهها برای رفع این مشکل می باشد.
اضافه کردن ماتریس قطری به راهی آسان برای تضمین معکوس پذیری می باشد یعنی . ( یک ماتریس همانی می باشد). بنابراین برآوردگر رگرسیون ریج پارامتر به صورت زیر می باشد :
که می باشد .این برآوردگر را نیز میتوان با مینیمم کردن عبارت
نسبت به تحت شرط بدست آورد. یک پارامتر تنظیم کننده میباشد که میزان انقباض ضرایب را کنترل میکند.
بطور معادل با مینیمم کردن
نسبت به بدست میآید.
همانطور که میدانید، برآوردگر کمترین مربعات به صورت زیر میباشد:
یک برآوردگر اریب با میانگین و واریانس زیر میباشد :
همانطور که میدانید برآوردگر کمترین مربعات نااریب با واریانس زیر میباشد:
هوئرل و کنارد ثابت کردهاند که اگر کراندار باشد می توان -یی را پیدا کرد به طوریکه :
بنابراین رگرسیون ریج می تواند برآورد را بهبود ببخشد.
1-3-بریج
فرانک و فریدمن[5] در سال 1993 در مورد تعمیم رگرسیون ریج و زیرمجموعه منتخب، از راه اضافه کردن یک جمله تاوان به شکل به مجموع مربعات باقی‌مانده ها پرداختند که هم ارز قیدی به فرم می‌باشد، که آنرا “بریج” نامیدند.
لازم به ذکر است برای توابعی به فرم خطی، تعداد زیادی تابع تاوان وجود دارد : تاوان با (که به تابع تاوان آنتروپی معروف است) که توسط در سال 1996 در روش انتخاب بهترین زیر مجموعه مورد استفاده قرار گرفت. تاوان با (لاسو) که توسط تیبشیرانی در سال 1996 و تاوان با (ریج) توسط هوئرل و کنارد در سال 1962 مورد مطالعه قرار گرفت. همچنین فن و لی[6](2001) کلاس بزرگی از تابع تاوانها را معرفی و سپس مورد مطالعه قرار دادند. آنها نشان دادند که چون تاوان منحصر به فرد میباشد، از اینرو لاسو خود به خود انتخاب متغیر را انجام میدهد، که در بخش بعد آنرا بیان میکنیم.
1-4-لاسو
روش حداقل انقباض مطلق و عملگر انتخاب که به اختصار لاسو نامیده میشود را اولین بار تیبشیرانی[7] (1996) معرفی کرد. این روش بصورت همزمان به برآورد پارامترها و انتخاب متغیر میپردازد. انگیزه اصلی تیبشیرانی در تعریف لاسو، از پیشنهاد گرُت نامنفی فردی به نام بریمن (1993) می آید. در روش گرُت نامنفی بریمن عبارت
تحت شرایط و مینیمم می‌شود.
تیبشیرانی این دو شرط را به یک شرط تبدیل کرد و اسم کانادایی “لاسو” را برای آن انتخاب کرد. این روش اساسا شبیه رگرسیون ریج می‌باشد، با این تفاوت که به جای استفاده از تابع تاوان درجه دوم، از تابع تاوان مجموع قدرمطلق ضرایب استفاده می‌شود و عبارت
تحت شرط مینیمم میشود. در اینجا نیز پارامتر تنظیم کننده بوده و میزان انقباض ضرایب را کنترل می کندبرای برآورد پارامتر میتوان از روشهای اعتبارسنجی متقابل و اعتبارسنچی متقابل تعمیم یافته استفاده کرد که در بخش 1-5-8 به معرفی این دو روش خواهیم پرداخت.
لاسو را در حالت کلی نیز میتوان با مینیمم کردن عبارت زیر بدست آورد :
که در آن یک پارامتر تنظیم کننده نامنفی و همچنین را تاوان مینامیم که این تاوان برای موفقیت لاسو حیاتی میباشد. لاسو با افزایش ضرایب را به سمت صفر انقباض میدهد و زمانیکه به اندازه کافی بزرگ باشد، بعضی ضرایب را دقیقا صفر برآورد میکند. حال میخواهیم رفتار مجانبی برآوردگر لاسو را در مدلهای رگرسیون خطی چندگانه استاندارد با استفاده از تحقیقات نایت و فو[8](2000) بررسی کنیم. برای این منظور مدل رگرسیون خطی(1-1) را در نظر بگیرید. بدون از دست دادن کلیت مسئله، فرض میکنیم متغیرهای مستقل مرکزی شده باشند بهطوریکه دارای میانگین صفر باشند. حال میخواهیم با مینیمم کردن معیار کمترین مربعات تاوانیده زیر، را بدست آوریم:

(1-2)

 

برای یک داده شده، میباشد. همانطور که در بخش 1-3 گفته شد، این چنین برآوردگری به نام برآوردگر بریج نام گذاری شده است.
برای حالتی که ، اگر به اندازه کافی بزرگ باشد، برآوردگرهایی که رابطه (1-2) را مینیمم می‌کنند، پتانسیل لازم جهت صفر شدن دقیق را دارا میباشند.
برای یک داده شده، برآوردگری که رابطه (1-2) را مینیمم کند با نشان می‌دهیم. مطابق با بر
آوردگر کمترین مربعات میباشد.
فرض کنید شرایط نظم زیربرای برقرار باشد :