استنباط آماري مدل رگرسيوني با خطاهاي خودبازگشتي به روش لاسو- قسمت 3

4-2-مثال واقعی 52
پیوست 55
مارتینگل و قضیه حد مرکزی مارتینگلها 56
قضیه ارگودیک 57
فهرست منابع و مآخذ 58
واژه نامه فارسی به انگلیسی 61
واژه نامه انگلیسی به فارسی 66
فهرست جدول ها
عنوان صفحه
جدول4-1: نتایج شبیه سازی برای 51
جدول4-2: نتایج مثال واقعی 53
فهرست علائم اختصاری
LASSO: Least Absolute Shrinkage and Selection Operator
i.i.d: independent and identical distribution
MSE: Mean Square Error
CV: Cross Validation
GCV: Generalized Cross Validation
OLS: Ordinary Least Square
فصل اول
مقدمات و تعاریف
مقدمه :
در این فصل به تعاریف و مقدمات لازم از جمله مدل رگرسیون خطی چندگانه استاندارد، مفهوم چند همخطی، رگرسیون ریج، بریج، روش لاسو و … که در فصلهای بعد به آنها نیاز داریم، خواهیم پرداخت.
1-1-رگرسیون خطی چندگانه و مسئله چند همخطی
یک مدل رگرسیون که شامل بیش از یک متغیر مستقل باشد و نسبت به پارامترها خطی باشد را مدل رگرسیون خطی چندگانه می نامند. فرم کلی یک مدل رگرسیون خطی چندگانه استاندارد به صورت زیر میباشد:

(1-1)

که درآن متغیرهای تصادفی مستقل و هم توزیع با میانگین صفر و واریانس میباشد . بردار پارامترها، برای بردار متغیرهای مستقل و متغیر پاسخ میباشد. ماتریس را ماتریس طرح مینامیم.
هنگامی که بین متغیر های مستقل همبستگی وجود داشته باشد، می گوییم بین آنها چند همخطی وجود دارد. از آثار چند همخطی می توان به موارد زیر اشاره کرد:
الف : از آنجاییکه در این حالت اطلاعات مستقل در مورد هریک از متغیرهای مستقل وجود ندارد، لذا نمی توان اثرات جزئی متغیرهای مذکور روی متغیر وابسته را برآورد کرد .
ب : هنگامی که همبستگی شدید بین متغیرهای مستقل وجود داشته باشد، کوواریانس و واریانس ضرایب، بزرگتر برآورد خواهند شد .
ج : در حالتی که با چند همخطی شدید در مدل مواجه هستیم، پیش بینی های صورت گرفته از آن غیر قابل اعتماد خواهد بود. در این حالت پیش بینی ها براساس مدلی که دارای زیر مجموعه ای از متغیرهای مستقل مدل اصلی است، بهتر صورت می گیرد .
د : رابطه قوی بین دو یا چند متغیر مستقل سبب می شود که نتوان ماتریس را معکوس کرد. زیرا در این صورت ستون های ماتریس به هم وابسته هستند و در نتیجه ستون های نیز با هم وابسته هستند و پررتبه نیست.
همان طور که در قسمت ج گفتیم یکی از روش ها برای بهبود برآورد کمترین مربعات، زیر مجموعه منتخب می باشد که نتیجه گزینش بهترین زیر مجموعه رگرسیون می باشد . از روشهای زیر مجموعه منتخب میتوان به رگرسیون گام به گام، حذف پیشرو و انتخاب پسرو اشاره کرد. البته قابل ذکر است که زیر مجموعه منتخب خود دارای مشکل عدم استواری می باشد . به عنوان مثال با تغییر کوچک در داده ها مدل های خیلی متفاوتی را بوجود می آورد، که این امر درستی پیشبینی را کاهش می دهد.
معمولا می توان درستی پیش بینی را با انقباض تعدادی از ضرایب و یا با صفر قرار دادن آنها بهبود بخشید. روش پیشنهادی برای بهبود روش برآورد کمترین مربعات، رگرسیونهای انقباضی است. از جمله رگرسیون ریج[1]، لاسو[2]و بریج[3]که به اختصار این روشها را توضیح میدهیم. برای توضیح بیشتر در مورد این روشها به سلیمانی(1392) مراجعه شود.
1-2-رگرسیون ریج