۴-۴- خطاهای تصادفی مستقل و ناهم­توزیع
استتنتاج­ها در قضایای ۲ و۳ بر اساس فرض مستقل و هم­توزیع بودن (i.i.d) خطاهای تصادفی بدست آمده است. می­توان نتایج پیش­گویی مزبور را به حالتی که خطاهای تصادفیi.i.d. نباشند، تعمیم داد. بر اساس کاری که Knight در سال ۱۹۹۹ انجام داد، فرض­های زیر را در نظر می­گیریم:
(الف) زمانی که ، داشته باشیم
(ب) خطاهای تصادفی ها مستقل هستند و دارای تابع توزیع است. فرض می­کنیم هر یک از ها به طور موضعی در همسایگی صفر، خطی هستند (با شیب مثبت) و داریم
تعریف می­کنیم که برای هر n و i یک تابع محدب است.

( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

(ج) فرض می­کنیم برای هر u
که یک تابع اکیدأ محدب است که در فاصله­ی مقدار می­گیرد.
نتیجه ۱: تحت شرایط (ii) و (الف)، قضیه­های ۲ و ۳ برای خطاهای تصادفی که i.i.d نیستند و در شرایط (ب) و (ج) صدق می­ کنند، برقرار هستند.
فصل پنجم
مثال کاربردی
در این فصل، یک مثال برای نشان دادن عملکرد انتخاب متغیر، تحت یک مدل رگرسیونی خاص، بیان می­کنیم. در این مثال، جمله­ ثابت در مدل رگرسیونی، در نظر گرفته شده است.
داده ­ها از مدل خطی زیر تولید می­ شود:
(۱-۵)
جائی که ( ۰ ،۰ ،۰ ،۲ ،۰ ،۰ ،۵/۱، ۳) است. مؤلفه­ های و دارای توزیع نرمال هستند. همبستگی بین و ، است که ، ۵/۰ در نظر گرفته شده است. این مدل توسط نویسندگان بسیاری در نظر گرفته شده است. Tibshirani در سال ۱۹۹۶، Fan و Li در سال ۲۰۰۱ و Zou در سال ۲۰۰۶ از جمله نویسندگانی هستند که این مدل را در نظر گرفته­اند.
مثال. برای مقایسه عملکرد انتخاب متغیر تاوان­های ، SCAD و adaptive- داده­هایی از مدل (۱-۵) تولید می­کنیم. نتایج شبیه­سازی در جدول­های ۱ تا ۶ آورده شده است.
در هر روش، شبیه­سازی برای سه مقدار λ برابر با ۱، ۸ و ۲۰ انجام شده است. در هر روش و برای هر مقدار λ، ۱۰۰۰۰ بار از مدل (۱-۵) با برابر با ۱، ۱۰۰ داده و ۱۰۰۰۰ بار برای برابر با ۳، ۱۰۰ داده شبیه­سازی شده است.
در تاوان SCAD، مقدار پارامتر a، همان­طور که Fan و Li پیشنهاد کردند ۷/۳ در نظر گرفته شده است. در تاوان LASSO انطباقی مقدار ، ۱ در نظر گرفته شده است.
تعداد ضرایب صفر به صورت زیر تعیین می­ شود:
یک برآوردگر صفر تلقی می­ شود اگر مقدار آن به صورت قدرمطلق، کمتر از باشد.
میزان خطا، میانگین check loss است و check loss به صورت در نظر گرفته شده است.
منظور از ضرایب صفر صحیح، ضرائبی است که برآورد آن­ها صفر بدست آمده است و در واقعیت نیز مقدار آن­ها صفر می­باشد. ضرایب صفر غلط ضرائبی هستند که برآورد آن­ها صفر بدست آمده است ولی در واقعیت مقدار آن­ها صفر نمی ­باشد.
توجه کنید که در جدول­های ۱ تا ۶، اعدادی که در هر ستون در پرانتز آورده شده است، انحراف معیار می­باشد.
۱=λ
جدول-۱: نتایج شبیه­سازی برای سه روش مورد نظر با ۱=λ و ۱= و ۱۰۰۰۰=n

  n10000=,1=
روش خطا
۲۵/۰   ۱۳۴/۲۹ (۰۲۵/۰) ۷۲۳/۲ (۹۹۰/۰) ۰۰۸/۰ (۰۹/۰)
SCAD ۲۰۷/۲۹ (۰۲۷/۰) ۴۶۳/۲ (۰۵۹/۱) ۰۱۸/۰ (۱۳۶/۰)
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...