دراین فصل مختصری بر روی مفاهیم اولیه روش­های داده ­کاوی و معیار­های ارزیابی مدل­های پیش بینی کننده در این تحقیق خواهیم داشت.
فصل سوم : مروری بر تحقیقات پیشین
در این بخش مروری بر مطالعات و تحقیقاتی که در زمینه شناسایی الگوهای طراحی بیشترین شباهت از نظر هدف به کار ما را دارند خواهیم داشت.
فصل چهارم : تولید مجموعه داده ها
در این فصل نحوه­ تولید مجموعه داده ­های لازم با بهره گرفتن از معیارهای استخراج شده جهت عملیات پالایش و تصحیح برچسب ارائه می­ شود.
فصل پنجم : آزمایشات و نتایج عددی
دراین فصل با بهره گرفتن از معیار­های استخراج شده و تکنیک­های داده ­کاوی، مجموعه ­ای از آزمایش­ها جهت انجام عملیات پالایش و تصحیح برچسب الگوی استراتژی روی نتایج دو ابزار خودکارشناسایی الگوهای طراحی SSA و PINOTانجام گرفته شرح داده می­ شود. نتایج تولیدی این ابزار­ها مربوط به عمل شناساییشان روی سه پروژه ی متن باز jhotdraw ،­ jrefactory و javaio می باشد. به علاوه نتایج عددی حاصل از این آزمایش­ها و معیار­های استخراج شده در این فصل ارائه می­گردد.
فصل ششم : نتیجه گیری و پیشنهادات
جمع بندی مطالب گفته شده در پایان نامه در این فصل انجام شده و همچنین پیشنهاداتی برای ادامه پژوهش در این زمینه ارائه شده است.

( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

فصل دوم

    1. تعاریف و مفاهیم اولیه

        1. مقدمه

       

دراین فصل مختصری بروی مفاهیم و تعاریف اولیه­ روش­های داده ­کاوی و معیارهای ارزیابی مدل­های پیش بینی­کننده در این تحقیق خواهیم داشت.

        1. تکنیک های طبقه بندی[۲۵]

       

در داده ­کاوی با دو مجموعه داده مواجه هستیم، داده­ آموزشی و داده آزمایشی. صفات داده­ آموزشی را مجموعه معیارهایی تشکیل می­ دهند که هویت موجودیت­های قرارگرفته درر­کورد­ها را پیشگویی می­ کنند. موجودیت­های داده­ی آموزشی، مشاهداتی هستند که از قبل هویت­شان شناسایی شده­ است. داده­ی آموزشی حاوی یک ستون پیش­گویی است. مقادیر این ستون، با برچسب­هایی پر می­شوند که هویت اصلی موجودیت­ها را نشان می­دهد (مثلا درست یا غلط). داده­ آزمایشی حاوی مشاهداتی است که هویت اصلیشان شناخته شده نیست. با تجزیه ­و­ تحلیلی که به واسطه­ الگوریتم­های داده ­کاوی روی داده­ی آموزشی صورت می­گیرد مدل­هایی ساخته می­ شود. مدل­سازی، دانش موجود در مشاهدات داده­ آموزشی را در قالب یک سری قوانین استخراج می­ کند. داده­ آزمایشی برای ارزیابی دقت پیش­گویی مدل ساخته شده روی داده­ آموزشی بکار برده میشود. در واقع پیشگویی یک فرایند دو مرحله­ ای دارد، فاز یادگیری و فاز دسته­بندی.
‌‌‌در فاز یادگیری بر اساس مجموعه داده­ی آموزشی، مدل طبقه­بند ساخته می­ شود و در فاز طبقه ­بندی بر اساس مدل ساخته شده در فاز قبل، مجموعه داده­ جدید که در فاز یادگیری استفاده نشده است (مجموعه داده آزمایشی) دسته­بندی می­ شود (پیش­گویی می­ شود که مشاهدات جدید چه برچسبی به خود بگیرند). جهت خودکار سازی عملگر تصحیح برچسب در این تحقیق، از روش­های داده ­کاوی (الگوریتم­های طبقه بندی) استفاده شده است [۱۷].
دقت مدل، درصد نمونه­هایی از مجموعه داده آزمایش است که به درستی طبقه بندی شده ­اند. مجموعه داده لازم جهت ساخت مدل طبقه بندی، از متغیر­های مستقل و وابسته تشکیل شده است. متغیر­های مستقل همان خصیصه­ها هستند که جهت طبقه بندی متغیر وابسته که در واقع بر چسب کلاس­ها می باشد، مورد استفاده قرار می­گیرند [۱۷]. توضیح مختصری در مورد انواع طبقه ­بندی­هایی که در این تحقیق مورد استفاده قرار گرفته اند در ادامه آمده است.
۲-۲-۱- طبقه بند C5.0
این طبقه بند در واقع براساس تقسیم مبتنی بر نمونه روی فیلدی که بیشترین سود اطلاعاتی را با خود دارد، کار می­ کند. سپس هر زیرنمونه تعریف شده با اولین تقسیم، دوباره تقسیم می­ شود (معمولا بر اساس یک فیلد متفاوت). این فرایند تکرار می­ شود تا اینکه هیچ زیرنمونه قابل تقسیم نداشته باشیم. سرانجام پایین ترین سطح تقسیم ها دوباره بررسی می شوند. آنهایی که تاثیر قابل توجهی بر مقدار مدل ندارند حذف یا هرس می­شوند [۱۶].
۲-۲-۲- طبقه بند SVM
یک طبقه بند و الگوریتم رگرسیون است که از تئوری یادگیری ماشین با حداکثر دقت پیش بینی بدون” اُور فیتینگ[۲۶] ” داده ها استفاده می­ کند. این روش از یک تبدیل غیر خطی بر داده های یادگیری استفاده می­ کند، و با جستجوی برای تساوی های رگرسیون در داده ­های تبدیل شده کلاس­ها (اهداف) را جدا می­ کنند.SVM خصوصا برای آنالیز داده ­ها با تعداد زیادی از فیلد­های پیش گویی کننده مناسب می­باشد [۱۶].
۲-۲-۳- طبقه بند BOOSTED C5.0
یک الگوریتم داده ­کاوی است که برای کاهش خطای الگوریتم­های یادگیری ضعیف (به آرامی به سمت طبقه بندی صحیح میل می­ کنند) مورد استفاده قرار می­گیرد و آنها را به یک الگوریتم یادگیری قوی تبدیل می­ کند. در این کار برای قدرت بیشتر بخشیدن به الگوریتم تصمیم گیری C5.0 استفاده شده است [۲۷].

        1. معیارهای ارزیابی کارایی

       

ارزیابی دقت مدل­های پیش ­بینی­کننده این تحقیق برای عملگر تصحیح برچسب، برحسب نسبت تعداد تصمیم گیری­های درست از سیستم­های یادگیری در مقایسه با طبقه بندی دستی به تعداد کل کاندیدا است. ماتریس درهم[۲۷] جهت ارزیابی طبقه بندی­های دودویی می­باشد که در این تحقیق برای ارزیابی بخش پالایش نمونه­ها وتصحیح برچسب استفاده می­ شود [۱۷]. همانطور که در جدول ۲-۱ مشاهده می شود ماتریس درهم کلاس های واقعی را در مقابل کلاس های پیش بینی شده در داده آزمایش نشان می­دهد.
جدول۲-۱٫ جدول درهم شامل کلاس های واقعی در مقابل کلاس های پیش بینی شده
ماتریس درهم شامل چهار قسمت می باشد :
مثبت صحیح (TP[28]) : تعداد نمونه­های استراتژی که به درستی استراتژی پیش بینی شده ­اند.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...