برای مثال، اگر  باشد، تعداد تکرارها (یعنی، تعداد CAT هایی که اجرا شده) در هر نقطه‌ی  ثابت می‌باشد، و  ، میانگین برآوردهای  در کل  تکرار در  می‌باشد.

( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

اریب و میانگین مجذور خطا [۱۹۰](MSE)
این مقادیر توسط دو معادله‌ی (۲-۳۱) و (۲-۳۲) محاسبه می‌شود.
(۲-۳۱)
و
(۲-۳۲)
N تعداد محرک‌ها می‌باشد و  برآورد‌کننده‌ی j ام محرک با سطح توانایی  می‌باشد.
اریب شرطی[۱۹۱] و میانگین مجذور خطای شرطی[۱۹۲] (CMSE)
این مقادیر توسط دو معادله‌ی (۲-۳۳) و (۲-۳۴)محاسبه می‌شوند:
(۲-۳۳)
و
(۲-۳۴)
که  به‌ترتیب برای  و  برابر با برآورد کننده‌ی  می‌باشد. این مقادیر به صورت میانگین‌های شرطی خطاها و مجذور خطاهای برآوردهای نهایی  در شبیه‌سازی‌ها محاسبه می‌شود.
محاسبه‌ی ضریب همبستگی بین توانایی‌های برآورد شده و واقعی
این شاخص به منظور سنجش دقت برآورد تتا از طریق معادله‌ی (۲-۳۵) محاسبه می‌شود.
(۲-۳۵)
کجی توزیع نرخ مواجهه‌ سؤال[۱۹۳]
آماره‌ی  که توسط چانگ و یینگ (۱۹۹۹)، ارائه شده است، برای اندازه‌گیری میزان کجی توزیع مواجهه‌ سؤال، به کار می‌رود. که آن توسط معادله‌ی (۲-۳۶) محاسبه می‌شود:
(۲-۳۶)
که
؛ نسبت نرخ مشاهده شده‌ی  امین سؤال می‌باشد.
L ؛ طول آزمون می‌باشد، n ؛ تعداد سؤالات در خزانه می‌باشد.
معادله (۲-۳۶) اختلاف بین نرخ‌های مواجهه‌ سؤال مشاهده‌شده و ایده‌آل را محاسبه می‌کند و این معادله مقدار اثربخشی استفاده از خزانه‌ی سؤال را نیز تعیین می‌کند. مقدار  پایین نشان می‌دهد که بیشتر سؤالات استفاده شدند. نسبت اندازه‌های  از توزیع F پیروی می‌کند. همچنین می‌توان برای مقایسه‌ی نرخ‌های مواجهه‌ سؤال در دو روش، معادله‌ی (۲-۳۷) را به کار برد:
(۲-۳۷)
اگر  باشد، پس روش اول نسبت به روش دوم، از نظر تعادل کلی نرخ‌های مواجهه‌ سؤال بهتر در نظرگرفته ‌می‌شود.
درصد سؤالات بیش مواجهه شده[۱۹۴]
نرخ‌ مواجهه‌ یک سؤال را می‌توان به عنوان نسب تعداد مشاهده شده‌ی اجراهای سؤال به تعداد کل آزمودنی‌ها در نظر گرفت. درمجموع، سطح متوسط نرخ مواجهه‌ سؤال مناسب می‌باشد. نرخ بالای مواجهه‌ یک سؤال بدین معناست که خطر فاش شدن سؤال برای آزمودنی‌های بعدی افزایش می‌یابد. اگر این چنین باشد، هم امنیت و هم اعتبار آزمون به دلیل نرخ بالای مواجهه‌ سؤال مورد تهدید قرار می‌گیرد. بنابراین، درصد سؤالات بیش مواجهه شده، به‌عنوان ملاک مهمی برای ارزیابی موفقیت برنامه‌ی CAT در نظرگرفته‌می‌شود (هاو و چانگ[۱۹۵]، ۲۰۰۱).
درصد سؤالات کم مواجهه شده[۱۹۶]
نرخ کم مواجهه شدن یک سؤال بدین معناست که یک سؤال بندرت در برنامه‌ی CAT مورد استفاده قرار‌گیرد. خزانه‌ی سؤالی که دارای سؤالات بسیار زیادی می‌باشد که نرخ خیلی پایینی از مواجهه دارد، نشانه‌ای از فایده‌ی کم خزانه می‌باشد. دو موضوع به‌صرفه‌بودن طراحی سؤالات و مناسب بودن شیوه‌ی انتخاب سؤالات، به دلیل نرخ مواجهه کم سؤال به چالش کشیده می‌شوند. نرخ مواجهه پایین‌تر از ۰۲/۰ به عنوان سؤال کم مواجهه شده درنظرگرفته می‌شود(هاو و چانگ، ۲۰۰۱).
نرخ همپوشی آزمون[۱۹۷]
نرخ همپوشی آزمون، عبارت است از، تعداد مورد انتظار سؤالات مشترکی که به دو آزمودنی که به‌طور تصادفی نمونه‌گیری شدند، ارائه می‌شود، تقسیم بر طول مورد انتظار آزمون. به‌طورایده‌آل، تعداد سؤالات مشترک بین دو آزمودنی که به طور تصادفی نمونه‌گیری شدند، باید حداقل باشد. نرخ همپوشی آزمون می‌تواند به شیوه‌ی زیر محاسبه شود:
(۱) شمارش تعداد سؤالات مشترک برای هر  جفت از آزمودنی‌ها. (۲) محاسبه‌ی مجموع تمام  . (۳). تقسیم تعداد کل شمارش‌ها بر  ، (چانگ و یینگ، ۱۹۹۹). معادله‌ی (۲-۳۸) محاسبات بالا را خلاصه می‌کند ( چن، آنکنمان، اسپری[۱۹۸]، ۱۹۹۹):
(۲-۳۸)
N تعداد طول ثابت CAT هایی که اجرا می‌شود را نشان می‌دهد، L، تعداد سؤالات در هر یک از CAT ها می‌باشد، n، تعداد سؤالات در خزانه می‌باشد،  تعداد دفعاتی است که سؤال  برای همه‌ی N تعداد CAT اجرا می‌شود.
فصل سوم
روش‌شناسی پژوهش
روش­شناسی پژوهش و طرح تحقیق
در این قسمت مدل CAT، طرح شبیه‌سازی CAT، شیوه‌ی انجام تحقیق، جامعه و نمونه هم در مطالعه‌ی عملیاتی و هم شبیه‌سازی‌شده، مجموعه‌ای از ملاک‌های استفاده شده برای ارزیابی عملکرد خزانه‌ی سؤال بهینه‌ی موردنظر، نرم افزار‌های مورد استفاده به منظور شبیه‌سازی خزانه‌ی سؤال بهینه و نرم افزار‌های مورد استفاده برای مدرج کردن سؤالات شرح داده می‌شود.
مدل CAT عملیاتی
یک مدل CAT عملیاتی در یک مقیاس بزرگ به عنوان الگو یا محک ساخته شده است. این مدل از ویژگی‌های زیر برخوردار است:
آزمون ریاضی (حسابان-دیفرانسیل) شامل یک آزمون ۲۰ سؤالی است که در آن وزن محتوایی سؤالات ارائه شده در نظر گرفته نشده است (این آزمون تنها به منزله‌ی اهداف پژوهشی اجرا شد). و یک آزمون ۶۰ سؤالی که در آن محتوای آزمون مهم می‌باشد. ( این تعداد سؤالات از تحقیقات، ریکیسی، ۲۰۱۰؛ هی و ریکیسی، ۲۰۱۰؛ گو و ریکیسی، ۲۰۰۷ گرفته شده است). آزمون ۶۰سؤالی شامل، ۲۵ سؤال حسابان (arithmetic)، ۱۵ سؤال جبر خطی (algebra) و ۲۰ سؤال هندسه (geometry) می‌باشد.
خزانه‌ی سؤال مربوط به سؤالات حسابان شامل ۴۵۵ سؤال می‌باشد. همچنین، خزانه‌ی سؤال مربوط به سؤالات جبر شامل ۲۰۸ سؤال است. و درپایان خزانه‌ی سؤال مربوط به سؤالات هندسه نیز شامل ۲۵۸ سؤال است. سؤالات در هر سه قسمت از نوع چند گزینه‌ای (چهار گزینه‌ای) می‌باشند و همچنین، همه‌ی سؤالات به صورت مستقل از یکدیگر طراحی شده اند و هیچ یک از سؤالات کاربرد مرحله‌ای یا زنجیره‌ای ندارند.
مدل IRT به کار رفته برای ساخت سؤالات، مدل سه پارامتری لوجستیک می‌باشد (لرد، ۱۹۸۰)، هر یک از سؤالات به صورت مستقل و با بهره گرفتن از نرم افزار BILOG-MG مدرج شده اند. (از آنجا که در عمل ساخت سؤالاتی برای چنین آزمونی بر اساس مدل یک یا دو پارامتری، با دشواری همراه بود، خزانه‌ی سؤالات در CAT عملیاتی، بر اساس مدل سه پارامتری ساخته و مدرج شد).
اطلاعات مربوط به سؤالات اعم از برآورد پارامترهای سؤال، ویژگی‌های روان‌سنجی کلاسیک سؤالات، طبقه‌بندی‌های محتوایی (محتوا، کتاب، فصل، درس، صفحه)، طبقه‌ی شناختی سؤالات و طراحان سؤال در یک سیستم بانک سؤال ذخیره شدند.
هر یک از سؤالات طوری طراحی شدند که هرکدام مفهوم کاملاً مستقلی نسبت به سؤالات دیگر بسنجند، از این‌رو، به هر یک از سؤالات وزن محتوایی جداگانه‌ای بر اساس نظر متخصصین محتوایی و موضوعی داده می‌شود. بنابراین، سؤالات بر اساس روش WDM برای اجرا انتخاب شدند.
توانایی اولیه برای هر فرد روی صفر تنظیم شد، و کامپیوتر به نحوی برنامه‌ریزی شد که برای همه‌ی افراد سؤال یکسانی که پارامتر  باشد، اجرا کند.
برای به‌دست آوردن برآورد اخیر توانایی هر آزمودنی قبل از این‌که دو پاسخ صحیح و غلط در الگوی پاسخ او مشاهده شود، از روش میانگین پسین (MAP) (اوون، ۱۹۷۵)، استفاده شد. پیشین مورد انتظار از توزیع نرمال  پیروی می‌کند. پس از این‌که دو پاسخ صحیح و غلط در الگوی پاسخ مشاهده شد، برای برآورد توانایی از شیوه‌ی بیشینه‌ی درست نمایی (MLE) استفاده شد.
الگوریتم انتخاب سؤال به شیوه‌ی بیشینه‌ی آگاهی (MI) می‌باشد.
الگوریتم آزمون CAT طوری طراحی شد که طول تست برای آزمون تک محتوایی (حسابان-دیفرانسیل) ثابت و برابر با ۲۰ سؤال برای هریک از آزمودنی‌ها باشد و برای آزمون ریاضی سه محتوایی (حسابان- دیفرانسیل، جبر و هندسه) بر اساس نظم و وزن محتوایی مشخص ۶۰ سؤال برای هر یک از آزمودنی‌ها اجرا شد و پس از رسیدن به این تعداد آزمون متوقف شد.
در اجرای سؤالات در CAT عملیاتی، روش کنترل مواجهه‌ سیمپسون-هتر با نرخ ۳۳/۰ به‌کار رفت.
مقدار آگاهی هدف سؤالات بر اساس آگاهی سؤالات عملیاتی قرار گرفت، که بر اساس تحقیقات چنگ و چانگ (۲۰۰۹) گرفته شد.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...