سؤالی که اغلب در طول طراحی خزانه‌ی سؤال پرسیده می‌شود این است که، “چه تعداد سؤال باید در خزانه وجود داشته باشد؟”. به طور ایده آل هر چه سؤالات بیشتر باشد، بهتر است، زیرا به ما این اجازه را می‌دهد که انتخاب بیشتری در سرهم کردن[۸۷] آزمون‌ها داشته باشیم و بندرت سؤالات یکسانی در آزمون‌ها تکرار شود و امنیت آزمون حفظ شود. در مواقعی که آزمون‌دهندگان به خزانه‌ی سؤال دست پیدا می‌کنند، اگر خزانه‌ بزرگ باشد، برای آزمودنی‌ها دشوار است که پاسخ سؤالات را حفظ کنند. همچنین، خزانه‌های بزرگتر دارای سؤالاتی می‌باشند که از لحاظ محتوا، فورمت سؤال و ملاحظات آماری با آزمون مورد نظر تطابق بیشتری دارند (میلمن و آرتر، ۱۹۸۴). البته خزانه‌های بزرگ خطرهایی دارند که عبارتند از اینکه، سؤالاتی که به خزانه اضافه می‌شوند باید خوب نوشته ‌شوند، از لحاظ محتوایی معتبر باشند، و از لحاط آماری نیز مناسب باشند (لیناکر[۸۸]، ۱۹۸۷). همچنین تعداد سؤالات نباید خیلی زیاد باشد بلکه باید به اندازه‌ای باشد که قابل کنترل باشد و به‌راحتی بازیافتنی باشد (گو و ریکیسی، ۲۰۰۷).

سنجش انطباقی کامپیوتری[۸۹]

سنجش انطباقی چیست؟

سنجش انطباق کامپیوتری (CAT)، جایگزین قدرتمندتری برای مجموعه‌ای از کاربردهای سنجش انطباقی موفقیت‌آمیزی است که با کار بینه[۹۰] در سال ۱۹۰۵ شروع شد. سنجش انطباقی در تعریف ساده، شامل سؤالاتی است که از یک مجموعه سؤال، که اصولاً ‌به این مجموعه بانک یا خزانه‌ی سؤال می‌گویند، انتخاب می‌شوند، به‌طوری‌که با سطح توانایی برآورد‌شده‌ (یا سطح استعداد برآورد‌شده‌) آزمودنی مورد نظر مطابقت داشته ‌باشند. اگر آزمودنی در پاسخ به سؤالی موفق شود و به آن پاسخ صحیح دهد، سؤالی که در مرحله بعدی به او ارائه می‌شود، اندکی دشوارتر[۹۱] خواهد ‌بود و بالعکس. به طور کلی، در سنجش انطباقی کامپیوتری (CAT)، سؤالات به طور مجزایی برای هر یک از آزمودنی‌ها انتخاب می‌شوند، به‌طوری‌که، هر سؤال بر اساس پاسخ به سؤال قبلی انتخاب می‌شود. هدف این نوع از سنجش این است که، برآورد صحیح و دقیقی از مهارت آزمودنی روی مقیاس زیربنایی مهارت به دست آید. تعداد سؤالات، نوع سؤالات و ترتیب ارائه‌ آن‌ ها از آزمودنی به آزمودنی دیگر متفاوت است (پارشال، اسپری، کالن و دیوی[۹۲]، ۲۰۰۲). معمولاً در این تکنیک به‌سرعت مجموعه‌ای از سؤالات تنظیم می‌شود، به‌طوری‌که با سطح توانایی آزمودنی همگرا باشد. زمانی‌که برآورد توانایی آزمودنی به دقت مورد نظر برسد، آزمون متوقف می‌شود. در این شیوه، در صورتی‌که آزمودنی بخواهد، می‌تواند فوراً از نتایج آزمون مطلع شود. همچنین، سنجش مقدماتی سؤالات جدید بانک سؤال و اعتباریابی کیفیت سؤالات جدید، می‌تواند به طور‌ همزمان با اجرای آزمون انجام ‌گیرد، البته مسئله اضافه کردن سؤالات جدید به خزانه و مدرج کردن دوباره آن ها امری مهم است که در پژوهش لیناکر(۱۹۸۷) بررسی شده است. مزایای CAT به طور‌خلاصه شامل موارد زیر است؛ سنجش سریعتر، طرح‌های سنجشی انعطاف‌پذیر، افزایش امنیت آزمون، کنترل بهتر مواجهه سؤال، تعادل بهتر سطوح محتوایی آزمون برای همه‌ سطوح توانایی، بروز رسانی[۹۳] سریعتر سؤالات آزمون، گزارش سریعتر، تجربه‌ بهتر یک آزمون برای آزمودنی‌ها. همچنین مشکلات CAT، عبارتند از؛ تجهیزات و امکانات پرهزینه، محدودیت‌های نرم‌افزار‌های رایج اجرای CAT، ناآشنایی بسیاری از آزمودنی‌ها با محیط کامپیوتر، عدم برابری مشهود (تبعیض) که آزمودنی‌های متفاوتی، آزمون‌های متفاوتی را دریافت می‌کنند و دشواری اجرای انواع معینی از آزمون‌ها به شکل CAT (لیناکر، ۲۰۰۰؛ ۱۹۹۹).

تاریخچه سنجش انطباقی کامپیوتری

به طور کلی، همیشه آزمون‌ها به منظور برآورده کردن نیازمندی‌های آزمون‌دهندگان و سنجش سطوح عملکرد مورد انتظار داوطلبان آزمون به عنوان یک گروه، ساخته ‌می‌شوند. در‌ واقع، اگر به یک آزمودنی، آزمونی که از سؤالات بسیار آسان تشکیل شده‌است ارائه شود، پاسخ به چنین آزمونی تنها زمان را به هدر می‌دهد و معمولاً رفتارهای ناخواسته‌ی آزمودنی از قبیل اشتباهاتی که از روی بی‌دقتی صورت می‌گیرد را ایجاد می‌کند. معمولاً آزمودنی به صورت عمدی پاسخ نادرست در برابر «سؤالات فریبنده[۹۴]» می‌دهد. همچنین، نتایج آزمونی که از سؤالات بسیار دشوار تشکیل شده ‌باشد نیز حاوی اطلاعاتی نمی‌باشد، زیرا داوطلب از تلاش جدی خود برای پاسخ به سؤالات دست بر می‌دارد، و با بهره گرفتن از حدس به سؤالات پاسخ می‌دهد، و یا انواع دیگری از رفتارهای ناخواسته از او سر می‌زند (لیناکر، ۲۰۰۰).

آلفرد بینه (۱۹۰۵)، با آزمون هوش خود به پیشرفته‌های عمده‌ای در این حوزه رسید. از آنجایی که علاقه‌ او تشخیص هوش هر یک از آزمودنی‌ها به صورت مجزا بود، بحثی ‌در مورد منصفانه بودن آزمون مطرح نمی‌شد، بحثی که این ضرورت را ایجاد کند که هر فردی آزمون یکسانی دریافت کند. او متوجه شد که می‌تواند آزمون را با هر فرد از طریق طرح ساده مرتب ‌سازی سؤالات برحسب سطح دشواری‌شان، متناسب کند. او سپس با زیرمجموعه‌ای از سؤالات که فرض می‌کرد با سطح توانایی آزمودنی مطابق است، شروع می‌کرد. اگر آزمودنی در آن زیر مجموعه موفق می‌شد، بینه با زیرمجموعه‌هایی از سؤالات دشوارتری به ‌پیش می‌رفت، تاجایی‌که آزمودنی مکرراً شکست بخورد. اگر آزمودنی در زیرمجموعه اول سؤال شکست می‌خورد، او زیرمجموعه‌هایی از سؤالات آسان‌تر را اجرا می‌کرد، تاجایی که آزمودنی مکرراً موفق شود. از این اطلاعات، بینه سطح توانایی آزمودنی را برآورد می‌کرد (لیناکر، ۲۰۰۰؛ ۱۹۹۸؛ وندر لیندن و گلاس،). شیوه سنجش انعطاف‌پذیر[۹۵] لرد[۹۶] (۱۹۸۰)، و انواع دیگر آن از قبیل شیوه مرحله‌ای[۹۷] هنینگ[۹۸] (۱۹۸۷)، و مجموعه تست[۹۹] لوئیسو شین[۱۰۰] (۱۹۹۰)، روش‌های بهبود یافته‌ای از شیوه بینه هستند. این شیوه ها به‌راحتی می‌توانند به وسیله اجرای شخصی یا به وسیله کامپیوتر، اجرا شوند. سؤالات در این روش‌ها بر اساس سطح دشواری‌شان طبقه‌بندی می‌شوند، و زیر مجموعه های متعددی از سؤالات در هر سطح ایجاد می‌شود. آزمون با اجرای زیرمجموعه‌هایی از سؤالات پیش می‌رود، و برطبق نسبت موفقیت در هر خرده آزمون به طرف بالا یا پایین حرکت می‌کند. بعد از اجرای زیرمجموعه‌های متعدد، برآورد توانایی پایانی آزمودنی به دست می‌آید. هرچند این رویکرد خام است، ولی این روش‌ها می‌توانند به طور‌مفیدی نتایج یکسانی مانند تکنیک‌های پیچیده‌تر CAT، ایجاد کنند (یاو[۱۰۱]، ۱۹۹۱).

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...