بررسی ضریب پایایی دومین آزمون صلاحیت‌های بالینی دانشجویان پزشکی مشهد با استفاده از تئوری تعمیم‌پذیری

نوع مقاله: مقاله پژوهشی

نویسندگان

1 دانشکده پزشکی، کمیته پزشکی مبتنی بر شواهد ، بیمارستان امام رضا(ع)، دانشگاه علوم پزشکی مشهد، مشهد، ایران

2 دانشجوی دکترای آموزش پزشکی، گروه آموزش پزشکی، دانشگاه علوم پزشکی اصفهان، اصفهان، ایران

3 کارشناس ارشد آموزش پزشکی، دانشگاه علوم پزشکی مشهد، مشهد، ایران

4 استادیار، گروه آموزش پزشکی، دانشکده پزشکی، دانشگاه علوم پزشکی مشهد، مشهد، ایران

چکیده

مقدمه
آزمون آسکی یکی از مؤثرترین روش‌ها برای ارزشیابی مهارت‌ها می‌باشد که بدلیل دشواری در اجرای آزمون آسکی سنجش کیفیت آن، امری حیاتی است. یک گام‌ مهم در سنجش کیفیت هر آزمون، تعیین ضریب پایایی آن آزمون می‌باشد، لذا این پژوهش با هدف تعیین ضریب پایایی دومین آزمون صلاحیت‌های بالینی مشهد با استفاده از تئوری تعمیم‌پذیری انجام گردیده است.
روش کار
دومین آزمون صلاحیت‌های بالینی مشتمل بر 15ایستگاه موازی بود. 75 دانشجو و 30 ممتحن در این آزمون حضور داشتند. چک‌لیست‌های آزمون به تفکیک ایستگاه و ممتحن جمع‌آوری و در بسته نرم‌افزاری اکسل ثبت گردید. مؤلفه‌های واریانس، مجموع مربعات و میانگین مربعات با استفاده از نرم‌افزارSPSS نسخه 16 و آزمون ANOVA محاسبه گردید. سپس واریانس ایستگاه‌ها، دانشجویان و ممتحنین و همچنین ضرایب تعمیم‌پذیری و پایایی آزمون با استفاده از نرم‌افزارEDUG به‌دست آمد.همچنین برای بررسی رابطه بین جنسیت و نمرات از آزمون‌های آماری Mann-Whitney Uو chi squareاستفاده گردید.
نتایج
ضریب پایایی آزمون 98/0 محاسبه گردید و مؤلفه تعامل دانشجویان با ممتحنین و ایستگاه‌ها بیشترین سهم را در ایجاد خطای اندازه‌گیری دارا بود. بین جنسیت دانشجویان و نمرات آن‌ها ارتباط معنا‌داری مشاهده نشد، همچنین بین جنسیت ممتحنین و نمرات دانشجویان نیز ارتباط معناداری به‌دست نیامد.
نتیجه­ گیری
دومین آزمون صلاحیت‌های بالینی مشهد، پایایی بسیارخوبی داشت و با توجه به نتایج حاصله می‌توان گفت، استفاده از تئوری تعمیم‌پذیری برای برآورد ضریب پایایی و مشخص نمودن خطاهای اندازه‌گیری روش مناسبی است اما پژوهش‌های بیشتری باید انجام شود تا بتوان با قطعیت بیشتری ادعا نمود که استفاده از تئوری تعمیم‌پذیری، مزایای بیشتری نسبت به تئوری کلاسیک دارد.

کلیدواژه‌ها


عنوان مقاله [English]

reliability of second clinical skills OSCE in Mashhad by use of Generalizability theory

نویسندگان [English]

  • Hasan Gholami 1
  • Samaneh Sargazi 2
  • Maliheh Nobakht 3
  • Ali Emadzadeh 4
1 instructor, medical education department, medical faculty, Mashhad university of medical sciences, Mashhad, Iran
2 Ph.D. student of medical education, Medical education department, Isfahan University of medical sciences, Isfahan, Iran
3 Master of medical education, Mashhad university of medical sciences, Mashhad, Iran
4 assistant professor, medical education department, medical faculty, Mashhad university of medical sciences, Mashhad, Iran
چکیده [English]

Introduction: OSCE is a combination of simulation tasks to assess medical students' skills in diagnosis and treatment of diseases. it is vital to measure the quality of an OSCE. One of the important steps in assessing the quality of a test is to determine it's reliability. This study aimed to determine the reliability coefficient of the second clinical skills test in Mashhad by using generalizability theory.
Subjects & Methods: The OSCE was conducted in two days and consists of 15 parallel stations. 75 students and 30 examiners participated in this test. Check lists collected and recorded in Excel. Variances and mean squares (MS) calculated by using SPSS. Variance for stations, students and examiners and generalizability and reliability coefficients calculated by using EDUG. Mann-Whitney U and Chi square tests were used for assessing relation between students’ gender and score, raters’ gender and score and relation between students gender and raters gender.
Results: There was no significant relationship between gender of students and their scores, gender of examiners and students’ scores, and between gender of students and gender of examiners. Reliability coefficient was calculated 0/98 and interaction between students, examiners and station component had the largest effect on creating measurement error.
Conclusion: this exam had a good reliability coefficient and according to results we can say, using Generalizability Theory for estimating the reliability coefficient, measurement error, and to identify impact of any facets on measurement error is a logical way. However, more research needs to be done.

مقدمه

صاحب‌نظران امر آموزش بر این امر که یادگیری از سنجش نشأت می‌گیرد، توافق دارند(1). در هر برنامه آموزشی، سنجش دانشجویان یکی از مهم‌ترین بخش‌های آموزش را تشکیل می‌دهد و می‌تواند آموزش را از یک حالت ایستا به مسیری پویا هدایت نماید (2-3). در طی سال‌های 1960-1950 میلادی، مهارت‌های بالینی عمدتاً از طریق آزمون انشائی و شفاهی سنجیده می‌شد(4) اما وجود نارضایتی‌هایی از روش‌های سنجش بالینی از سوی دانشجویان و اساتید منجر به تلاش برای یافتن ابزار جدیدی برای سنجش مهارت‌های بالینی گردید (5). در سال 1975 در اسکاتلند، پروفسور هاردن و همکاران وی برای اولین بار از آزمون آسکی به‌عنوان روشی برای سنجش مهارت‌های بالینی به‌جای روش‌های قدیمی استفاده کردند که موردتوجه و استقبال اساتید و دانشجویان قرار گرفت(6-7،4) در یک آزمون آسکی با تعداد زیاد آزمون دهندگان و ایستگاه‌ها، دانشجویان گروه‌بندی ‌شده و هرکدام از ممتحنین در هر ایستگاه، تعداد مشخصی از دانشجویان را مورد سنجش قرار دهند. در چنین آزمونی، عوامل متعددی وجود دارند که می‌توانند سبب ایجاد خطا شوند ازجمله؛ توانائی‌های دانشجویان مختلف، سخت‌گیری یا سهل‌گیری ممتحنین، تفاوت در بیمارنماها و تفاوت در دشواری ایستگاه‌ها(8). به دلیل دشواری در اجرای آزمون آسکی، محدودیت منابع و درگیری افراد زیادی در این آزمون، سنجش کیفیت یک آزمون آسکی امری حیاتی است(9-10). یکی از گام‌های مهم در سنجش کیفیت هر آزمون، تعیین ضریب پایایی آن آزمون می‌باشد (11) و به دلیل پیچیدگی‌هایی که در امر سنجش عملکرد وجود دارد، پژوهشگرانی که سعی در تعیین پایایی نمرات آزمون‌های عملکردی دارند، با چالش‌های اساسی مواجه گردیده‌اند (12). خصوصیات مختلف یک آزمون ازجمله روائی و پایایی آن با استفاده از تئوری‌های روان‌سنجی[1]، موردمطالعه قرار می‌گیرد. دو تئوری عمده در روان‌سنجی عبارت‌اند از تئوری نمونه‌گیری تصادفی[2] و تئوری سؤال- پاسخ[3]. تئوری نمونه‌گیری تصادفی، خود شامل دو تئوری نسبتاً متفاوت است: تئوری کلاسیک یا پایایی کلاسیک[4] و تئوری تعمیم‌پذیری[5](13). به دلیل نواقص تئوری کلاسیک در تخمین ضریب پایایی، انجمن پژوهش‌های آموزشی آمریکا (AERA)[6]، انجمن روانشناسان آمریکا (APA)[7] و انجمن ملی اندازه‌گیری در آموزش[8]بر این امر تأکید دارند که برای بررسی روائی و پایایی یک روش سنجش، بهتر است از تئوری تعمیم‌پذیری استفاده شود(14, 15).تئوری تعمیم‌پذیری را می‌توان نمونه کامل شده تئوری کلاسیک در نظر گرفت(16)  که برای تعیین قابلیت اطمینان (پایایی) یک آزمون رفتاری بکار می‌رود و در این تئوری، تمامی منابع خطای موجود در اندازه‌گیری مشخص شده و سهم هرکدام در ایجاد خطا تخمین زده می‌شود(17, 18). هنگامی‌که از تئوری تعمیم‌پذیری برای یک آزمون چهارگزینه‌ای استفاده شود تنها یک منبع خطا وجود دارد که همان سؤالاتِ آزمون هستند اما در رابطه با آزمون‌های عملکردی چندین عامل وجود دارند که ممکن است منجر به ایجاد خطا شوند ازجمله فرد امتحان‌دهنده، ممتحن و زمانِ آزمون(19, 20) که هرکدام از این منابع خطا یک رویه[9] نامیده می‌شوند. این تئوری برای محققین بسیار مفید است زیرا به آن‌ها امکان می‌دهد تا منابع مختلف خطا در یک آزمون را تعیین کنند. هرچه منابع بیشتری از خطا پیدا شود، بهتر می‌توان آن‌ها را کنترل کرده و به حداقل رساند (21). رابرت هِیتمن و همکاران وی در مطالعه خود به این نتیجه رسیدند که تئوری تعمیم‌پذیری 3 ویژگی مهم نسبت به سایر روش‌های تعیین پایایی دارد: 1- بیشتر از دو نمره را برای هر فرد می‌توان در نظر گرفت. 2-عوامل مختلفی که منجر به ایجاد خطای اندازه‌گیری ‌می‌شوند شناسایی و سهم هرکدامقابل‌اندازه‌گیری است. 3-با استفاده از این تئوری می‌توان تأثیرافزایش یا کاهش تعداد ممتحنین، ایستگاه‌ها و آزمون دهندگان را در مقدار پایایی به دست آورد (22).

یکی از آزمون‌های آسکی که دانشجویان پزشکی دانشگاه علوم پزشکی مشهد در طول دوره تحصیلی خود و قبل از ورود به دوره انترنی آن را تجربه می‌کنند آزمون صلاحیت‌های بالینی است. از آنجا که مدت‌زمان زیادی از راه‌اندازی این آزمون در دانشگاه علوم پزشکی مشهد نمی‌گذرد و با توجه به‌صرف هزینه، زمان و منابع انسانی قابل‌توجه برای اجرای آزمون صلاحیت‌های بالینی، این نیاز احساس شد که ضریب پایایی آزمون به ‌عنوان یکی از معیارهای سنجش کیفیت آزمون بررسی شود تا از این طریق بتوان عواملی که بر پایایی آزمون تأثیر می‌گذارند را شناسایی و کنترل نمود و به‌این‌ترتیب، کیفیت آزمون‌های بعدی را افزایش داد، لذا این پژوهش با هدف «بررسی ضریب پایایی دومین آزمون صلاحیت‌های بالینی دانشجویان پزشکی مشهد به روش تعمیم‌پذیری» انجام گردید.

روش کار

این پژوهش یک پژوهش توصیفی- تحلیلی از نوع مقطعی است که در سال 1393 در دانشگاه علوم پزشکی مشهد به‌منظور بررسی عوامل ایجادکننده خطاهای اندازه‌گیری و میزان دخالت هر یک از این عوامل در نمره نهایی آزمون آسکی و همچنین تعیین پایایی دومین آزمون صلاحیت‌های بالینی انجام‌گرفت. تمامی دانشجویان پزشکی دانشگاه علوم پزشکی مشهد که شرایط شرکت در دومین آزمون صلاحیت‌های بالینی بوده‌اند، جامعه این پژوهش را تشکیل دادند که تعداد کل آن‌ها 75 نفر بود و با توجه به این تعداد، تمامی افراد جامعه پژوهش،نمونه پژوهش را تشکیل دادند، بنابراین برای نمونه گیری، از روش سرشماری استفاده گردید. با توجه به اینکه آزمون صلاحیت‌های بالینی در مرکز مهارت‌های بالینی واقع در بیمارستان قائم (عج) برگزار گردید، این مرکز، محیط پژوهش حاضر می‌باشد. همچنین به دلیلی اینکه بخشِ ارزیابی چک‌لیست‌های مربوط به آزمون از لحاظ وجودِ آیتم‌های موردنظر و همچنین واردکردن اطلاعات موجود در چک‌لیست‌های آزمون صلاحیت‌های بالینی در واحد آزمون دانشکده پزشکی، مستقر در اداره آموزش به مدت 5 روز انجام گردید، این واحد نیز قسمتی از محیط پژوهش حاضر را شامل می‌شود. اطلاعات تمامی چک لیست ها بصورت محرمانه در نرم افزار اکسل ثبت گردیدند.

 برای به دست آوردن ضریب پایایی آزمون در پژوهش حاضر از تئوری تعمیم‌پذیری بهره گرفته شده است که برای استفاده از این تئوری باید 5 گام زیر طی شود:

1-     تعیین هدف اندازه‌گیری

2-     تعیین وجه یا وجه‌های اندازه‌گیری

3-     شناسایی طرح مناسب اندازه‌گیری

4-     شناسایی و برآوردمؤلفه‌های واریانس و تفسیر آن‌ها

5-     برآورد پایایی

در ادامه به تشریح هر یک از مراحل فوق می‌پردازیم:

مرحله اول:تعیین هدف اندازه‌گیری، اولین گام در برآورد پایایی به روش تعمیم‌پذیری است(23). قابل‌ذکر است هدف اندازه‌گیری باید برآورد پایایی و یا تصمیم‌گیری در مورد پایایی باشد. در این پژوهش،هدف اندازه‌گیری برآورد پایایی دومین آزمون صلاحیت‌های بالینی مشهد با در نظر گرفتن خطاهای وارد بر اندازه‌گیری می‌باشد.

مرحله دوم: پس از تعیین هدف اندازه‌گیری، پژوهشگر باید رویه یا وجه‌های موجود در اندازه‌گیری را تعیین نماید. در تئوری تعمیم‌پذیری به هر یک از منابع خطا، وجه یا رویه و به سطوح تشکیل‌دهنده هر وجه، شرایط یا موقعیت اندازه‌گیری می‌گویند (24). در پژوهش حاضر، 3 رویه شناسایی شد: دانشجویان (S)، ایستگاه‌ها (T) و ممتحنین (R). شایان‌ذکر است رویه دیگری هم با عنوان بیمارنما شناسایی شد که به دلیل اینکه در تمامی ایستگاه‌ها از بیمارنما استفاده نمی‌شد، امکان وارد کردنِ آن در پژوهش وجود نداشت. پس از تعیین رویه‌های اندازه‌گیری، نقش هر یک باید تعیین شود. در تئوری تعمیم‌پذیری، رویه‌ها 2 نوع دارند که در این گام باید مشخص شود: 1- رویه متمایز[10] که درواقع به‌عنوان رویهء هدف اندازه‌گیری در نظر گرفته می‌شود 2-رویه ابزار[11] که شرایط را برای رسیدن به هدف اندازه‌گیری  فراهم می‌نماید (15). اصولاً در بیشتر مطالعات تعمیم‌پذیری، افراد یا آزمودنی‌ها به‌عنوان رویه هدف اندازه‌گیری محسوب می‌شوند (25). در این پژوهش، رویه دانشجویان(به علت  استفاده از نمرات آزمون آن‌ها)به‌عنوان رویه متمایز و رویه‌های ایستگاه‌ها و ممتحنین به‌عنوان رویه ابزار در نظر گرفته‌شده است.

مرحله سوم: پس از تعیین وجوه اندازه‌گیری، باید طرح مناسب اندازه‌گیری شناسایی شود. شناسایی طرح مناسب نقش تعیین‌کننده‌ای در برآورد پایایی ایفا می‌کند. برای تعیین طرح اندازه‌گیری باید مشخص شود هر یک از رویه‌ها به‌صورت متقاطع هستند یا آشیانه‌ای یا ترکیبی از این دو(15). در پژوهش حاضر، ارتباط رویهء هدف اندازه‌گیری (دانشجویان) با رویه‌های دیگر به‌صورت متقاطع بود اما رویه ممتحنین و ایستگاه‌ها به‌صورت آشیانه‌ای ارتباط داشتند، به این معنی که ممتحنین درون ایستگاه‌ها آشیانه کرده بودند و هر ممتحن، تعدادی از دانشجویان را موردبررسی قرار می‌داد نه تمام آن‌ها را.

مرحله چهارم:در این مرحله پژوهشگر به شناسایی و تفسیر مؤلفه‌های واریانسِ موجود در طرح اندازه‌گیری می‌پردازد. این پژوهش 5 مؤلفه واریانس را به‌صورت همزمان موردبررسی قرار می‌دهد که این مؤلفه‌ها در جدول شماره (3-1) توصیف گردیده‌اند.



[1]Psychometrics

[2] Random Sample Theory

[3] Item- Response Theory

[4]Classical Test Theory

[5] Generalizability Theory

[6]American Educational Research Association

[7]American Psychological Association

[8]National Council on Measurement in Education

[9]Facet

[10]Differentiation Facet

[11]Instrumentation Facet

مرحله پنجم: در این مرحله پژوهشگر با استفاده از نرم‌افزارهایی از قبیل SPSS، SAS، GENOVA، یا EDUG پایایی طرح اندازه‌گیری را برآورد می‌نماید که در این پژوهش از نرم افزار SPSS برای برآورد مولفه های واریانس و از نرم افزار EDUG برای تعیین ضریب پایایی استفاده ‌شده است.

نتایج

با توجه به اینکه در این پژوهش هم تحلیل های تعمیم‌پذیری انجام گرفته هم ارتباط سنجی بین جنسیت و نمرات، در ارائه نتایج ابتدا نتایج حاصل از تجزیه و تحلیل‌های تعمیم‌پذیری ارائه می‌شود و سپس نتایج حاصل از تحلیل‌های مربوط به جنسیت و نمره.

برای دستیابی به هدف کلی این پژوهش که تعیین ضریب پایایی دومین آزمون صلاحیت‌های بالینی مشهد با استفاده از تئوری تعمیم‌پذیری است پژوهشگر به جدول تعمیم‌پذیری مراجعه نمود که بر اساس آن ضریب پایایی آزمون 98/0 به دست آمد. این ضریب پایایی به طرز غیرقابل انتظاری بالاتر از میزانی بود که پژوهشگران توقع داشتند و برای یک آزمون آسکی، ضریب بسیار خوبی است.

برای تعیین مولفه ای که بیشترین تاثیر را در ایجاد خطای اندازه‌گیری دارد از جدول آنالیز واریانس استفاده شد که با توجه به این جدول، مؤلفه تعامل دانشجو با ممتحن و ایستگاه با 9/47% بیشترین سهم را در ایجاد خطای اندازه‌گیری دارا می‌باشد و پس‌ازآن دانشجویان با 1/32%، در جایگاه دوم قرار دارند، همچنین مؤلفه تعامل ممتحنین و ایستگاه‌ها با 3/0%، کمترین سهم را در ایجاد خطای اندازه‌گیری در نمرات دومین آزمون صلاحیت‌های بالینی مشهد دارد.

برای تجزیه‌وتحلیل مربوط به تأثیر جنسیت، به بررسی تأثیر جنسیت دانشجویان و ممتحنین بر نمره دانشجویان پرداختیم. در ابتدا برای بررسی نرمال بودن نمرات دانشجویان، از آزمون کولموگروف- اسمیرنوف[1] استفاده گردید و مشخص شد که با توجه به جدول حاصل از این آزمون، مشخص شد توزیع نمرات نرمال نیست (05/0< p).پس از آن نمرات را ترنسفورم[2] نمودیم اما باز هم توزیع نمرات نشد، بنابراین به سراغ آزمون‌های غیرپارمتری رفتیم.

در خصوص ارتباط جنسیت ممتحنین شرکت‌کننده در دومین آزمون صلاحیت‌های بالینی مشهد با نمرات دانشجویان، از آزمون من ویتنی[3] استفاده گردید که براساس نتایج حاصله مشخص شد بین نمره دانشجویان و جنسیت ممتحنین شرکت‌کننده در دومین آزمون صلاحیت‌های بالینی مشهد ارتباط معناداری وجود ندارد(854/0=sig).

همچنین  برای بررسی ارتباط بین جنسیت دانشجویان شرکت‌کننده در دومین آزمون صلاحیت‌های بالینی مشهد و نمره آن‌ها نیز از آزمون من ویتنی بهره گرفته شد که نتایج این آزمون هم نشان داد بین جنسیت دانشجویان شرکت‌کننده در دومین آزمون صلاحیت‌های بالینی مشهد و نمره آن‌ها هم ارتباط معناداری وجود ندارد و بنابراین بین گروه دختران و پسران از لحاظ نمره کسب شده در دومین آزمون صلاحیت‌های بالینی مشهد، اختلاف معناداری وجود ندارد(83/0=sig).

بحث

ضریب پایایی دومین آزمون صلاحیت‌های بالینی دانشجویان پزشکی مشهد با استفاده از تئوری تعمیم‌پذیری 98/0 به دست آمد که این ضریب در مقایسه با مقالات و پایان‌نامه‌هایی که پژوهشگر آن‌ها را موردبررسی قرار داده است، بالاترین میزان ضریب می‌باشد. اکثر سازندگان آزمون‌ها، اگر ضریب پایایی 9/0 یا بیشتر به دست آورند، احساس رضایت می‌کنند اما از ضریب کمتر از 7/0 ناراضی می‌شوند(26). بِرانیک و همکارانش(27) پایایی آزمون را 66/0 محاسبه نمودند، داگلاس و لاوسون(28) پایایی را برای روز اول 63/0 و برای روز دوم 74/0 به دست آوردند و اِستیلسون(29) و همکارانش هم ضریب پایایی آزمون موردنظرشان را عدد 7/0 به دست آوردند. ضریب پایایی در پژوهش لیسا کِلِر(24) و همکارانش 8/0 محاسبه شد که این ضریب از بین سایر پژوهش‌ها، به پژوهش حاضر نزدیک‌تر است.

برانیک(27) و همکارانش در پژوهش خود به این نتیجه رسیدند که بهترین راه برای افزایش ضریب پایایی، افزایش تعداد ایستگاه‌ها و همچنین افزایش تعداد ممتحنین است(27)، همچنین هرچه ناهمگنیِ آزمودنی‌هایی که در آزمون شرکت می‌کنند بیشتر باشد، ضریب پایایی آزمون افزایش خواهد یافت(26). عواملی که به عقیده پژوهشگر منجر به بالا بودن ضریب پایایی دومین آزمون صلاحیت‌های بالینی مشهد گردیده است را می‌توان به‌صورت ذیل بیان نمود:آشناییِ کافی ممتحنین با روش‌های نمره دهی، توجیه بودن ممتحنین در زمینه هدف هر ایستگاه و آیتم‌های موردنظر،عدم سوگیری ممتحنین در ارزیابی دانشجو، طراحی صحیح ایستگاه‌های آزمون، مطابقت چک‌لیست‌های طراحی‌شده برای هر ایستگاه باهدف آن ایستگاه، ایفای نقشِ خوب توسط بیمارنماها، زمان‌بندی مناسب برای هر ایستگاه و کافی بودن تعداد ایستگاه ها.

واریانس نمره آزمون بر اساس ایستگاه‌ها 51/31، بر اساس دانشجویان 16/65 و بر اساس ممتحنین 02/6 محاسبه گردید. بالا بودن میزان واریانس رویه دانشجویان نشان می‌دهد که این رویه در مقایسه با دو رویهء دیگر، بیشترین نقش را در ایجاد خطای اندازه‌گیری داشته است و علت این امر را می‌توان در عوامل زیادی جستجو کرد ازجمله: استرس دانشجویان برای شرکت در آزمون، عدم آمادگی دانشجویان برای حضور در آزمون، کافی نبودن زمانِ برخی از ایستگاه (که این امر منجر به افزایش استرس می‌گردد، شرایط روحی و جسمی دانشجو، مواجهه با ممتحنینِ ناآشنا، مواجهه دانشجویان با موردهایی که اطلاعات کافی در مورد آن‌ها ندار‌ند، زمان برگزاری آزمون، مکان برگزاری آزمون.

برای تعین مؤلفه‌ای که بیشترین خطای اندازه‌گیری را ایجاد می‌کند از جدول آنالیز واریانس استفاده شده است و بر این اساس، مؤلفه تعامل دانشجویان با ممتحنین و ایستگاه‌ها با 47%، بیشترین سهم را در ایجاد خطای اندازه‌گیری به خود اختصاص داده است و بعدازآن دانشجویان با 32% در جایگاه دوم ایجاد خطای اندازه‌گیری قرار دارند، همچنین مؤلفه تعامل دانشجو با ایستگاه (3/0%) و مؤلفه ممتحنین (3%) کمترین درصد ایجاد خطای اندازه‌گیری را دارا هستند. تنها پژوهشی که نتایج تقریباً مشابهی با نتایج پژوهش حاضر دارد پژوهش سِبِک(30) و همکارانش می‌باشد که بر طبق یافته‌های این پژوهش، دومین مؤلفه‌ای که بیشترین خطای اندازه‌گیری را ایجاد می‌کند، تعامل متقاضیان با ممتحنین و ایستگاه‌ها (3/40 %) می‌باشد که می‌توان گفت درصد تقریباً نزدیکی به درصد مؤلفه در پژوهش حاضر دارد و نتایج سایر مطالعات با پژوهش حاضر همسو نبودند. لیسا کِلِر(24) در پژوهش خود به نتیجه متفاوتی دست‌یافت و بیشترین سهم خطای اندازه‌گیری را ابتدا در مؤلفه تعامل دانشجویان با موردها (ایستگاه‌ها) (52%) مشاهده نمود و پس‌ازآن مؤلفه تعامل دانشجویان با موردها و ممتحنین (19%) بیشترین سهم را دارا بود. در پژوهش داگلاس و لاوسون (28)، ممتحنین با 26/42% بیشترین سهم را در خطای اندازه‌گیری ایفا می‌کردند که این نتیجه بر عکسِ نتیجه پژوهش حاضر است و در پژوهش حاضر، ممتحنین کمترین سهم را در ایجاد خطا دارند. یادکُوسکی(31) هم در پژوهش خود به این نتیجه رسید که مؤلفه تعامل بیمارنما و موارد (22%) رتبه نخست را در ایجاد خطا به خود اختصاص می‌دهد و پس‌ازآن تعامل بیمارنماها با موارد و دانشجویان (17%) در جایگاه دوم قرار دارد. والوَند(32) هم در پایان‌نامه خود به این نتیجه رسید که تعامل بین آزمودنی و بیمارنماها اولین عامل ایجاد خطا در اندازه‌گیری می‌باشد و پس‌ازآن بیمارنماها بیشترین نقش را در خطای اندازه‌گیری دارند. در پژوهش استیلسون(29) هم ممتحنین با 52% بیشترین خطای اندازه‌گیری را داشتند.

همان‌طور که در بالا بیان گردید، مؤلفه تعامل دانشجویان با ممتحنین و ایستگاه‌ها با 47%، بیشترین سهم را در ایجاد خطای اندازه‌گیری به خود اختصاص داده است که پژوهشگر در این باب، عوامل زیر را مؤثر می‌داند: دانشجو در هر ایستگاه با یک ممتحنِ جدید مواجه می‌شود و این امر می‌تواند بر روی عملکرد دانشجو تأثیر می‌گذارد، مخصوصاً این امر که ممکن است دانشجو با تعدادی از ممتحنین، از قبل آشنا نباشد و یا تجربه حضور در برخی از ایستگاه‌ها را نداشته باشد از عوامل بالقوه ایجاد خطای اندازه‌گیری محسوب می‌شود. از سوی دیگر دانشجویان در زمان‌های مختلف در هر ایستگاه حاضرشده‌اند و ممکن است خستگیِ ناشی از مدتِ آزمون، بر روی عملکرد آن‌ها و همچنین بر روی نحوه ارزیابی ممتحن از دانشجو تأثیرگذار باشد، بنابراین احتمال دارد دانشجویی که زودتر در یک ایستگاه حاضر شده باشد، نسبت به دانشجویی که دیرتر حاضر شده است، عملکرد بهتری داشته باشد و به همان نسبت، خستگی ممتحن هم می‌تواند منجر شود دانشجوی اول را با دقت‌ بیشتری نسبت به دانشجوی آخر ارزیابی نماید.

در این پژوهش، کمترین سهم خطای اندازه‌گیری مربوط به مؤلفه تعامل دانشجویان با ایستگاه‌ها می‌باشد. داگلاس و لاوسون در پژوهش خود به این نتیجه رسیدند که بالا بودن میزان خطای این مؤلفه نمایان گر تفاوت ایستگاه‌ها ازلحاظ دشواری است و بر این اساس می‌توان اذعان نمود در پژوهش حاضر، ایستگاه‌ها ازلحاظ دشواری تفاوت چندانی نداشتند و این یکی از نقاط قوت دومین آزمون صلاحیت‌های بالینی مشهد به شمار می‌رود.

در خصوص ارتباط بین جنسیت دانشجویان و نمرات دومین آزمون صلاحیت‌های بالینی، پس از تجزیه‌وتحلیل‌ها مشخص شد بین جنسیت دانشجو و نمره وی ارتباط معناداری وجود ندارد. عدم وجود تفاوت بین نمرات دانشجویان دختر و پسر مبین این امر است که جنسیت دانشجویان در عملکرد آن‌ها تأثیر چندانی نداشته است و دانشجویان دختر و پسر در تمام ایستگاه‌ها تقریباً به یک نسبت (ازلحاظ نمره) ظاهرشده‌اند.کارسون (33) و همکارانش نیز در پژوهش خود در دانشگاه کالگری به این نتیجه رسیدند در ایستگاه‌های عمومی بین عملکرد دختران و پسران تفاوت معناداری وجود ندارد که این نتیجه با پژوهش حاضر همخوانی دارد و فقط در ایستگاه‌های حساس به جنسیت نظیر ایستگاه زنان، دانشجویان دختر نسبت به دانشجویان پسر عملکرد بهتری داشتند؛ اما کادی (34) و همکارانش در مطالعه خود نتیجه گرفتند که در حیطه مهارت‌های بین فردی، جنسیت دانشجویان در نمره آن‌ها تأثیر داشته و آزمودنی‌های زن نمرات بهتری نسبت به مردان کسب نموده‌ بودند. نتایج پژوهش تاچی(35) هم در ایستگاه معاینه کمر با مطالعه حاضر مشابهت داشت و تفاوتی بین جنسیت بیمارنما و دانشجو مشاهده نگردیده اما در ایستگاه معاینه غدد لنفاوی، بین عملکرد دانشجویان دختر و پسر تفاوت معناداری مشاهده شد و دانشجویان دختر، نمره بهتری نسبت به دانشجویان پسر کسب نمودند. نتایج بررسی‌های چامبرز(36) نیز با پژوهش ما تفاوت دارد و در آن زنان نسبت به مردان نمره بهتری کسب نمودند و این امر بدون در نظر گرفتن جنسیت بیمارنما بود. همچنین برایلووسکی(37) و همکارانش در سال 1997 در پژوهش خود به این نتیجه رسیدند که در سال‌های 1993 و 1994 دانشجویان دختر نسبت به دانشجویان پسر نتایج بهتری کسب نمودند و در سال 1995 دانشجویان پسر نسبت به دانشجویان دختر، بهتر ظاهر شدند و نتایج این پژوهش نیز با پژوهش حاضر هم‌راستا نیست.

نتایج تجزیه‌وتحلیل در خصوص ارتباط بین جنسیت ممتحنین و نمرات دومین آزمون صلاحیت‌های بالینی، نشان داد تفاوت معناداری بین جنسیت ممتحنین و نمرات دانشجویان وجود ندارد که این نتایج با نتایج پژوهش چامبرز و همکارانش همخوانی ندارد و در پژوهش آن‌ها مشخص گردید بیمارنماهای مرد، نسبت به بیمارنماهای زن نمرات بهتری به پزشکان دادند، به عقیده پژوهشگر علت این امر این است که در پژوهش حاضر، ممتحنین با دانشجویان تعامل نداشتند و فقط ناظر بر کار آن‌ها بودند اما در پژوهش چامبرز(36)، بیمارنماها هم با پزشک تعامل داشتند و هم عملکرد آن‌ها را به عنوان بررسی می‌کردند و این تعامل، ممکن است موجب برخی سوگیری‌ها شده باشد که درنهایت در نمره دانشجو تأثیرگذار بوده است، علاوه بر این، ممتحنینی که در پژوهش حاضر دانشجویان را نمره دهی می‌نمودند همگی پزشک متخصص و یا دارای مدرک دکترای تخصصی بودند اما بیمارنماهایی که در پژوهش چامبرز، عملکرد دانشجویان را بررسی می‌کردند، افرادِ آموزش‌دیده (غیرپزشک) بودند.

نتیجه‌گیری

پایایی یکی از شاخص های اساسی در تعیین کیفیت هر آزمون است و با توجه به مطالب اخیر، به‌طورکلی می‌توان گفت دومین آزمون صلاحیت‌های بالینی مشهد از پایایی بسیار خوبی برخوردار می‌باشد، اما نکته‌ای که باید موردتوجه قرار گیرد آن است که این ضریب بدون در نظر گرفتن تأثیرِ رویهء بیمارنماها بر روی خطای اندازه‌گیری محاسبه شده است که با توجه به مقالات یادکُوسکی، والوَند و لیسا کِلِر (که در این مقالات، بیمارنماها و موردها جزو مهم‌ترین عوامل ایجادکننده خطای اندازه‌گیری بودند)، می توان گفت این رویه، جزو عوامل بالقوه در ایجاد خطای اندازه‌گیری به شمار می‌رود و پیشنهاد می شود برای انجام پژوهش های مشابه، بیمارنما هم به عنوان یک رویه مورد بررسی قرار گیرد. همچنین نتیجه استفاده از تئوری تعمیم پذیری برای برآورد ضریب پایایی در این آزمون آسکی نشان داد این تئوری روشی مفید برای تعیین ضریب پایایی آزمون است که بر اساس آن می توان مشخص نمود چه عواملی در پایایی نقش دارند و با کنترل کردن این عوامل می توان پایایی را در آزمون های بعدی افرایش داد.

تقدیر و تشکر: پژوهشگر در پایان لازم می داند از همکاری دانشکده پزشکی مشهد، مرکز مهارت های بالینی بیمارستان قائم (عج) و کلیه افرادی که در این پژوهش مشارکت داشتند قدردانی نماید.
این مقاله مستخرج از پایان نامه دانشجویی نویسنده مسئول می باشد.




[1]Colmogrov-Smirnov

[2]Transform

[3]Mann-Whitney

1.Gupta P, Dewan P, Singh T. Objective structured clinical examination (OSCE) revisited. Indian pediatrics. 2010;47(11):911-20.
2.Karimi-moonaghi H. practical guide to medical sciences student assessment (focused on new methods in clinical assessment. Mashhad: Mashhad university of medical sciences; 2011.
3.Koohpaye-zade J, Hemmati A, Baradaran H, Mirhosseini F, Akbari H, Sarvieh M. Survey on validity and reliability of Direct Observation of Procedural skills (DOPS) in clinical skills assessment of Midvifery students of Kashan School of Nursing and Midvifery. Quarterly Journal of Sabzevar University of Medical Sciences. 2014;21(1):145-54.
4.Stilson F. Psychometrics of OSCE standardized patient measurements: University of South Florida; 2009.
5.Barman A. Critiques on the objective structured clinical examination. ANNALS-ACADEMY OF MEDICINE SINGAPORE. 2005;34(8):478.
6.Carraccio C, Englander R. The objective structured clinical examination: a step in the direction of competency-based evaluation. Archives of pediatrics & adolescent medicine. 2000;154(7):736-41.
7.El-Nemer A, Kandeel N. Using OSCE as an assessment tool for clinical skills: nursing students' feedback. Australian Journal of basic and Applied sciences. 2009;3(3):2465-72.
8.Lawson D, Douglas M. Applying generalizability theory to high-stakes objective structured clinical examinations in a naturalistic environment. Journal of manipulative and physiological therapeutics. 2006;29(6):463-7.
9.Pell G, Fuller R, Homer M, Roberts T. How to measure the quality of the OSCE: A review of metrics–AMEE guide no. 49. Medical teacher. 2010;32(10):802-11.
10.Harden R. What is an OSCE? Medical teacher. 1988;10(1):19-22.
11.Wang Z. Estimating reliability under a generalizability theory model for writing scores in c-base: University of Missouri-Columbia; 2005.
12.Brennan RL. Generalizability theory: Statistics for social science and public policy. New York: Springer-Verlag Retrieved March. 2001;30.
13.Kiamanesh A. Generalizability theory in Educational measurement. Psychology and Educational Sciences Journal. 2014;52(1):12-35.
14.Alkahtani SF. Oral performace scoring using generalizability theory and many-facet Rasch measurement: A comparison study: The Pennsylvania State University; 2012.
15.Cardinet J, Johnson S, Pini G. Applying generalizability theory using EduG: Taylor & Francis; 2011.
16.Brennan RL. Coefficients and indices in generalizability theory. Center for Advanced Studies in Measurement and Assessment, CASMA Research Report. 2003;1:1-44.
17.O'Brian N, O'Brian S, Packman A, Onslow M. Generalizability Theory IAssessing Reliability of Observational Data in the Communication Sciences. Journal of Speech, Language, and Hearing Research. 2003;46(3):711-7.
18.Webb NM, Shavelson RJ. Generalizability theory: overview. Wiley StatsRef: Statistics Reference Online. 2005.
19.Lengh CJ. Generalizability Theory: Measuring the Dependability of Selected Methods for Scoring Classroom Assessments: ERIC; 2010.
20.Narayanan A, Greco M, Campbell JL. Generalisability in unbalanced, uncrossed and fully nested studies. Medical education. 2010;44(4):367-78.
21.Ribar RJ. GENERALIZABILITY THEORY AND THE SOCIAL COMPETENCE PERFORMANCE CHECKLIST2005.
22.Heitman RJ, Kovaleski JE, Pugh SF. Application of generalizability theory in estimating the reliability of ankle-complex laxity measurement. Journal of athletic training. 2009;44(1):48.
23.Alizadeh E, Falsafi nejad Mr, Delavar A, Farrokhi Na, Abbaspoor A. Survey on reliability of Job Analysis Data be mans of Generalizability Theory. quarterly journal of Educational Measurement. 2014;14(4):1-23.
24.Keller LA, Clauser BE, Swanson DB. Using multivariate generalizability theory to assess the effect of content stratification on the reliability of a performance assessment. Advances in health sciences education. 2010;15(5):717-33.
25.Kiamanesh A. Generalizability theory in Educational measurement. Psychology and Educational Sciences Journal. 1993;2.
26.Biaban gard E. research methods in Psychology and Educational sciences. Tehran: Doran; 2012. 488 p.

27.Brannick MTE-K, H Tugba; Prewett, Matthew. A systematic review of the reliability of objective structured clinical examination scores. Medical Education. 2011;45(12):1181-9.
28.Lawson DM. Applying generalizability theory to high-stakes objective structured clinical examinations in a naturalistic environment. Journal of manipulative and physiological therapeutics. 2006;29(6):463-7.
29.Stilson FR. Psychometrics of OSCE standardized patient measurements: University of South Florida; 2009.
30.Sebok SS, Luu K, Klinger DA. Psychometric properties of the multiple mini-interview used for medical admissions: findings from generalizability and Rasch analyses. Advances in health sciences education. 2014;19:71-84.
31.Iramaneerat C, Yudkowsky R, Myford CM, Downing SM. Quality control of an OSCE using generalizability theory and many-faceted Rasch measurement. Advances in health sciences education. 2008;13(4):479-93.
32.Vallevand ALC. Reliability, validity and sources of errors in assessing physician performance in an objective structured clinical examination: A generalizability theory analysis [Ph.D.]. Ann Arbor: University of Calgary (Canada); 2008.
33.Carson JA, Peets A, Grant V, McLaughlin K. The effect of gender interactions on students' physical examination ratings in objective structured clinical examination stations. Acad Med. 2010;85(11):1772-6.
34.Cuddy MM, Swygert K, Jobe A, Swanson DB. A Multi-level Analysis of Examinee Gender, Standardized Patient Gender and USMLE Step 2 Clinical Skills Communication and Interpersonal Skills Scores. 2009.
35.Touchie C, Wood T, Smee S, Humphrey-Murto S. Does the gender of the standardised patient influence candidate performance in an objective structured clinical examination? Med Educ. 2009;43(6):153-7.
36.Furman G, Colliver JA, Galofre A. Effects of student gender and standardized-patient gender in a single case using a male and a female standardized patient. Academic Medicine. 1993;68(4):301-3.
37.Brailovsky C, Grand’Maison P, Miller F, Rainsberry P. Detection of gender differences in high-stakes performance SP-based examinations in family medicine. Advances in Medical Education: Springer; 1997. p. 131-4.