همزمان با برگزاری کنفرانس ۲۰۲۵ coling خانم دکتر مهرنوش شمس فرد و خانم راشین رهنمون مقاله ای تحت عنوان «چارچوب چندلایه ای برای ارزیابی پاسخ های متنی در سیستم های پرسش و پاسخ دامنه باز» در این کنفرانس ارائه کردند.
چکیده این مقاله به شرح زیر است:
ارزیابی خودکار متون تولید شده توسط مدل های زبانی، مانند ارزیابی متن های تولید شده توسط ماشین در سیستم های پرسش و پاسخ دامنه باز، چالشی پیچیده است که موانعی همچون هزینه های هنگفت، محدودیت های سخت افزاری و دستیابی به دقتی مطلوب همگرا با ارزیابی های انسانی را دربردارد. اگرچه معیارهای مختلفی برای مقایسه پاسخهای تولید شده توسط ماشین با پاسخهای مرجع (استاندارد طلایی) وجود دارد، از جمله معیارهای لغوی (مثلاً تطابق دقیق) تا معیارهای معنایی (مثلاً شباهت کسینوسی بردار های معنایی) و استفاده از مدلهای زبانی بزرگ به عنوان داور اما هیچیک از این رویکردها عملکرد مطلوب از نظر دقت یا هزینه ندارد. برای حل این مشکل، رویکردی چندلایه ای برای موارد فوق مطرح می شود که ابتدا با استخراج پاسخ های کوتاه در متن فرایند آغاز می شود سپس لایه اول سیستم با فیلتر کردن دادگان با معیار هایی که دقت بالا دارند ارزیابی را انجام می دهد، در ادامه داده های باقیمانده به لایه دوم برای ارزیابی توسط معیار های مختلف منتخب با فرمول پیشنهادی در سیستم رأیگیری هدایت می شوند تا روند دقیقی برای ارزیابی و حل چالش ارزیابی در سیستم های مبتنی بر پرسش و پاسخ دامنه باز ارائه شود. نتایج به دست آمده نشان داد که ترکیب معیار های پایه ای با هزینه ای کمتر نتایجی نزدیک به داوری مدل های زبانی بزرگ به دست می آورد. همچنین این رویکرد ترکیبی نتایجی بهتر از روش های پیشین ارزیابی بر مجموعه دادگان مطرح انگلیسی به نمایش می گذارد.