این مقاله در کنگره بین المللی هوش مصنوعی در سلامت در سال ۱۴۰۳ با عنوان performance Evaluation of Large Language Models in Medicine (بررسی عملکرد مدل‌های زبانی بزرگ در حیطه‌ی پزشکی) توسط خانم ها سما خرمی نژاد، زهرا وطن خواه و دکتر مهرنوش شمس فرد ارائه گردیده است.

چکیده این مقاله به شرح زیر است:

این مطالعه با هدف ارزیابی عملکرد ۱۱ مدل زبانی بزرگ در پاسخ به سوالات پزشکی فارسی انجام شد. سوالات در دو دسته عمومی و تخصصی طراحی شدند؛ سوالات عمومی شامل پرسش‌های رایج و تصورات غلط متداول، و سوالات تخصصی برگرفته از آزمون‌های پیش‌کارورزی و دستیاری پزشکی ایران بودند. این سوالات موضوعات متنوعی از جمله زنان و زایمان، پوست و مو، جراحی عمومی، تشخیص و درمان عمومی، بیماری‌های عفونی، روان‌پزشکی، ارتوپدی، گوارش، مغز و اعصاب، کودکان، تغذیه، گوش و حلق و بینی، داخلی، فارماکولوژی، چشم‌پزشکی و رادیولوژی را پوشش می‌دادند. مدل‌های ارزیابی‌شده شامل GPT-4o، Claude-3.5-Sonnet، GPT-3.5، Gemini، Llama-3-8b، Llama-3-70b، PersianMind، Gemma-2b-it، Dorna، Aya-23-35b و CoMMand-r بودند که با تمرکز بر زبان فارسی و تنوع اندازه بررسی شدند. نتایج نشان داد مدل‌های GPT-4o و Claude 3.5 Sonnet بهترین عملکرد را داشتند، درحالی‌که مدل Gemma-2B-IT ضعیف‌ترین عملکرد را ارائه داد. چالش‌هایی نظیر ضعف در تشخیص داروهای مصرفی، شناسایی نام‌های تجاری فارسی، و ارائه اطلاعات دقیق در برخی حوزه‌های تخصصی مشاهده شد. این یافته‌ها بر ضرورت توسعه مدل‌های زبانی تخصصی و بهینه‌سازی آن‌ها برای ارائه اطلاعات دقیق و قابل اعتماد در حوزه پزشکی تأکید دارند.