این مقاله در کنگره بین المللی هوش مصنوعی در سلامت در سال ۱۴۰۳ با عنوان performance Evaluation of Large Language Models in Medicine (بررسی عملکرد مدلهای زبانی بزرگ در حیطهی پزشکی) توسط خانم ها سما خرمی نژاد، زهرا وطن خواه و دکتر مهرنوش شمس فرد ارائه گردیده است.
چکیده این مقاله به شرح زیر است:
این مطالعه با هدف ارزیابی عملکرد ۱۱ مدل زبانی بزرگ در پاسخ به سوالات پزشکی فارسی انجام شد. سوالات در دو دسته عمومی و تخصصی طراحی شدند؛ سوالات عمومی شامل پرسشهای رایج و تصورات غلط متداول، و سوالات تخصصی برگرفته از آزمونهای پیشکارورزی و دستیاری پزشکی ایران بودند. این سوالات موضوعات متنوعی از جمله زنان و زایمان، پوست و مو، جراحی عمومی، تشخیص و درمان عمومی، بیماریهای عفونی، روانپزشکی، ارتوپدی، گوارش، مغز و اعصاب، کودکان، تغذیه، گوش و حلق و بینی، داخلی، فارماکولوژی، چشمپزشکی و رادیولوژی را پوشش میدادند. مدلهای ارزیابیشده شامل GPT-4o، Claude-3.5-Sonnet، GPT-3.5، Gemini، Llama-3-8b، Llama-3-70b، PersianMind، Gemma-2b-it، Dorna، Aya-23-35b و CoMMand-r بودند که با تمرکز بر زبان فارسی و تنوع اندازه بررسی شدند. نتایج نشان داد مدلهای GPT-4o و Claude 3.5 Sonnet بهترین عملکرد را داشتند، درحالیکه مدل Gemma-2B-IT ضعیفترین عملکرد را ارائه داد. چالشهایی نظیر ضعف در تشخیص داروهای مصرفی، شناسایی نامهای تجاری فارسی، و ارائه اطلاعات دقیق در برخی حوزههای تخصصی مشاهده شد. این یافتهها بر ضرورت توسعه مدلهای زبانی تخصصی و بهینهسازی آنها برای ارائه اطلاعات دقیق و قابل اعتماد در حوزه پزشکی تأکید دارند.