وجدت دراسة حديثة أن نموذج الذكاء الاصطناعي GPT-4 يفوق بشكل كبير قدرة الأطباء غير المتخصصين على تقييم مشاكل العين وتقديم المشورة، حيث توصلت دراسة أجرتها جامعة كامبريدج إلى أن المعرفة السريرية ومهارات التفكير الخاصة بـGPT-4 تقترب من مستوى أطباء العيون المتخصصين.
تم اختبار GPT-4 - وهو "نموذج لغوي كبير" - على الأطباء في مراحل مختلفة من حياتهم المهنية، بما في ذلك الأطباء المبتدئين غير المتخصصين، وأطباء العيون المتدربين والخبراء، وعُرض على كل منهم سلسلة من 87 سيناريو للمريض تتضمن مشكلة معينة في العين، وطُلب منهم تقديم تشخيص أو نصيحة بشأن العلاج من خلال الاختيار من بين أربعة خيارات.
وقد سجل GPT-4 نتائج أفضل بكثير في الاختبار من الأطباء المبتدئين غير المتخصصين، الذين يمكن مقارنتهم بالممارسين العامين في مستوى معرفتهم المتخصصة بالعيون، كما حصل GPT-4 على درجات مماثلة لأطباء العيون المتدربين والخبراء - على الرغم من أن الأطباء الأفضل أداءً حصلوا على درجات أعلى.
ويقول الباحثون إن النماذج اللغوية الكبيرة من غير المرجح أن تحل محل المتخصصين في الرعاية الصحية، ولكن لديها القدرة على تحسين الرعاية الصحية كجزء من سير العمل السريري، ويقولون إن نماذج اللغة الكبيرة الحديثة مثل GPT-4 يمكن أن تكون مفيدة لتقديم المشورة والتشخيص واقتراحات الإدارة المتعلقة بالعين في سياقات يتم التحكم فيها جيدًا، مثل فرز المرضى، أو عندما يكون الوصول إلى متخصصي الرعاية الصحية المتخصصين محدودًا.
وقال الدكتور آرون ثيرونافوكاراسو المؤلف الرئيسي للدراسة، التي أجراها عندما كان طالبًا في كلية الطب السريري بجامعة كامبريدج: "يمكننا نشر الذكاء الاصطناعي بشكل واقعي في فرز المرضى الذين يعانون من مشاكل في العين لتحديد الحالات التي تعتبر حالات طوارئ تحتاج إلى فحصها من قبل أخصائي على الفور، والتي يمكن أن يراها الطبيب العام، والتي لا تحتاج إلى علاج".
وأضاف: "يمكن أن تتبع النماذج خوارزميات واضحة مستخدمة بالفعل، وقد وجدنا أن GPT-4 جيد مثل الأطباء الخبراء في معالجة أعراض وعلامات العين للإجابة على الأسئلة الأكثر تعقيدًا.
"مع مزيد من التطوير، يمكن لنماذج اللغة الكبيرة أيضًا تقديم المشورة للأطباء العموميين الذين يكافحون للحصول على مشورة سريعة من أطباء العيون، ينتظر الناس في المملكة المتحدة وقتًا أطول من أي وقت مضى للحصول على رعاية العيون.
وهناك حاجة إلى كميات كبيرة من النصوص السريرية للمساعدة في تحسين هذه النماذج وتطويرها، ويستمر العمل في جميع أنحاء العالم لتسهيل ذلك، ويقول الباحثون إن دراستهم تتفوق على دراسات سابقة مماثلة لأنها قارنت قدرات الذكاء الاصطناعي مع الأطباء الممارسين، بدلاً من مجموعات نتائج الفحص.
"الأطباء لا يراجعون الامتحانات طوال حياتهم المهنية، وقال ثيرونافوكاراسو، الذي يعمل الآن طبيبًا أكاديميًا في مؤسسة مستشفيات جامعة أكسفورد التابعة لهيئة الخدمات الصحية الوطنية: "أردنا أن نرى مدى نجاح الذكاء الاصطناعي عند مقارنته بالمعرفة والقدرات الميدانية للأطباء الممارسين، لتقديم مقارنة عادلة".
وأضاف: "نحتاج أيضًا إلى تحديد قدرات وقيود النماذج المتاحة تجاريًا، حيث قد يستخدمها المرضى بالفعل - بدلاً من الإنترنت - للحصول على المشورة"، وشمل الاختبار أسئلة حول مجموعة كبيرة من مشاكل العين، بما في ذلك الحساسية الشديدة للضوء، وانخفاض الرؤية، والآفات، والحكة والألم في العيون، مأخوذة من كتاب مدرسي يستخدم لاختبار أطباء العيون المتدربين، هذا الكتاب المدرسي غير متاح مجانًا على الإنترنت، مما يجعل من غير المرجح أن يكون محتواه مدرجًا في مجموعات بيانات تدريب GPT-4.
"وحتى مع أخذ الاستخدام المستقبلي للذكاء الاصطناعي في الاعتبار، أعتقد أن الأطباء سيستمرون في تولي مسؤولية رعاية المرضى، الشيء الأكثر أهمية هو تمكين المرضى من اتخاذ القرار بشأن ما إذا كانوا يريدون مشاركة أنظمة الكمبيوتر أم لا. قال ثيرونافوكاراسو: "سيكون هذا قرارًا فرديًا يجب على كل مريض اتخاذه".
ويتم تدريب GPT-4 وGPT-3.5 - أو "المحولات التوليدية المدربة مسبقًا" - على مجموعات بيانات تحتوي على مئات المليارات من الكلمات من المقالات والكتب ومصادر الإنترنت الأخرى، وهذان مثالان لنماذج اللغة الكبيرة؛ تشمل البرامج الأخرى المستخدمة على نطاق واسع Pathways Language Model 2 (PaLM 2) وLarge Language Model Meta AI 2 (LLaMA 2).
اختبرت الدراسة أيضًا GPT-3.5 وPaLM2 وLLaMA باستخدام نفس مجموعة الأسئلة، وقد أعطى GPT-4 استجابات أكثر دقة من جميعها.