禽流感仍然是全球公共衛生安全的持續威脅,對糧食系統、貿易和大流行預防具有嚴重影響。為了解決公共衛生傳播和特定利益相關者決策中的空白,本研究評估了大型語言模型(LLM)在禽流感情境下提供准確、具有情境敏感性和符合倫理的指導能力。采用多模型、利益相關者分層的評估框架,我們測試了四個先進的生成式人工智能模型,即 ChatGPT-4o(OpenAI)、Grok(xAI)、Gemini 1.5 Pro(Google)和 DeepSeek R1(DeepSeek),並在兩個互補任務中進行了測試:(i) 對涵蓋病毒學、流行病學、獸醫學和全球公共衛生領域的34個專業項目進行結構化查詢;(ii) 對16個模擬疫情情節生成回應,這些情節涉及不同社會角色。小插圖分析進一步揭示了各模型在溝通能力和倫理取向上的差異,從程序性務實到利益相關者映射再到以人為本的設計不等。Gemini 擅長融合同理心與教學式推理,Grok 則提供以實施為導向的指導,ChatGPT-4o 強調法律規範的清晰性,而 DeepSeek R1 則偏向結構性和制度性分析。總體而言,我們的研究結果突出了當前大型語言模型在生物監測、風險溝通和跨部門疫情防備中的潛力與局限性,同時也強調了進行嚴格的、角色感知式基准測試的必要性,以確保生成式人工智能在公共衛生基礎設施中的公平且符合情境的整合。