[预印本]从蛋白质序列预测流感病毒宿主嗜性和人畜共患溢出风险

新型传染病,主要起源于非人类动物,对全球公共卫生和经济稳定构成重大威胁。禽流感病毒尤其具有挑战性,因为其高致死率及向新宿主物种的溢出能力。最近H5N1向家禽和家畜的溢出事件导致了巨大的经济负担,并增加了人类健康风险。传统的疾病监测方法依赖于被动的病例发现和病原体特性分析,无法提供有效干预所需的足够提前时间。能够高效、主动预测人畜共患潜力的计算工具对于缓解流感爆发和识别具有向人类溢出风险的病毒株至关重要。已有用于预测流感病毒亚型或宿主的模型被开发;然而,溢出事件的复杂性,包括动物源性潜力的非二元性,限制了这些模型的能力。在此报告的方法中,从ESM-2生成了每个流感病毒株蛋白的丰富蛋白质语言模型嵌入,并用于预测九个动物科的蛋白宿主嗜性概率。蛋白宿主嗜性模型的加权精确度和召回率分别达到0.95和0.95。然后,我们使用蛋白宿主嗜性预测模型的输出构建了一个动物源性风险预测模型,将病毒株分类为六类:禽类、哺乳类、人类、禽到人类的动物源性、禽到哺乳类的动物源性或哺乳类到人类的动物源性。该模型的平均加权精确度和召回率分别为0.90和0.90。该框架通过不依赖于流感亚型、结合非人类哺乳动物和哺乳动物的动物源性溢出分类、并使用完整的流感蛋白组来捕捉溢出动态的复杂性,从而推进了对流感动物源性风险的预测。