杜克大学的生物医学工程师展示了一种新方法,可以在仅使用一小部分可用数据的情况下显着提高机器学习模型搜索新分子疗法的有效性。通过使用主动识别数据集中差距的算法,研究人员在某些情况下可以将其准确性提高一倍以上。
(资料图片仅供参考)
这种新方法可以使科学家更容易地识别和分类具有可用于开发新候选药物和其他材料的特征的分子。
这项工作发表在英国皇家化学学会6月23日出版的《DigitalDiscovery》杂志上。
机器学习算法越来越多地用于识别和预测小分子(例如候选药物和其他化合物)的特性。尽管计算能力和机器学习算法都取得了显着进步,但它们的能力目前受到用于训练它们的现有数据集的限制,而这些数据集远非完美。
主要问题之一涉及数据偏差。当有大量数据点展示一种特性远远多于另一种特性时,就会发生这种情况,例如分子抑制特定蛋白质的潜在能力或其结构特征。
杜克大学生物医学工程助理教授DanielReker解释道:“这就好像你训练了一种算法来区分狗和猫的图片,但你给了它10亿张狗的照片来学习,而只有100张猫的照片。”。“该算法将非常擅长识别狗,以至于一切都开始看起来像狗,并且它会忘记世界上的其他一切。”
对于药物发现和开发来说,这是一个特别成问题的问题,科学家们经常处理的数据集显示,99%以上的测试化合物“无效”,并且只有一小部分分子被标记为可能有用。
为了解决这个问题,研究人员使用了一种称为数据子采样的过程,他们的算法从一个小的但(希望)具有代表性的数据子集中学习。虽然此过程可以通过为模型提供相同数量的示例来学习来消除偏差,但它也可能会删除关键数据点并对算法的整体准确性产生负面影响。为了弥补这一缺陷,研究人员开发了数百种二次采样技术来限制丢失的信息量。
但雷克和他的合作者想要探索一种称为主动机器学习的技术是否可以解决这个长期存在的问题。
“通过主动机器学习,算法本质上能够在感到困惑或感觉到数据中存在差距时提出问题或请求更多信息,而不是被动地筛选数据,”雷克说。“这使得主动学习模型在预测表现方面非常有效。”
通常,Reker和其他研究人员应用主动学习算法来生成新数据,例如识别新药物,但Reker和他的团队希望探索如果在现有数据集上释放该算法会发生什么。虽然主动机器学习的二次采样应用已经在其他研究中进行了探索,但Reker和他的团队是第一个在分子生物学和药物开发中测试该算法的人。
为了测试主动二次采样方法的效率,研究小组编制了具有不同特征的分子数据集,包括可以穿过血脑屏障的分子、可以抑制与阿尔茨海默病相关的蛋白质的分子,以及已被证明可以抑制阿尔茨海默病的化合物。HIV复制。然后,他们针对从完整数据集学习的模型和16种最先进的子采样策略测试了主动学习算法。
该团队表明,主动二次采样能够比每种标准二次采样策略更准确地识别和预测分子特征,最重要的是,在某些情况下,比在完整数据集上训练的算法效率高出139%。他们的模型还能够准确地调整数据中的错误,这表明它对于低质量的数据集特别有用。
但最令人惊讶的是,该团队发现理想的使用数据量远低于预期,在某些情况下仅需要可用数据的10%。
“主动二次采样模型会在某个时刻收集它需要的所有信息,如果添加更多数据,就会对性能产生不利影响,”Reker解释道。“这个问题对我们来说特别有趣,因为它暗示存在一个拐点,即使在子样本中,更多信息也不再有帮助。”
虽然雷克和他的团队希望在未来的工作中研究这个拐点,但他们还计划使用这种新方法来识别潜在治疗靶点的新分子。由于主动机器学习在许多不同的研究领域变得越来越流行,该团队乐观地认为他们的工作将帮助科学家更好地理解这种算法及其对数据错误的鲁棒性。
“这种方法不仅可以提高机器学习性能,而且还可以减少数据存储需求和成本,因为它使用的是更精细的数据集,”雷克说。“这使得机器学习对每个人来说都更具可重复性、可访问性和强大性。”
更多信息:YujingWen等人,通过自适应子采