全文共字,预计学习时长14分钟
图源:unsplash技术和规模的亲密无间是公认的,但当生物学想要运用这条规律时却遇到了困难。生物技术行业往往高估了“规模”在探索发现上的影响,这表现在早期的高通量化合物筛选与现在基因组学在精准医疗领域的运用上。
这里的规模指的是生物学的实验、进程、合成和计算的规模。巧妙的化学组合形成了数百万个化合物、庞大的筛选设备能够快速读取数据、形成海量的经济数据集,这些都形成一定规模。这些努力都合情合理,笔者不打算探讨生物技术领域可能会突然出现规模未经证实的说法,类似于某家公司以“赫拉诺斯”结尾。
然而,虽不总是徒劳,但将生物学发现规模化的努力常以失败告终,又或者要远久于人们的预期才能摆脱技术成熟度曲线并走出幻灭低谷。生物学规模化产生(或拼凑)的海量数据集在许多方面都存在缺陷,再进一步,我们目前拥有的大量可用的数据,与我们将这些数据运用在实验中的能力存在差距。
规模生物学承诺的数据、信息和知识……这些何时会成为洞见、智慧和影响?图源:Gapingvoid9
生物学是复杂的,生物技术临床应用的高昂代价也证明了这一点。雪上加霜的是,“倒摩尔定律”揭示了药物发现成功率逐渐下降的趋势,与之相对的是依据摩尔定律不断上升的计算能力,两相对比揭示了药物开发面临的困境。但好在过去的十年间,药物研发的成功率出现了实质性转变。
倒摩尔定律或许正在改变图源:Ringe
很多表面原因可以解释这种变化,例如美国食品与药物管理局友好的态度、罕见的基因疾病等等,但更为关键的原因是行业对“规模”含义的重新考量。我们现在正处于形成和诠释规模化生物学的节点。
我们正在走出生物实验依靠蛮力的时代,进入一个全新的、相关的、智能的、有效的规模化生物学时代。规模化的应用实际上会影响生物发现的生产力。在这个新时代,像“高通量”、“大规模”和“自动化”这样的术语将有其长处,能不让友商制药公司高管立即产生怀疑。
功能基因组学平台将会以前所未有的速度识别和验证生物目标,相关计算方法的出现迅速减少了解决方案,快速智能的技术优化提高了我们对生物的控制水平,这样的因素还有更多。
一定程度的警惕是必要的,不过规模化永远不会是生物发现的唯一掌舵者:它只提供推动力。倘若我们保持警惕并且目标的方向正确,就会发现相关的、智能的、有效的规模化时代将掀起生物学实验、进程和计算的革命,从而转变我们对于亚细胞组学、细胞、系统和身体的现有认知。
1.生物学相关的数据集揭示出细微的洞察力
应用规模化生成无关的生物学数据会扭曲生物学发现,而应用规模化生成有关的生物学数据将使你得到细微的洞见。
与生物学有关的数据提供了我们观察身体功能的最具代表性的视角。这些数据不可复制、受干扰信息的限制,并且通常源于具有遗传、调节、代谢、空间和时间特征的模型,这里的特征代表了我们自己的内部机制。
图源:unsplash近年来,由于新式的整合利用化学、微流控和显微技术,我们获得生物学相关数据的能力大大增强。这些技术使基因组学领域取得了巨大的进步,现在正处于将其应用于生物技术所有领域的*金时代。其结果是产生了规模化的生物学有关数据,包括:
·生理相关数据,即成型于代表性模型,如多能干细胞、原代细胞、共培养物和类器官。
·高分辨率数据,即使用单细胞分析、空间组学和高内容成像等技术。
·基因验证的数据,特别是由CRISPR等基因组编辑工具赋能过的。过去,我们在很有限的遗传背景下测试了许多假设,而现在我们能认识到遗传多样性的生物学含义。
·时态数据,长期抓取并且有别于无定论的快照,其包含基因表达实验中更频繁的时间节点,又或者是追踪患者体内生物标志物对抗疾病进展的10年。
此外种种,透过这些数据,我们将能在杂乱无章中梳理出关键点,并从规模化生物学中获得新的发现,而不是使混乱更为复杂。
2.多参数以及多元化生物实验正在改变生物的确认和发现数量
本文先指出了当今大量多维数据集的缺点:这些数据集汇集了基因组、表观基因组、表型、代谢组等的各种测量数据,但它们是以高度碎片化的方式完成的。当移液管的放置方式甚至也会影响一个实验时,批量效应、标准化的缺乏以及广泛聚集的数据集中固有的可变性会使他们的发现仅仅是指示性的,而不是结论性的。
这并不是说现有的数据无用,事实上,它们在一定程度上是非常宝贵的。系统的、增量的数据生成对于实现聚合数据集的全部价值至关重要。这种增量数据生成既验证了聚合数据集的见解,又填补了现有知识体系的空白。
多参数、多重实验平台新的进展,通过在单个实验中收集大量、描述丰富、标准化的数据集,正在解决增量数据生成的需求。
·多参数实验包括一次收集多个可能正交的读数。这样的变量经常同时被测量,包括细胞形态、细胞运动性、基因表达、时空变异性等等。
·多元化实验包括同时处理多种生物事件或单一类型的成分(例如同时对多个DNA片段进行测序、同时识别多个细胞表面标记物、同时检测多种不同的代谢物)特别是“库对库”的筛选方法,即针对修饰实体(抗体、小分子、T细胞受体等)筛选目标库(通常是蛋白质)。
这些“多-实验”法非常适合提高生成数据的标准程度、生产量和有效性,而这些数据集非常适合验证猜想和完善现有知识的空白,因为它们可最大化提高效率和最小化易混淆的可变性。多-实验甚至在它所增加的价值上能更进一步,当多个变量或多元测量被同时收集时,数据集返回的未来值会超出当前研究。
图源:unsplash值得注意的是,多参数和多元规模化对疾病的理解是有价值的,因为大多数复杂的疾病是许多基因、后生和环境变量的产物。多因素实验可提供规模,并确定和治疗由多因素导致的疾病。多参数和多元平台正在重塑规模的价值。以下是几个革新了生成多参数和多元数据的集团:
·多参数:RecursionPharma公司通过利用高内容成像和机器学习驱动的信息管道,支持同时收集数十种细胞表型。
·多参数:Freenome公司将无细胞DNA、甲基化和蛋白质的检测与机器学习技术相结合,以了解早期癌症检测的附加特征。
·多元化:OctantBio公司正在统一评估单个分子对数千个GPCR靶点的影响,努力寻找可能能够治疗多因素疾病(如神经退行性变和肥胖)的最佳分子。
·多元化:TangoTherapeutics公司正在进行高功率的混合CRISPR筛查,以评估基因型扰动对数千个基因同时的表现效应的影响。
3.“智能自动化”正实现生物学的可复制化和优化
如今,人们把目光投向了各种吹捧自动化平台的机器人实验室公司,但事实上,自动化对生物技术领域来说早已不新鲜。传统意义上来讲,自动化一般应用于相对简单的实验——比如DNA测序和合成,或者永生细胞系中的小分子化合物筛选。当前,实验正变得越来越智能化和自动化,这可以归因于两个领域的进步:
·自动化工作流程中传感器、读数和纵向数据收集的整合。
·基于数据收集的自动化工作流算法优化。
首先,这种进展能够以一种标准化的方式大规模地收集相关的生物学数据。仅在美国,每年就有超过亿美元用于不可再生的生物医学研究,所以这种标准化至关重要。其次,通过不断优化实验参数,生物学家们可以找到生成混淆数据最少的最优生物学实验方案。
然而,有趣的是,智能自动化和迭代使生物工具、生物技术和产品的快速迭代成为现实。智能实验量表可以确定需要修改的关键因素,然后再优化变量本身。
以基因编辑的同种异体细胞疗法的工程为例,虽然最终的目标是能够设计出一个能够摧毁癌细胞的细胞,但第一步是确定进行基因修改的“工具”。这些工具可以包括CRISPR/Cas9、TALENs、ZFNs等。
为了优化被选定的工具,智能自动化的实验将识别最需要优化的变量(例如理想的转染条件、基因编辑组件、编辑增强试剂等),然后再优化变量本身。由此产生的优化技术工具包可用于执行复杂的编辑,如位点特异性基因敲除、多重基因编辑等,从而实现优化设计的治疗。
智能自动化可以优化基因组编辑工具,以实现最佳的疗效。图源:Satpathy等人
这种优化方法与许多生物学应用相关,如病*载体设计、核酸酶工程设计、发酵生物反应器工艺、纳米颗粒输送制剂等。因此,智能自动化所致的更为频繁的开发周期,将有助于改善生物工具、产品、技术和治疗方法。
4.“全栈”生物技术正在模式化数据的生成
“全栈”的概念来自于软件的世界,意思是通过软件连接后端(数据库和架构)和前端(客户接口)。这个概念在生命科学中相对新颖,在生命科学中全栈方法有两个关键组成部分:
·实验工作流程和反应物的纵向合并。零碎的工作流程会导致不一致的结果,甚至像酶这样的生物成分也会带来扭曲。全栈式生物技术平台已经意识到了设计→性能→分析的综合实验的价值。通过将这些步骤模块化,全栈生物技术能够集成特定的模块,实现大规模可重复的实验结果。
·反馈回路支持故障排除、持续改进和“数据飞轮”。全栈硬件和穿过它的集成软件“线程”将能够沿着整个实验路径收集数据。通过这样的数据收集,人们可以排除故障、改进质量、数量和信号。此外,“数据飞轮”存在变成现实的可能。在这样的飞轮中,平台生成的每一个额外的数据点都使得后续的数据点更容易生成。
合成生物学从全栈方法中受益匪浅。在这里,生物技术集团集成了试剂工程、实验设计和执行以及输出应用等方面,而Synthego、Asimov和Gingo等公司都利用全栈平台进行大规模实验。
应用于合成生物学的全栈生物技术方法提高数量/可靠性的例子。图源:Jessop-Fabre等
5.为建立生物学的预测模型,无偏差数据和先进的计算技术正在融合
随着时间的推移,人们运用假设→检验假设→分析的科学方法发现了很多东西。这里的关键词是探索发现,因此我们经常结合巧妙和好运来解释生物学的洞察力。但是现在,一个根本性的转变正在发生,生物学家、工程师和计算机科学家正从生物规模化中获得洞见。
在这个范例中,实验数据的预期用户不是科学家,而是算法。计算技术被随意地应用到生物学中。但尽管如此,许多聪明的工具已在混乱中崛起。
例如,机器学习已被有效地应用于各种难题,如高含量细胞图像的分类、多组分数据集的预测诊断以及重新设计的药物虚拟复合屏。这些计算技术适合从复杂多维的数据集中获取信息,它们的计算和获取信息的能力非常优秀。
没有计算上的进步,就无法理解复杂的规模化生物学。图源:Goff
在规模化生物学的新时代,更有效和相关的实验使我们能够生成完全适合基于机器学习的数据集。这样的数据集在多个层次上被标记了丰富的描述符,并包括无偏差的正负实验结果。这些数据集与背景化的元数据同行,这些背景化的元数据为数据本身(从创建到处理再到管理)的过程提供了有价值的见解。
提供了对数据本身(从创建到处理再到管理)的宝贵信息,这些数据集是海量的,并且以前所未有的周期生成,也就进一步增强了算法的预测能力。
人类不善于理解因果关系,但随着规模上的精进和计算的正确应用,我们也就能够使用正确的数据集,并将在理解复杂数据集的关系上取得巨大进步。
生物学的规模化能取得什么?
图源:unsplash从根本上讲,相关、智能和有效规模将为生物研究人员和生物技术公司提供两个切实的优势:
·产生令人鼓舞的新颖的数据包。生物技术的经济价值完全取决于其临床财富,而规模化永远不会成为替代品。即使在基因组学的早期,开创规模化的公司(如Celera)也被Plexikon和Exelixis等资产驱动型公司淘汰。
然而,规模化可以社会化如下概念:更快的目标验证,更多的描述性数据包,来自遗传学和其他相对新颖领域的数据的使用。总的来说,规模化会影响生物学研究者或药物开发人员对于一个特定假设的肯定。
·实验、技术和平台的优化。规模化会引领我们开发生物技术的能力进入一个新时代,智能迭代将大大有助于公司实现从校准功能读数到设计新型病*载体的成果。
从商业意义上讲,生物技术集团有效利用规模化生产,能够在生物技术价值链(从早期研究到临床财富)中获取上游和下游价值。由于数据是从大规模有效的实验中积累起来的,一条具有竞争力的产业链将会围绕着知识产权展开,使类似的集团产生更多的经济价值。
我们已经可以开始看到相关、智能和有效规模化真正影响了生物学科探索发现的成功率,但其长期影响仍有待了解。我们必须明确开创规模化的新时代所需的工具、技术和平台,也必须明确最容易受到破坏的生物学领域和生物技术工具。
图源:Bioinformatics很少有生物学发现产生于一瞬间,但是当我们建立起对这些证据的信心,在我们能够理解、获得洞见,并采取行动来改善人类健康的道路上,我们就可以期待雪球效应。
留言点赞