01 摘要
蛋白质组学目前的研究活动的成长与基因组学早期的发展轨迹相似。基因组学花费了大概十年的时间实现了产业化。尽管蛋白质组学技术起步的时间比基因组学更早,但蛋白质组学相对更大的复杂性导致其与基因组学相比需要更先进的技术。然而,今天,蛋白质组学的重要研究瓶颈正在被不断突破,让科学家们看到了其在研究、转化和临床意义上达到与基因组学相当的水平的前景。
因此,随着时间的推移,蛋白质组学在研究和临床中应用的商业机会将与基因组学的可用市场总量(TAM)规模趋于一致,目前全球TAM已经达到500亿美元。并且我们有理由相信,由于蛋白质组学动态、变化的性质将使得其超过基因组学而转化为更加具有经常性、重复性的临床应用。
质谱是最能促进蛋白质组学工业化的技术,但其工作流程的标准化,尤其是样品制备阶段的标准化,仍然存在着挑战。对于长期投资商来说,应该对在这个生态圈中拥有于众不同知识产权的供应商给与更大的关注。尽管以基于高元多工分析方法为代表的新兴检测方法与质谱方法相比仅处于早期发展阶段,但也具有巨大的潜力。
02 背景与投资情况论述
生命的基本构成部分是核酸和氨基酸。核酸是基因的基本构成成分。氨基酸是蛋白质的基本构成成分。事实上,我们体内每个细胞的成分都可以归类于蛋白质、基因、脂质或碳水化合物这四类大分子化合物。脂质和碳水化合物组成简单不易出错。因此,最重要的是对基因和蛋白质进行深入了解。
我们对人类生物学的理解,从细胞功能到疾病的因果关系,再到药物治疗,都是我们对基因组学和蛋白质组学知识的衍生品。在20世纪,先进显微镜和生物化学技术的发明导致我们对基于结构的蛋白质和基因的理解有了很大的进步。
在21世纪,基因组学经历了一场革命,使其从一个刚刚起步的研究领域经历了工业化的过程,成为了临床生物学重要方面。这不仅使得人类对生物学有了更深更新的了解,也提供了包括液体活检诊断,CAR-T细胞治疗,甚至是mRNA疫苗的一系列新的临床治疗及诊断方法。
蛋白质组学在21世纪也取得了重要进展。这不仅是由于质谱和X射线晶体学等成像方面新技术的出现,也是由于免疫检定试剂方面的生物化学方法创新,使得我们可以分离特定的蛋白进行进一步的研究。
与基因组学相比,蛋白质组学还未取得飞跃。这并不是由于它相对于基因学的有较小的前景和应用场景,这只与它的方法的复杂性有关。我们认为,下一个十年蛋白质组学将进入快车道,使生物学研究、医学治疗和诊断方面进入一个以蛋白质为中心的新时代。
蛋白质组学的挑战。超过95%的获得FDA批准的药物都是以蛋白质为目标,但蛋白质组中的多数组分却尚未被人们所了解。
我们相信,十年后,西方国家的蛋白质组学公司所创造的股权价值将与今天基于基因组学的公司所创造的约2500亿美元的市值相当或更多。
创新的速度正在加快:
在1869年由弗里德里希-米歇尔(Friedrich Miescher)发现核酸之后近85年才由沃森和克里克于1953年发现了DNA双螺旋。
从沃森和克里克的发现到2001年第一个人类基因组序列的发表花费了近50年时间。
从2001年人类基因组的第一份草图到2021年7月公布的第一份完整序列花费了20年时间。
总而言之,从核酸发现到确定完整的人类基因组花费了近155年的时间。在接下来的155年里,创新的速度将呈指数型增长,而蛋白质组学将是其中最大的受益者。
03 蛋白质组学的今天:挑战与机遇
什么是蛋白质组学?它为什么重要?
图一:蛋白质组学受益于多种技术跨越式进步
蛋白质组学作为一个术语首次出现在1996年,它被定义为对一个细胞系的整个蛋白质图谱进行大规模表征。
蛋白质组学的要点是完整性和深度:通过检测和解读该细胞中的所有蛋白质的作用以及相互作用来彻底了解细胞功能,而不是应用传统的通过抗体分离已知蛋白质的方法单独检测每个蛋白质。
基于抗体的蛋白质检测将继续在后续的工作中得到应用,但蛋白质组学是针对所有蛋白质,它们的相互作用,及其多种形态的大规模、高通量、高灵敏度的分析。因为蛋白质修饰和相互作用出错是发生疾病的通常原因,蛋白质组学研究对理解造成疾病发生的原因非常重要,
Source: Graves PR, Haystead TA., Molecular biologist’s Guide to Proteomics (2002)
04 蛋白质组学和基因组学之间的关系是什么?
当马克-威尔金斯(Mark Wilkins)在1996年首次使用蛋白质组学一词时,他明确表示他指的是“基因组的补充”。
基因是细胞的说明书。通过RNA的表达,他们指示细胞要构建哪些蛋白质。蛋白质细胞构建之后,它们通过与其他蛋白质和环境的相互作用而被翻译和修饰。
因此,1) 基因组学的大部分功能效用通过蛋白质组体现;2) 下游事件-包括蛋白质间的相互作用,新的蛋白质形态和动态修饰的产生,及其对细胞分裂的影响-是蛋白质组学而不是基因组学的主题。
Source: Virag D, Dalmadi K B. Current Trends in the Analysis of Post-translational Modifications (2020)
因此,基因组学和蛋白质组学是相互关联的,而不是分开的,但蛋白质组学在功能上更为重要及复杂。有25000个独立的基因,但有超过100万种蛋白形式。
虽然一个人的基因组不会改变,但一个人的蛋白质组是动态的。身体里的变化是通过蛋白质的修饰来表达的。你出生时的基因组和今天一样。但你的蛋白质组每天都在变化。
05 为什么蛋白质组学研究如此困难?
1. 分子的复杂性和多样性
Source: Creative-Proteomics.com
蛋白质分子本身的分子结构更为复杂。DNA是由4种核苷酸组成的,而蛋白质是由20种不同的氨基酸组成的。
翻译后修饰,如甲基化和羟基化,改变了蛋白质的形态和功能。
每个蛋白质可以有9种不同的蛋白形式。取决于翻译后修饰和蛋白质间的相互作用。这意味着同一个蛋白质可以有9种不同的功能。
DNA的分子结构相对简单,有4种核苷酸变体,这意味着基因测序方法(如合成测序)不能应用于蛋白质组。需要新的、更复杂的、定制的方法来捕获生物样本中数百万种不同的蛋白质形态。
2. 动态范围问题
Source: Montanaro Research; Aebersold R., Targeted Proteomic Strategy for Clinical Biomarker Discovery (2009)
Y轴表示血浆样品中特定蛋白质分子的浓度和丰度。虽然有些蛋白质的含量极高,但大多数蛋白质类型的浓度很小,甚至可以忽略不计。
红圈中的蛋白质存在于蛋白质组的“黑暗角落”,在这种极低的丰度下,这些蛋白质非常难以测得。大多数蛋白质的丰度极低。在血浆细胞中发现的约12,000个独立的蛋白质中,前10个占总蛋白量的90%,而其他约11,990个仅占10%。
3. 少数的暴政
如下饼图显示了血浆样品中蛋白质的相对丰度。单一的一种蛋白质,即血浆白蛋白,占了57%的总丰度,使读取其余的1万种蛋白质更加困难。
Source: Anderson NG., Molecular Cell Proteomics (2002)
06 蛋白质组学市场机遇有多大?
我们相信,蛋白质组学在分子生物学研究以及临床医学和诊断方面有与基因组学一样远大的前景。
Source: Montanaro Research
自2001年第一个人类基因组的组装以来,基因组学已经成为生物医学的一个工业化部分, 纯基因组学公司的总市值达到2400亿美元。Illumina是其中最大的公司。
蛋白质组学TAM(可用市场总量)如今已经达到数百亿美元。
Somalogic estimate the total TAM to be $50 bn (Source: Somalogic)
虽然临床应用方面的TAM具有最大的长期潜力,但在未来5年内研究和发展方面的TAM是最容易解决的。
Source: Souda P., Proteomics: The Next Frontier, SVB Leerink (2021)
SVB Leerink的蛋白质组学专家Puneet Souda估计,目前仅美国的研发TAM 有140亿美元,这基于学术界和制药业共约 26,100 个实验室总经费的2.5%的保守估计。
如果我们把西方国家的实验室数量看作是约50,000个,并更合理的假设占总经费的5%的资金分配给蛋白质组学研究,我们估计在全球发达经济体中的蛋白质组学研发TAM为500亿美元。