高度多样化样品的全自动高通量宿主细胞蛋白分析
文章名称:Fully Automated High-Throughput Host Cell Protein Analysis of Highly Diverse Samples
Abstract:
At Novozymes we use bacterial and fungal hosts to manufacture bulk enzymes for a variety of industries. As with all recombinant protein manufacturing processes, host cell proteins (HCPs) are a major source of contamination that can adversely affect product stability and performance. By offering proteome-wide coverage of multiple organisms, mass spectrometry (MS) based HCP analysis is ideally suited to analyze samples from different hosts and strains. However, to keep pace with the large number of samples that our lab is required to analyze, we recognized the need to automate and streamline each stage of our LC-MS approach. Implementing robotic sample preparation, a shortened HPLC separation step, and high-speed MS acquisition increased sample
throughput but generated large amounts of complex data requiring time-consuming analysis and review. To overcome this decisive bottleneck, we worked together with Genedata’s scientific experts to configure and implement a tailored but highly flexible workflow, while technical consultants facilitated the integration of Genedata Expressionist enterprise software into our corporate data management infrastructure. This combination ultimately delivered a fully automated, truly high-throughput (HT) HCP analysis solution that can handle a wide range of sample types and sources.
研究背景
在重组蛋白生产过程中,宿主细胞蛋白(HCPs)是一个主要的污染源,会对产品的稳定性和性能产生不利影响。通过提供多种生物体的蛋白质组全覆盖,基于质谱(MS)的HCP分析是分析来自不同宿主和菌株的样品的理想选择。采用机器人样品制备、缩短的HPLC分离步骤和高速的MS采集提高了样品通量,但产生了大量复杂的数据,需要耗时的分析和审查。为了克服这一方法的瓶颈,作者与Genedata的科学专家一起工作,配置并实现一个量身定制但高度灵活的工作流,同时技术顾问促进了将Genedata软件集成到企业数据管理基础设施中。这种组合最终提供了一个完全自动化的、真正高通量(HT)的HCP分析解决方案,可以处理广泛的样本类型和来源。
主要挑战
1. 实现高温HCP分析,无论样品来源
低浓度HCPs的检测具有挑战性,通常需要对参考样品进行广泛的表征,以创建特定的HCP数据库和/或质谱库。然而,样本的宿主和来源范围广泛,这使得这种方法不切实际。因此,需要靠基因组数据库来进行HCP识别。
2. 利用有限的资源跟上不断增长的数据量
作者每天分析200个样本将导致每周生成几tb的复杂MS数据,因此需要人工干预的数据处理软件包。
3. 信息在组织中的有效传播
HCPs的存在严重影响产品质量,因此需要在产品和工艺开发的不同阶段对其进行分析。
解决方案
1. 一个真正的高通量HCP分析数据工作流
使用前沿的Evosep和Bruker timsTOF仪器优化样品制备和加速MS数据采集,增加了样品通量。为了达到所需的HCP分析通量,我们通过自动化MS数据工作流消除了数据处理、分析和报告中的所有瓶颈。所有操作都在Genedata Expressionist工作流中自动执行,该工作流通过命令行界面和专用插件完全集成到企业IT基础设施中(图1)。
图1. 样品和数据处理工作流程的优化和自动化可以在24小时内分析整个96口井板;吞吐量比以前的方法增加了五倍。
2. 自动MS数据预处理和压缩
在一个完全自动化的过程中,将实验原始数据传输到一个集中的数据存储服务器,Genedata Expressionist在该服务器上执行关键步骤,如降噪、平滑和强度阈值化。这个预处理步骤保留了所有相关的信号,同时支持数据量的5到10倍压缩,大大减轻了我们的IT基础设施的压力,并加速了下游分析。后续基于蛋白质组学的HCP分析工作流程针对特定的实验方案(包括Bruker timsTOF MS仪器)进行了设计和优化,并配置为无需人工干预的连续工作。
3. 智能、自动化、特定于样本的数据分析
Genedata Expressionist无缝集成到我们的数据基础设施中,使我们能够利用其他公司数据库的信息。通过从Novozymes中心知识库自动检索样本元数据,Genedata Expressionist执行特定样本的数据处理、分析和报告。进一步的样本信息(如名称和ID、分析日期和最终报告的预期目的地)可以直接从公司LIMS标识符获得。MS和MS/MS峰被自动检测并提交到蛋白质组学搜索引擎(Mascot, Matrix Science),连同样本元数据中定义的宿主生物序列信息。
4. 自动生成可定制的报告,并将其导入公司数据库
该软件自动执行统计分析,如主成分分析(PCA)和小提琴图创建,并生成预先配置的报告,其中包含已识别HCPs的定性和定量结果。将Genedata Expressionist无缝集成到我们的公司数据湖中,使我们能够利用所有MS数据、信息和见解来告知和指导多个上下行过程,如应变表征、表达轮廓建模和过程变化监测。
优势
1. 与不断增长的MS数据量保持同步
使用Genedata Expressionist将HCP分析数据处理自动化,使我们可以在不到一天的时间内获得结果。尽管增加了样本数量,MS数据处理有效地提高了实验室的整体工作周期,并在不增加员工的情况下保持HCP分析周转时间。此外,使用单一软件平台进行MS数据处理消除了与以前的方法所需的多个软件包相关的维护和培训成本。通过自动生成定制的报告,实现的工作流还允许更有效地利用我们专家的知识、技能和时间,这些报告通常是一夜之间创建的,第二天早上就可以查看。
在专用的、可扩展的服务器上实现完全自动化的端到端解决方案,使我们的实验室每周产生的tb数据能够快速和无偏处理。
2. 全自动交付高质量的结果
在Genedata Expressionist工作流中,每一个数据处理步骤都可以被精确配置,以应用针对实验条件和特定仪器(Bruker timsTOF)在采样基础上优化的参数。通过将显著节省的时间与灵敏准确的HCP分析相结合,这种智能的自动化方法提供了比通用的“一刀切”处理方法更高质量的结果,最终确保我们的产品的最高质量。
此外,将我们的HCP分析自动化,并使用单一软件平台进行所有MS数据处理、分析和报告,不仅排除了人为因素影响结果的风险,而且还提供了标准化和可重复的处理,显著提高了结果的质量。
3. 促进知识共享和快速决策
通过自动分发包含针对相关涉众定制的信息的定制报告,Genedata Expressionist工作流促进了我们整个组织的协作,并允许在出现质量问题时及时干预。数据和结果可以在任何时候通过专用服务器安全地访问,使我们能够做出更快、更好的决策,即使在远程工作时也能保持高水平的生产力。这些信息也丰富了我们的企业知识库,并支持我们内部客户在生物工艺开发和质量控制方面的决策过程。
研究结论
在开发一个真正高通量的基于ms的HCP分析平台时,优化和自动化样品制备和数据采集提高了通量。与Genedata一起,作者开发了一种智能、自动化、元数据驱动的MS数据处理工作流,与之前的方法相比,该方法的通量提高了5倍,而不需要任何人工干预。
通过采用这个解决方案,我们能够克服MS数据处理的关键瓶颈,并达到每天200个样本的通量目标。尽管不断增加的样本数量和有限的人员和计算基础设施,这种生产率的显著提高使我们能够在提高数据质量的同时保持HCP分析周转时间。