大数据时代的流行病学研究：机遇、挑战与展望

喜欢

来源：互联网
|
2021-02-05
|
0 条评论
|
T小字　 T大字

前沿

近年来，高通量组学技术迅速发展，互联网和信息技术飞跃进步，大数据开发工具逐渐涌现，健康医疗大数据的研究价值开始受到重视。作为一门与数据息息相关的学科，流行病学正处于“大健康”“大数据”“人工智能”时代带来的学科发展机遇期，但在数据标准化与共享、检测技术与分析方法、法律和伦理规范与制度等方面尚存在诸多挑战。本文将分析大数据时代流行病学研究的机遇和挑战，探讨未来学科的发展方向，为大数据时代的流行病学研究提供参考。

一、大数据时代流行病学研究的机遇

1. 高通量组学技术的发展：

人类基因组计划启动以来，以新一代测序技术和质谱技术为代表的高通量组学技术的突破，推动了基因组、表观遗传学、转录组、蛋白质组、代谢组、微生物组等生物医学组学数据的指数级增长。与此同时，计算机科学、生物信息学和数理统计学的飞速发展使得组学数据分析的障碍逐渐消除。以人群为基础的基因组研究、甲基化研究、代谢组研究等组学研究方兴未艾，在探索疾病病因和寻找可能的干预靶点方面取得了重大突破，也为未来的医学研究提供了丰富的数据资源。

2. 人群队列研究数据和样本资源的积累：

队列研究是探讨疾病致病因素和评价干预措施的有效方法，也是将基础研究转化应用到疾病防治实践的重要途径。许多发达国家已将构建具有生物样本库的超大规模人群队列作为战略布局，如英国生物样本库、丹麦国家生物样本库、美国百万老兵项目，以及美国“All of Us”研究计划。我国流行病学工作者通过国内外合作，建立了一批具有生物样本库的大型人群队列，如中国慢性病前瞻性研究和泰州人群健康跟踪调查队列。“十三五”期间，我国依托国家重点研发计划启动了精准医学重点专项和重大慢性病防控重点专项，建立了百万级自然人群队列和重大疾病专病队列。同时，基于双生子、母婴、老年人等特殊人群的队列也逐渐涌现，如国家出生队列、中国健康与退休前瞻性队列等。这将为未来开展全组学设计的流行病学研究创造条件。

3. 大数据和互联网技术的发展：

当今科学技术高速发展，以物联网、互联网、移动智能、云计算、大数据为代表的信息技术广泛运用于医疗领域，医疗信息化得到全面、快速发展。在我国，国家政策已深入医疗信息化改革，各地正大力推进以电子病历为核心的医院信息化建设，积极探索并建立以电子健康档案为核心的区域医疗信息平台。医疗信息化的广泛应用在科学研究、医疗服务、健康保健和卫生管理过程中形成了健康医疗大数据（health care big data）。我国于2019年7月发布的《健康中国行动（2019-2030年）》中指出“鼓励和支持科研机构与高新技术企业深度合作，充分运用互联网、物联网、大数据等信息技术手段，开展大型队列研究……”。在我国，疾病登记、死亡登记、医院质量监测系统等数据已经应用于疾病负担估计和病因探索。我国搭建了一些健康医疗大数据平台，如国家生物信息中心和中国队列共享平台等。

4. 人工智能技术的发展：

健康医疗大数据的应用前景取决于对这些数据进行多层次的挖掘和全方位的整合，增进对人类健康或疾病的理解。传统的统计方法无法适应大数据分析的要求。而以机器学习和深度学习为代表的人工智能技术在大数据分析中的应用正呈现爆发式增长，在流行病学监测、疾病诊断、病因学研究、风险预测等方面显示出巨大的应用潜力。例如，有研究者将深度卷积神经网络模型用于超声图像进行甲状腺癌诊断，模型的灵敏度和特异度均高于85%；机器学习算法中的特征选择技术能够从高维数据中识别相关特征，被广泛应用于组学数据和临床数据的整合分析，从而形成病因假设、预测疾病风险及预后。人工智能技术的发展将为大数据时代的流行病学研究提供方法支撑。

5. 流行病学研究方法的发展：

近年来，组学数据分析方法日趋成熟，数理统计、人工智能等技术的进步推动了大数据的有机整合，流行病学研究也取得了长足发展。健康医疗大数据极大地丰富了潜在危险因素图谱，有利于提出更多的病因假设。其丰富的表型组信息有助于目标遗传变异与全部健康结局的关联分析，全表型组关联研究（PheWAS）应运而生。大数据拓宽了可研究的工具变量，为孟德尔随机化研究提供了新机遇。电子健康档案的普及和完善推动了时效性临床试验（PCT）的发展，PCT在真实世界中评价预防干预措施的效果，与传统的随机对照试验互为补充，助力干预措施的效果评价。大数据时代为流行病学研究提供了前所未有的机遇，将推动基础医学研究成果向公共卫生和临床实践的转化应用。

图片来源：图虫创意

二、大数据时代流行病学研究面临的挑战

1. 我国健康医疗大数据来源、收集和管理的共享机制尚不成熟，形成数据孤岛：

我国健康医疗大数据的共享管理机制尚不成熟，导致大量数据分散在不同的实验室和机构内部。来源于各个机构、领域的数据往往使用不同的系统和软件平台，数据收集、存储和管理的标准规范也各不相同，多来源的数据在格式、结构、语义关联、质量等方面都存在差异。这些因素严重制约我国健康医疗大数据的整合共享与转化利用。如何实现数据的标准化和规范化，将跨机构、跨领域、跨平台的数据库打通共享，是目前大数据使用面临的重大挑战之一。

2. 健康医疗大数据存在系统误差，影响暴露-结局之间关联的真实性：

相对于传统的随机抽样，大数据通常来自具有某些特征的人群（如医院就诊人群、携带可穿戴设备人群），可能存在选择偏倚。多源异构的健康医疗大数据存在表型定义的不确定性、变量测量的不准确性和数据缺失等问题，造成信息偏倚；部分信息的测量方法和获取途径难以得知，为质量控制带来困难。健康医疗大数据存在大量噪声信号，大规模地探索疾病结局有关的因素而忽略因果关系判断的准则，可能导致疾病影响程度的错误估计、触发错误警报、造成虚假关联和生态学谬误。此外，基于健康医疗大数据的流行病学研究属于观察性研究，存在混杂和反向因果关联等诸多问题。因此，大数据时代的流行病学研究应注意对研究质量的严格控制，实现数据收集与处理的标准化和规范化，重视因果关系判断的基本要素，确保结论的可靠性。

3. 组学检测技术有待发展完善：

在大规模人群开展多组学检测依赖于成熟的高通量组学技术，其对样本和检测条件的要求不高，检测成本低廉、检测方法快速、结果稳定性和准确度高。目前基因组测序仍存在一定的错误率；蛋白质组和代谢组检测平台之间的技术差异增加了数据标准化和可重复性评估的难度。组学检测技术仍有待发展完善。值得一提的是，近几年迅速兴起的单细胞转录组测序不仅揭示出不同细胞类型之间的异质性，而且可以发现全新的细胞类型。今后，单细胞测序技术将逐步扩展到基因组、表观遗传学、蛋白质组等，为研究者在单细胞水平探索疾病发生发展机制打开崭新视角。

4. 健康医疗大数据分析、整合与存储的关键技术需要新的突破：

多组学生物统计和生物信息方法有待进一步提高。基因、蛋白质、代谢物等所构建的调控网络极为复杂，如何整合多组学信息以形成系统层面的理解是健康医疗大数据研究面临的重要挑战之一。由于每个组学数据都存在一定的偏倚和变异度，需要针对不同组学数据建立可靠的统计分析框架。而对多组学数据进行整合分析时，则需要更复杂的多维统计方法，如贝叶斯模型、神经网络等。健康医疗大数据来源广泛，种类繁多，包含结构化、半结构化、非结构化等不同的数据类型。然而，当前缺少统一的数据标准和规范，导致不同层次、不同类型的数据整合困难。如何对半结构化（如电子病历）、非结构化（如心电图、医学影像资料）和对流数据（实时视频、传感器数据、医疗设备监测数据）进行处理，是健康医疗大数据分析面临的又一重要挑战。此外，临床诊疗大数据、健康监测数据等非科研数据存在信息缺失（通常为非随机性缺失）和测量、记录不准确等数据质量问题；如何进行数据预处理和数据清理以保障研究结果的可靠性是大数据研究亟须解决的重要问题。除了数据分析以外，健康医疗大数据的存储和分析需要巨大的计算资源。目前适用于大数据的软硬件平台，大数据存储、传输、高性能计算和云计算等技术尚不成熟。这些因素制约着健康医疗大数据的研究、转化和应用。

5. 健康医疗大数据的法律和伦理规制已成为亟待解决的问题：

健康医疗大数据在存储、共享、分析、挖掘等过程中存在个人信息权、隐私权可能受侵害的风险和数据安全的隐患。如何对健康医疗大数据进行法律和伦理上的规制，已成为亟待解决的问题。我国应尽快推动个人健康信息和隐私保护相关法律法规的立法，明确电子健康信息在存储、管理、利用、交换各环节的权责归属与过程标准，促进数据安全技术的与时俱进。相关部门应从保护个人安全和公平的角度，合理界定伦理风险，把握伦理审批的界限。我国在2019年颁布《人类遗传资源管理条例》，迈出了大数据安全与伦理规制的探索性尝试。2020年，国家药品监督管理局相继发布《真实世界证据支持药物研发与审评的指导原则（试行）》、《用于产生真实世界证据的真实世界数据指导原则（征求意见稿）》和《真实世界数据用于医疗器械临床评价技术指导原则（试行）》，指出“真实世界研究涉及个人信息保护应遵循国家信息安全技术规范、医疗大数据安全管理相关规定”，要求实行个人信息保护和数据安全性处理，拉开了我国监管机构从监管层面构建真实世界数据使用框架体系的序幕。

三、大数据时代流行病学研究的发展展望

1. 高质量人群队列的建设：

随着电子健康档案的普及和完善，将电子健康档案与基于生物样本库的多组学数据以及其他常规数据（如出生登记、死亡登记、环境监测数据等）互融互通而建立大型动态队列已成为流行病学研究的热点。由于研究资源和经费的限制，大规模前瞻性队列难以实现全表型的收集和全组学的检测。因此，选择具有代表性的研究对象，使用最先进的技术收集队列成员的表型组信息，进行多次动态随访，采集和储存多时点生物标本，开展多组学检测，由此构建精细队列，具有深远的研究价值。

2. 严格的流行病学研究设计和质量控制：

严格的流行病学研究设计和质量控制是高质量队列研究的重要保障。队列成员的多样性是研究结果外推应用于全人群的关键。美国“All of Us”研究计划将人群多样性作为队列建设的首要目标，其80%的队列成员为弱势群体。队列研究应注意提高应答率和依从性，避免选择偏倚。队列信息的类型和深度应综合考虑其与健康结局的相关性、检测方法的可靠性和研究经费。队列随访方面，近年来“成人疾病胎源说”备受关注，理想的随访应实现“从摇篮到坟墓”的终身观察；随访间隔将视研究结局的变化速度，研究的人力、物力等条件而定。

3. 健康医疗大数据管理和共享平台的建设：

大数据是国家重要的基础性战略资源。许多发达国家很早就开始重视大数据的收集、管理、分析和应用，建立起一批健康医疗大数据中心，如美国国家生物技术信息中心（NCBI）、欧洲生物信息学研究所（EBI）以及日本DNA数据库（DDBJ）等。2019年，我国成立国家生物信息中心（CNCB），承担国家生命与健康大数据汇交存储、安全管理、开放共享与整合挖掘研究体系的建设，研发大数据前沿交叉与转化应用的新方法和新技术，建成支撑我国生命科学发展、国际领先的基因组科学数据中心（NGDC），迈入了新的历史发展阶段。

4. 基于队列研究的群体基因组学和系统流行病学研究：

随着高通量组学技术和健康医疗大数据的发展，系统流行病学应运而生。系统流行病学借助系统生物学、流行病学、计算数学等技术，将人体从暴露组，到基因组、表观遗传组、蛋白质组、代谢组等，再到临床表型组的各个层次有机地整合在一起进行研究，从而深入理解多层次因素间复杂的关系网络及其相互作用，实现人群层面“暴露因素-组学标志物-疾病结局”的病因学推断。在此基础上，系统流行病学将构建以病因网络为基础的疾病风险预测模型，推动“精准预防”理念的实现。

5. 多学科交叉、复合型人才的培养：

大数据时代对流行病学专业人才提出了更高的要求，包括扎实的流行病学理论基础，丰富的流行病学研究经验，对大数据进行深入挖掘，做出有价值的分析、判定和预测的能力。流行病学研究应聚焦国家重大需求，加强学科交叉融合，打破行政壁垒，加快交叉学科人才引进与培养，促进跨学科的合作与协同创新，完善促进跨学科合作的学术评价和成果共享机制，让微观和宏观流行病学有机地结合起来。注重系统整合协同，坚持开放创新，组建多学科、多领域、多系统融合的创新大团队。

四、总结

大数据时代为流行病学提供了丰富的数据资源和广阔的科研平台。流行病学应抓住机遇，开辟新方向、发展新方法。今后有望在流行病学、计算机科学、临床医学、生命科学等学科的共同参与下，推动医学基础研究成果向公共卫生和临床实践的转化应用，提高疾病防控技术水平，促进健康发展，实现“健康中国”的美好愿景。

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186