第 4 步
CodePipeline (code)管道将部署代码库(genomics、imaging 和 omics) CloudFormation 堆栈。 CodePipeline 管道完成设置后,您账户中部署的资源包括 Amazon Simple Storage Service (Amazon S3)桶,用于在数据湖中存储对象访问日志、构建构件和数据;用于源代码的 CodeCommit 存储库;一个用于构建代码构件的 CodeBuild 项目;一个 CodePipeline 管道,用于自动执行资源的构建和部署; AWS Glue 作业、爬网程序和数据目录的示例;以及一个 Amazon SageMaker Jupyter notebook 实例。

当您在云中构建系统时, AWS Well-Architected Framework 可以帮助您了解所做决策的利弊。框架的六大支柱使您能够学习设计和操作可靠、安全、高效、经济高效且可持续的系统的架构最佳实践。使用 AWS 管理控制台 中免费提供的 AWS Well-Architected Tool ,您可以通过回答每个支柱的一组问题,根据这些最佳实践来检查您的工作负载。

上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。

本指导使用 CodeBuild CodePipeline 构建、打包和部署解决方案中所需的一切,以提取并存储变体调用文件(VCF)并处理来自癌症基因组图谱(TCGA)和癌症成像图谱(TCIA)中的数据集的多模式与多组学数据。使用完全托管的服务 - Amazon Omics 演示无服务器基因组学数据摄取和分析。在解决方案 CodeCommit 存储库中所做的代码更改将通过提供的 CodePipeline 部署管道进行部署。

阅读《卓越运营》白皮书

本指导通过 IAM 使用基于角色的访问,所有桶都已启用加密,成为私有桶,阻止公共访问。 AWS Glue 中的数据目录已启用加密,通过 AWS Glue 写入到 Amazon S3 的所有元数据也已加密。所有角色都定义为最低权限,服务之间的所有通信都保留在客户账户内部。管理员可以控制 Jupyter notebook, Amazon Omics 变体存储的数据和 AWS Glue 目录数据访问使用 Lake Formation 进行完全管理, Athena SageMaker Notebook 和 Amazon QuickSight 数据访问通过提供的 IAM 角色进行管理。

阅读《安全》白皮书

AWS Glue Amazon S3 Amazon Omics Athena 均为无服务器式,将可随着数据量的增加扩展数据访问性能。 AWS Glue 会预调配、配置和扩展运行数据集成作业所需的资源。 Athena 为无服务器模式,因此您可以快速查询数据,而无需设置和管理任何服务器或数据仓库。 QuickSight SPICE 内存存储可将您的数据探查扩展到数千个用户。

阅读《可靠性》白皮书

使用无服务器技术,您只需预调配自己使用的准确资源即可。每个 AWS Glue 作业都将预置按需 Spark 集群,以转换数据并在完成后取消预置资源。如果您选择添加新 TCGA 数据集,则可以添加新 AWS Glue 作业以及还将提供按需资源的 AWS Glue 爬网程序。 Athena 将自动并行执行查询,因此在数秒内可返回最多的结果。 Amazon Omics 通过将文件转换为 Apache Parquet 来大规模优化变量查询性能。

阅读《性能效率》白皮书

使用可按需扩展的无服务器技术,您只需为自己使用的资源付费。为了进一步优化成本,当不再使用时您可以在 SageMaker 中停止笔记本环境。 QuickSight 控制面板也通过单独的 CloudFormation 模板部署,因此如果您不打算使用可视化控制面板,则可以选择不部署它以节省成本。 Amazon Omics 大规模优化变体数据存储成本。查询成本由 Athena 扫描的数据量决定,可以通过编写相应的查询来优化。

阅读《成本优化》白皮书

本存储库在 AWS 创建可扩展的环境,为大规模分析准备基因组、临床、突变、表达和成像数据,并对数据湖执行交互式查询。该解决方案演示了如何 1) 使用 Amazon Omics 变体存储和注释存储来存储基因组变体数据和注释数据,2) 预调配无服务器数据摄取管道以进行多模式数据准备和目录编制,3) 通过交互式界面可视化和探查临床数据,4) 使用 Amazon Athena 和 Amazon SageMaker 对多模式数据湖运行交互分析查询。

提供了在 AWS 账户中进行实验和使用的详细指南。构建指南的每个阶段(包括部署、使用和清理)都将被检查,以便为部署做好准备。

示例代码为起点。它经过行业验证,是规范性但不是决定性的,可以帮助您开始。

AWS 对 Internet Explorer 的支持将于 07/31/2022 结束。受支持的浏览器包括 Chrome、Firefox、Edge 和 Safari。 了解详情 »