如何建立一个快速,可靠的S3到EC2连接建立一个、可靠、快速

2023-09-11 09:19:42 作者:孤人自嘲

EC2提供了一个非常方便的,按需可伸缩的机制来执行分配(并行izable)工艺和S3提供了可靠的存储服务。

EC2 provides a very convenient, on-demand scalable mechanism to execute distributable(parallel-izable) processes and S3 provides a reliable storage service.

我是想聘请一个ETL和放大器EC2节点;分析的过程,这个过程需要大量的数据(100GB - 1TB)的。摄入非常迅速(并多次在一天)和足够的计算资源来提供很短的时间

I was trying to employ EC2 nodes for a ETL & analytics process, this process needs large amount of data(100GB - 1TB) ingested very quickly (and several times in a day) and adequate compute resources to be made available for a short duration.

以上的设计需要

在高带宽/ S3和EC2之间的快速连接。 S3 - > EC2连接也应该是可靠的,因为首发的安排,抽入数据,执行进程和终端节点,必须尽快不仅节省成本,而且还因为SLA的参与完成

但目前还

的拉出数据S3的唯一手段似乎是通过http,因此它是由EC2节点的下载带宽约束。 同样的数据摄取去在互联网上,因此可够不可靠了严格的调度的目的,在整个工作因此需要足够的缓冲。

在一个私有数据中心设置一台可设置存储和物理节点之间的快(比如10Gbps的)专用线。

In a private data-center setup one can setup a faster (say 10Gbps) dedicated line between storage and physical nodes.

是否有万一AWS,可以解决上述要求的任何可能的替代品/服务的选项。

Are there any possible alternatives/services options in case of aws that can address the above requirements.

推荐答案

依赖,巨大的,对各种各样的东西 - 在同一个物理服务器上的其他EC2实例多少网络活动都在做,具体的S3节点你打在任何一个时间,不管你是在同一地区作为您的S3端点等。

Depends, hugely, on all sorts of things - how much network activity the other EC2 instances on the same physical server are doing, the particular S3 node you're hitting at any one time, whether you're in the same region as your S3 endpoint, etc.

您可以基准自己,但即使如此,它会相差很多。我已经在其他时间变得多兆字节每秒的时间和几百千字节。

You can benchmark yourself, but even then it'll vary a lot. I've gotten multiple megabytes per second at times and a couple hundred kilobytes at other times.