AWS data transfer solutions 是負責在地端系統、第三方,以及 AWS 各 Region 之間搬移資料的服務——讓你不必自己寫一個在凌晨兩點掛掉的 rsync 迴圈。SAA-C03 Task 3.5(「決定高效能資料擷取與轉換解決方案」)會考你能否看著一個遷移情境——「我們資料中心有 500 TB、WAN 線路 100 Mbps、必須在 30 天內完成切換」——然後立刻從 AWS DataSync、AWS Snowball Edge、AWS Snowmobile、AWS Transfer Family、AWS Storage Gateway、AWS Direct Connect、S3 Transfer Acceleration、AWS Database Migration Service(DMS)中選出正確答案。這份學習筆記涵蓋 SAA-C03 範圍內的每一項 AWS data transfer solution,深入剖析線上對離線的決策樹,並透過充分的重複練習,讓你能在 30 秒內排除錯誤選項。
AWS data transfer solutions 是 Domain 3 中最常出題的主題族群之一,因為這類題目都是情境題。考試幾乎不會問「DataSync 是什麼」,而是問「你有 90 TB、1 Gbps 線路、10 天時間,請選出 AWS data transfer service」,並要求你心算作答。請先記住決策樹,再記各服務細節,最後記常見陷阱。
什麼是 AWS Data Transfer Solutions?
AWS data transfer solutions 是一組受管服務、實體設備與網路產品,讓資料能在不需要你自己搭配管線的情況下,流入、流出 AWS,或在 AWS 內部各處移動。它們分為四大類:
- 線上網路傳輸 — AWS DataSync、AWS Transfer Family、S3 Transfer Acceleration、AWS Storage Gateway。資料經由公共網際網路、VPN 或 AWS Direct Connect 傳輸。
- 離線實體傳輸 — AWS Snow Family(Snowcone、Snowball Edge Storage Optimized、Snowball Edge Compute Optimized,以及現已停止新訂單的 Snowmobile)。AWS 真的會把一台加固設備寄給你,讓你載入資料後再寄回去。
- 資料庫與結構描述遷移 — AWS Database Migration Service(DMS)與 AWS Schema Conversion Tool(SCT)。DMS 支援同質遷移(Oracle→Oracle)及異質遷移(Oracle→Aurora PostgreSQL),並提供持續複寫功能。
- 專用 bandwidth — AWS Direct Connect。從你的資料中心到 AWS Direct Connect 節點的私有光纖線路,適合在公共網際網路速度太慢、費用太高或穩定性不足時,用於持續性的大量傳輸。
AWS data transfer solutions 與 AWS 儲存服務不同:儲存服務(Amazon S3、Amazon EBS、Amazon EFS、Amazon FSx)負責保存資料;AWS data transfer solutions 負責把資料從 A 搬到 B。大多數真實的遷移專案會結合兩者——DataSync 負責搬移資料,S3 負責儲存,Glue 負責轉換。
AWS Data Transfer Solutions 一覽
| 服務 | 線上或離線 | 主要使用情境 | 來源/目的地 |
|---|---|---|---|
| AWS DataSync | 線上 | 自動化一次性或週期性大量複製 | NFS / SMB / HDFS / S3 / 地端物件儲存 → S3 / EFS / FSx |
| AWS Transfer Family | 線上 | 受管 SFTP / FTPS / FTP / AS2 合作夥伴檔案接收 | 外部 SFTP/FTPS/FTP/AS2 用戶端 → S3 / EFS |
| AWS Storage Gateway | 線上(混合雲) | 持續性地端 ↔ AWS 整合 | NFS / SMB / iSCSI / VTL 地端 ↔ S3 / EBS 快照 / Glacier |
| S3 Transfer Acceleration | 線上 | 加速從各地上傳至單一 S3 儲存貯體 | 任何網際網路用戶端 → 經 CloudFront 邊緣節點 → S3 |
| AWS Direct Connect | 線上(專用) | 高 bandwidth、低延遲、穩定傳輸管道 | 地端資料中心 ↔ AWS Region |
| AWS Snowcone | 離線(堅固耐用,8/14 TB) | 邊緣/小型離線傳輸 | 地端 → 寄回 → S3 |
| AWS Snowball Edge Storage Optimized | 離線(約 80 TB 可用) | 中大型離線傳輸 | 地端 → 寄回 → S3 |
| AWS Snowball Edge Compute Optimized | 離線 + 邊緣運算 | 邊緣處理加上傳輸 | 地端 → 寄回 → S3 |
| AWS Snowmobile | 離線(最高 100 PB,已停止新訂單) | 資料中心規模的大規模遷移 | 地端貨櫃車 → S3 |
| AWS Database Migration Service | 線上(資料庫感知) | 資料庫遷移,支援持續複寫(CDC) | 來源 DB → 目標 DB(RDS、Aurora、Redshift、DynamoDB、S3 等) |
白話文解釋 AWS Data Transfer Solutions
直接用白話文加三個類比把 AWS data transfer solutions 講完。
類比一:便利商店宅配系統(線上 vs 離線傳輸)
把 AWS data transfer solutions 想像成台灣的宅配體系。如果你只要寄一封信到隔壁縣市,塞進超商集貨箱,隔天到——這就是線上傳輸(DataSync、Transfer Family、S3 Transfer Acceleration)。路網(你的網路線路)已經夠用了。但如果你想搬走整個倉庫——一千萬本書——宅配箱根本派不上用場。你得叫貨運公司開一台十八輪大卡車,在倉庫裡全部裝載,開車送到目的地再卸貨。那台大卡車就是 AWS Snowball Edge;一整個車隊就是 AWS Snowmobile;當天限時特快的輕便小包則是 AWS Snowcone。
AWS Snow Family 存在的原因,不是因為網路壞了,而是因為物理定律仍然勝出。把一顆硬碟從台灣寄到美國需要兩天,不管硬碟有多大。透過 100 Mbps 線路上傳 100 TB 需要 92 天。當「資料量 × 急迫性」打不過「bandwidth」時,就寄硬碟吧。
類比二:餐廳的三種備料角色(DataSync vs Storage Gateway vs Transfer Family)
想像餐廳裡三種不同的備料職能,各自對應不同的資料傳輸需求:
- AWS DataSync 是搬家公司,負責把舊店的整個食材庫搬到新店。 一次性或排程式大量搬移。你指定一個 NFS 分享路徑,它就把全部內容複製到 S3 或 EFS,追蹤增量變更,你叫停它才停。地端有一個 Agent(司機)負責協調整個複製過程。
- AWS Storage Gateway 是舊庫房與新庫房之間永久連通的傳菜電梯——兩邊持續相連。 常用食材在地端廚房快取,冷門庫存保存在雲端倉庫。File Gateway(NFS/SMB → S3)、Volume Gateway(iSCSI → EBS 快照)、Tape Gateway(VTL → S3/Glacier)。
- AWS Transfer Family 是餐廳的貨物收貨口,讓合作廠商和供應商把食材送進來。 SFTP、FTPS、FTP 或 AS2 端點,直接把檔案送入 S3 或 EFS,並提供受管身分驗證、受管 TLS,以及用來遮蔽儲存貯體路徑的邏輯目錄。
三者乍看相似,但角色截然不同:DataSync 搬移,Storage Gateway 橋接,Transfer Family 接收外部合作夥伴的檔案。
類比三:選擇寄送方式(決策樹)
你有 500 箱貨物要寄,怎麼選?
- 少量且緊急? 交給快遞(S3 Transfer Acceleration 或 DataSync)。
- 中量且有規律? 一般貨運(持續需求用 AWS Direct Connect,單次搬遷用 DataSync)。
- 大量且一次性? 租台貨櫃車(Snowball Edge)。超過某個臨界點,貨車的每 GB 成本就比 bandwidth 費用便宜。
- 海量且資料中心等級? 租一整個車隊(Snowmobile——不過 AWS 已停止新訂單,建議大型客戶改用 Snowball Edge 車隊)。
經驗法則:如果線上傳輸在現有 bandwidth 下需要超過一週,Snow Family 幾乎永遠是更快、更便宜的選擇。如果需要超過一個月,Snow Family 是壓倒性的正確答案。
白話結論:選擇 AWS data transfer solution 是一道三變數的算術題——資料量、bandwidth、急迫性——決策樹會告訴你哪個服務勝出。
AWS Data Transfer Solutions 的核心運作原則
所有 AWS data transfer solutions 共用幾個在整個產品線中反覆出現的設計原則:
- 傳輸中與靜態加密預設開啟。 DataSync 使用 TLS;Snow 設備使用 256 位元加密,金鑰存放於 AWS KMS(從不存放在設備上);Transfer Family 支援 SFTP(SSH)/ FTPS(TLS)/ AS2(簽章加密酬載)。DMS 對來源與目標端點支援 TLS 及 SSL。
- 受管的檢查點與驗證機制。 DataSync 以元資料驗證每個已傳輸的物件,並可在目的地進行確認。Snow 設備在載入與匯入時計算檢查碼。DMS 具備純驗證任務模式。
- 盡可能執行增量傳輸。 DataSync 偵測已變更的檔案,後續執行時只複製差異部分——這是選擇 DataSync 而非手工
rsync腳本的最大理由。DMS 的 Change Data Capture(CDC)在初始全量載入後持續串流後續變更。 - 以 IAM 為基礎的存取控制。 每項資料傳輸服務在 AWS 端都需要一個 IAM 角色。DataSync Agent 承擔角色以寫入 S3;Transfer Family 伺服器承擔角色以寫入 S3/EFS;DMS 複寫執行個體在 VPC 下搭配 IAM 角色執行。
- 資料平面與控制平面分離。 控制層(建立任務、排程、監控)位於 AWS Management Console / API;資料平面(實際的位元組流)則透過選定的傳輸方式流動(網際網路、VPC endpoint、Direct Connect 或實體磁碟)。
AWS DataSync — 自動化線上資料傳輸
AWS DataSync 是一項受管的線上大量複製服務,可在地端儲存與 AWS 之間,或 AWS 各儲存服務之間,移動檔案與物件資料。它是「我們有 10 TB 到 100 TB 的檔案,網路夠快可以在幾天內搬完」情境下的預設答案。
DataSync 架構
一套 AWS DataSync 部署包含四個元件:
- Agent — 安裝在來源儲存設備附近的虛擬設備(VMware、Hyper-V、KVM 或 Amazon EC2)。Agent 從 NFS、SMB、HDFS、物件儲存,或 Amazon S3 來源讀取資料。AWS 對 AWS 傳輸(跨 Region 的 S3 → S3、EFS → EFS)不需要 Agent。
- Location — 來源或目的地的定義。例如:
nfs://filer01/data、smb://winfs01/share、s3://bucket-name/prefix、efs://fs-0abc/、fsx://fs-0xyz/。 - Task — 來源 Location 與目的地 Location 的配對,加上各項選項(包含/排除規則、驗證模式、bandwidth 限制、排程)。
- Task execution — 一次 Task 的單次執行。可依需求觸發、依排程(類 cron)觸發,或透過 API 觸發。
支援的來源與目的地
AWS DataSync 支援廣泛的組合:
- 地端來源: NFS(v3 / v4.0 / v4.1)、SMB(2.1 / 3.x)、HDFS、自管物件儲存(S3 相容)
- AWS 儲存目的地/來源: Amazon S3(所有儲存類別,包含寫入 Glacier)、Amazon EFS、Amazon FSx for Windows File Server、FSx for Lustre、FSx for OpenZFS、FSx for NetApp ONTAP
- 其他雲端: Google Cloud Storage、Microsoft Azure Files、Azure Blob(透過 DataSync Discovery 與 Agent 型任務)
必須熟記的 DataSync Task 選項
- Bandwidth 節流。 可將 Task 限速在 N MBps,避免在上班時段佔滿生產網路線路。
- 排程。 每小時、每日、每週的 cron 表達式。這是實作「每晚將地端 NFS 分享增量複寫到 S3」的方式。
- 包含/排除篩選條件。 Glob 規則,用來跳過暫存檔、建置產出物或特定目錄。
- 驗證模式。
POINT_IN_TIME_CONSISTENT(預設;驗證整個資料集)、ONLY_FILES_TRANSFERRED(較快;只驗證已搬移的部分)、NONE(跳過驗證,不建議)。 - 增量傳輸。 DataSync 透過比較來源與目的地的元資料(大小、修改時間,可選擇性加上檢查碼)來偵測已變更的檔案,後續執行只複製已變更的位元組——這就是 DataSync 比反覆複製整個資料集高效得多的原因。
- 透過 VPC endpoint 傳輸。 可將 DataSync 流量路由透過 AWS PrivateLink,讓資料完全不碰公共網際網路。
DataSync Throughput
單一 DataSync Task 在實務上每個 Agent 可推進約 10 Gbps(AWS 官方宣稱多 Agent 聚合任務可達數十 Gbps)。以 100 TB 資料集、10 Gbps 線路搭配 Agent 平行處理,複製大約一天可完成(不計額外開銷)。
DataSync 定價模型
按傳輸的 GB 數計費(固定費率),加上目的地的標準 AWS 請求、儲存及資料傳輸費用。不收取 Agent 數量、Task 數量或排程數量的費用。這種固定每 GB 費率,是 DataSync 比自己在 EC2 上跑 rsync 便宜很多的關鍵原因——你只需為 throughput 付費,不需為執行複製的運算資源付費。
AWS Transfer Family — 受管 SFTP、FTPS、FTP 與 AS2
AWS Transfer Family 是一項全受管服務,提供以 Amazon S3 或 Amazon EFS 為後端的 SFTP、FTPS、FTP 和 AS2 端點。當外部合作夥伴、廠商或舊有系統需要透過標準檔案傳輸協定把檔案投遞到 AWS,且你不想自己維運一台 EC2 SFTP 伺服器時,它就是正確答案。
協定端點
- SFTP(SSH File Transfer Protocol)。 最常見。TCP port 22。透過 SSH 傳輸檔案。
- FTPS(File Transfer Protocol over TLS)。 TCP port 21(explicit)或 990(implicit)。舊有協定但仍廣泛使用,尤其在金融與醫療業。
- FTP(純文字)。 無加密。只能用於 VPC 內部流量(服務拒絕將純文字 FTP 暴露到公共網際網路)。
- AS2(Applicability Statement 2)。 有簽章、有加密的訊息型 B2B 協定,廣泛用於 EDI(零售、物流、醫療)。使用 HTTP/HTTPS 傳輸,搭配 S/MIME 酬載與 MDN 回條。
身分驗證提供者選項
Transfer Family 支援三種驗證後端:
- 服務自管使用者。 使用者名稱與 SSH 公開金鑰直接存放在 Transfer Family 服務中。適合合作夥伴名單較少的情境,設定最為簡單。
- AWS Directory Service。 整合 AWS Managed Microsoft AD 或 AD Connector,實現企業身分聯合——合作夥伴以企業憑證登入。
- 自訂身分驗證提供者(Lambda 後端)。 你撰寫的 Lambda 函數接收使用者名稱/密碼/SSH 金鑰,並回傳 IAM 角色、主目錄與邏輯目錄對應。當你的身分系統是 Okta、Azure AD 或自建使用者資料庫時,就使用這個方式。
邏輯目錄
預設情況下,SFTP 使用者被導向 s3://bucket-name/partner-a/ 時,會看到完整的儲存貯體路徑。邏輯目錄讓你重新映射路徑,使合作夥伴 A 只看到 /upload 與 /download,隱藏儲存貯體名稱、前綴及內部結構。這是常見的合規需求。
受管檔案傳輸工作流程
Transfer Family 包含受管工作流程——由檔案到達事件觸發的處理管線。工作流程可執行:解密 PGP 加密檔案、將檔案移至最終 S3 金鑰、呼叫 Lambda 進行自訂處理、為檔案加標籤供下游作業使用。這是「當合作夥伴透過 SFTP 投遞檔案時,驗證、解密並發布到處理佇列」的官方支援模式。
端點類型與網路存取
Transfer Family 伺服器可設定為:
- 公開端點。 可從網際網路透過 AWS 指派的 DNS 名稱存取。
- VPC endpoint(網際網路開放)。 你控制的 Elastic IP,放置在 VPC 公開子網路中。
- VPC endpoint(內部)。 僅限私有存取,透過 VPN / Direct Connect / VPC 對等連線存取。
AWS Snow Family — 離線實體傳輸
AWS Snow Family 是 AWS 寄送到你所在地點的加固硬體設備系列,用於離線資料傳輸與邊緣運算。你在現場載入資料、把設備寄回,AWS 便在所在 Region 將資料匯入 S3。
Snowcone
- 尺寸: 便攜式,約 2 公斤,可放入背包。
- 儲存: 8 TB HDD 或 14 TB SSD。
- 運算: 2 vCPUs、4 GB RAM(足以應對輕量邊緣工作負載)。
- 連線: Wi-Fi、乙太網路,或 LTE(搭配 AWS Snowcone LTE 數據機型)。
- 使用情境: 戰術/現場/第一線資料蒐集;小型(個位數 TB)離線傳輸;IoT 邊緣。
- 寄送: 可放入標準運送信封。
Snowball Edge Storage Optimized
- 儲存: 約 80 TB 可用 HDD 容量(物件儲存任務的較新 SSD 版本為 210 TB)。
- 運算: 適中(例如 40 vCPUs、80 GB RAM)。
- 使用情境: 30–100 TB 範圍離線傳輸的預設選擇。寄一台、寄兩台、寄一整車隊——每 GB 成本主要由設備租用費與運費決定,而非容量大小。
Snowball Edge Compute Optimized
- 儲存: 約 42 TB 可用(較少,因為部分磁碟空間換成了運算資源)。
- 運算: 52 vCPUs、208 GB RAM,可選 GPU(GPU 版本為 NVIDIA V100)。
- 使用情境: 在斷線或間歇性連線環境的邊緣運算——在設備上執行 EC2 執行個體、Lambda 函數和 EKS Anywhere。想像離岸石油平台、軍事前線基地、偏遠科學考察站。資料在現場蒐集、設備上處理,處理後的結果再回傳 AWS。
Snowmobile
- 容量: 每台貨車最高 100 PB。
- 外觀: 由牽引車拉行的 45 英尺貨櫃。真的。
- 使用情境: 撤離 Exabyte 等級的地端資料中心。歷史上曾用於媒體庫、基因組存檔與衛星影像海量資料集。
- 現況(截至 2026 年): AWS 在大多數 Region 已不接受新的 Snowmobile 訂單,並建議大型遷移案改用多台 Snowball Edge 並行。SAA-C03 題目中仍會出現——記住它的存在、記住 100 PB 這個數字、記住它只用於「資料中心規模的遷移」即可。
Snow Family 安全性
- 所有設備以 256 位元加密保護資料。
- 加密金鑰在 AWS KMS 中管理,且絕不存放在設備上——設備遺失或遭竊時,資料無法被讀取。
- 具備防竄改證據與防竄改封裝,搭配 TPM。
- 可信賴平台模組(TPM)在設備歸還時驗證設備完整性。
- 監管鏈透過 AWS OpsHub for Snow Family 應用程式與 Snow Family 主控台全程記錄。
Snowball 決策樹(請背起來)
針對 SAA-C03「選擇資料傳輸服務」情境,使用以下心智模型:
- 資料集 > 100 TB 且可用 bandwidth < 1 Gbps? → Snowball Edge(可能需要多台並行)。
- 資料集 10–100 TB 且 bandwidth < 500 Mbps? → Snowball Edge。
- 資料集 1–10 TB 且同時需要邊緣運算? → Snowcone(LTE 版)或 Snowball Edge Compute Optimized(依運算需求決定)。
- 資料集 < 10 TB 且 bandwidth 足夠? → AWS DataSync 線上傳輸。或直接上傳用 S3 Transfer Acceleration。
- 是持續性需求而非一次性? → Storage Gateway(混合雲)或 Direct Connect + DataSync(專用管道)。
- 資料中心等級、PB 規模、一次性? → Snowball Edge 車隊(歷史上用 Snowmobile)。
算術啟發原則:計算線上傳輸需要幾天。超過一週,Snowball 在時間與成本上幾乎都勝出。超過一個月,Snowball 是壓倒性的選擇。 公式 天數 = (volume_TB × 8000) / (bandwidth_Mbps × 86.4 × utilization)(利用率 ≈ 0.8)足以在腦中解決所有考題情境。
AWS Storage Gateway — 混合雲儲存整合
AWS Storage Gateway 是一種混合雲軟體加服務方案,透過標準儲存協定(NFS、SMB、iSCSI、iSCSI-VTL)將 AWS 儲存呈現給地端應用程式。與 DataSync 不同,它的設計目的是持續性連線,而非一次性遷移。
Storage Gateway 類型
- Amazon S3 File Gateway。 將 S3 儲存貯體以 NFS 或 SMB 掛載方式呈現。地端寫入的檔案一對一成為 S3 物件。常用的熱資料在本地快取以確保低延遲讀取。
- Amazon FSx File Gateway。 在慢速 WAN 前端為 FSx for Windows File Server 提供本地快取。幫助遠端辦公室以低延遲存取 FSx。
- Volume Gateway。 在地端呈現 iSCSI 區塊磁碟區。
- 快取磁碟區: 主要資料存放於 S3,常存取的資料在本地快取。
- 儲存磁碟區: 主要資料存放於地端,非同步備份至 S3 作為 EBS 快照。
- Tape Gateway(VTL)。 透過 iSCSI VTL 模擬 LTO 磁帶庫。備份軟體(Veritas NetBackup、Commvault、Veeam)寫入的「磁帶」儲存在 S3,並封存至 S3 Glacier / Glacier Deep Archive。
何時選擇 Storage Gateway
- 「我們有地端 NFS Filer,想逐步把冷資料搬到 S3,同時保持熱資料的快速存取。」→ File Gateway。
- 「我們需要用雲端儲存取代實體磁帶庫,但要保留現有備份軟體。」→ Tape Gateway。
- 「我們想讓地端區塊磁碟區持續備份至 AWS 作為 EBS 快照。」→ Volume Gateway(儲存磁碟區)。
選擇傳輸方法——決策矩陣
這是 SAA-C03 核心考驗的技能。依序使用以下三個變數:
變數一:資料量
- < 10 TB → 線上傳輸幾乎永遠可行。
- 10 TB – 100 TB → 取決於 bandwidth,必須算數學。
- 100 TB – 1 PB → Snowball Edge 車隊幾乎永遠勝出。
-
1 PB → 歷史上用 Snowmobile;現今改用大規模 Snowball Edge 車隊。
變數二:可用 Bandwidth
- < 100 Mbps(一般小型辦公室寬頻)→ 超過約 5 TB 就選 Snowball Edge。
- 100 Mbps – 1 Gbps → 線上在幾天內可傳輸最多約 50 TB。
- 1 Gbps – 10 Gbps(專線)→ 線上在一週內可傳輸最多約 500 TB。DataSync + Direct Connect。
-
10 Gbps(多條 Direct Connect)→ 即使是 PB 等級的非緊急遷移,線上也具競爭力。
變數三:急迫性
- 數小時 → S3 Transfer Acceleration(若資料集夠小)或並行的 Snowball 車隊。
- 數天 → DataSync 透過最快的可用線路。
- 數週 → Snowball Edge 對多數規模最符合成本效益。
- 持續性(非一次性)→ Storage Gateway 或排程化 DataSync,通常搭配 Direct Connect。
決策樹
是資料庫遷移嗎?
├── 是 → AWS DMS(異質遷移搭配 AWS Schema Conversion Tool)
└── 否 ↓
是持續性/連續性的混合雲存取嗎?
├── 是 → AWS Storage Gateway
└── 否 ↓
是外部合作夥伴透過 SFTP/FTPS/FTP/AS2 傳送檔案嗎?
├── 是 → AWS Transfer Family
└── 否 ↓
計算 days_online = (volume_TB × 8000) / (bandwidth_Mbps × 86.4 × 0.8)
days_online > 7 嗎?
├── 是 → AWS Snow Family(Snowcone / Snowball Edge / 車隊)
└── 否 ↓
是從全球分散用戶端直接上傳到單一 S3 儲存貯體嗎?
├── 是 → S3 Transfer Acceleration
└── 否 → AWS DataSync(搭配或不搭配 Direct Connect)
AWS Direct Connect 用於持續性大量傳輸
AWS Direct Connect 是從你的資料中心、辦公室或共置環境到 AWS 的專用網路連線,提供:
- 專用 bandwidth: 1 Gbps、10 Gbps 或 100 Gbps 專用連接埠;透過 AWS Direct Connect 合作夥伴可取得低於 1 Gbps 的託管連線。
- 私有且可預測的延遲: 流量不經過公共網際網路,因此延遲抖動很低。
- 較低的資料傳輸費用: AWS 經 Direct Connect 的 egress 定價遠低於網際網路 egress。
- 虛擬介面(VIF): 私有 VIF(連接 VPC)、公開 VIF(連接 S3 等 AWS 公開服務)、Transit VIF(連接 Transit Gateway)。
Direct Connect 用於資料傳輸
Direct Connect 本身不是資料傳輸服務——它是其他資料傳輸服務使用的管道。搭配 Direct Connect 使用:
- DataSync over Direct Connect 用於大量一次性或排程傳輸,不碰公共網際網路。
- Storage Gateway over Direct Connect 用於具備可預測延遲的混合雲整合。
- DMS over Direct Connect 用於具備穩定複寫 throughput 的資料庫遷移。
Direct Connect + VPN 用於加密
原始的 Direct Connect 電路是私有的,但並未加密。若需端對端加密,可在 Direct Connect 上層疊加 VPN(稱為「Direct Connect + VPN」或在公開 VIF 上建立 IPsec 通道)。
Amazon S3 Transfer Acceleration
Amazon S3 Transfer Acceleration(S3TA)透過 AWS 全球邊緣網路(與 600+ 個 CloudFront 邊緣節點相同的基礎設施),加速長距離上傳至 S3 的速度。用戶端上傳至鄰近的邊緣節點,AWS 再透過 AWS 骨幹網路將位元組移至目標 S3 儲存貯體。
何時使用 S3 Transfer Acceleration
- 全球分散的用戶端上傳至單一 S3 儲存貯體。
- 大型物件(≥ 100 MB),AWS 骨幹網路相較公共網際網路路徑有顯著效益。
- 單一儲存貯體工作負載——S3TA 以每個儲存貯體為單位啟用。
- S3 Transfer Acceleration 的加速費用溢價值得付出的工作負載。
何時不使用 S3 Transfer Acceleration
- 小型物件(< 1 MB);額外開銷遠大於加速效益。
- 用戶端與儲存貯體位於同一 Region;已受益於 AWS 的 Regional 骨幹網路。
- 對成本敏感的工作負載,每 GB 加速溢價超過其帶來的價值。
Transfer Acceleration vs 多部分上傳
多部分上傳(Multipart Upload)將一個大型上傳分割成多個區塊並行處理——與 S3TA 彼此獨立,且對 > 100 MB 的物件應一律啟用。兩者可結合使用:透過 S3 Transfer Acceleration 進行多部分上傳。
AWS Database Migration Service — 資料庫遷移
AWS Database Migration Service(DMS)以最短停機時間將關聯式資料庫、資料倉儲和 NoSQL 儲存遷移至 AWS。它支援兩種遷移類別:
同質遷移
來源與目標使用相同引擎——Oracle to Oracle、MySQL to MySQL、PostgreSQL to PostgreSQL。結構描述轉換極為簡單(或完全相同)。範例:自管 EC2 上的 MySQL → Amazon RDS for MySQL。
異質遷移
來源與目標使用不同引擎——Oracle to Amazon Aurora PostgreSQL、SQL Server to Amazon RDS for MySQL、Oracle to DynamoDB。結構描述轉換非同小可,由 AWS Schema Conversion Tool(SCT) 處理——這是一個桌面應用程式,分析來源結構描述、產出目標結構描述,並標記需要手動修正的項目。SCT 先執行;DMS 後執行以搬移資料。
DMS 架構
- 複寫執行個體。 由 DMS 管理的 EC2 執行個體,用於執行複寫引擎。依 throughput 調整大小(測試用 dms.t3.medium,生產等級遷移用 dms.c5.4xlarge)。
- 端點。 來源端點與目標端點定義(連線字串、憑證、SSL 選項)。
- 複寫任務。 遷移的基本單位。三種任務類型:
- 全量載入。 一次性複製現有資料。
- 全量載入 + CDC。 全量載入後持續 Change Data Capture,讓目標與來源保持同步直到切換。
- 僅 CDC。 只套用後續變更(用於已另行完成初始載入後)。
支援的來源與目標
- 來源: Oracle、SQL Server、MySQL、MariaDB、PostgreSQL、MongoDB、Amazon Aurora、IBM Db2、SAP ASE、Azure SQL、Google Cloud SQL。
- 目標: 以上所有,加上 Amazon Redshift、Amazon DynamoDB、Amazon S3(Parquet / CSV 格式)、Amazon OpenSearch Service、Amazon Kinesis Data Streams、Amazon MSK、Amazon Neptune、Babelfish for Aurora PostgreSQL。
DMS 典型遷移流程
- 對來源執行 AWS SCT,產出目標結構描述(僅限異質遷移)。
- 建立目標資料庫(Aurora PostgreSQL、RDS、Redshift 等)。
- 在 VPC 中建立能存取兩端端點的 DMS 複寫執行個體。
- 定義來源與目標端點並測試連線。
- 啟動「全量載入 + CDC」任務。
- 當 CDC 延遲接近零時,切換應用程式並停止任務。
保護 AWS Data Transfer 存取端點
每項 AWS data transfer solution 在生產環境中都必須鎖定存取。SAA-C03 對安全整合的考察非常密集。
傳輸服務的 IAM 角色
- DataSync Agent 承擔 IAM 角色以寫入 S3 / EFS / FSx。角色必須具備
s3:PutObject、s3:ListBucket及目的地特定權限。 - Transfer Family 伺服器為每位使用者(服務自管)或每次驗證回呼(自訂 IdP)指派 IAM 角色。角色限定使用者可讀寫的儲存貯體/前綴範圍。
- DMS 複寫執行個體在 VPC 中執行,使用 IAM 角色(
dms-vpc-role)加上端點特定憑證。 - Snow Family 設備綁定 IAM 角色用於 S3 匯入,以及 AWS KMS 金鑰用於加密。
私有傳輸的 VPC Endpoint
透過 AWS PrivateLink 路由資料傳輸流量,讓資料完全不碰公共網際網路:
- DataSync 透過 VPC endpoint(介面類型)。
- S3 Gateway VPC endpoint 適用於任何寫入 S3 的服務(免費,Regional)。
- DMS 端點在 VPC 內搭配私有 IP 定址。
- Transfer Family 使用 VPC endpoint(內部)主機名稱,讓只有 VPN/Direct Connect 用戶端能存取。
加密
- DataSync 傳輸中使用 TLS;目的地加密取決於目的地設定(S3 的 SSE-S3 / SSE-KMS、EFS 加密、FSx 加密)。
- Transfer Family 強制傳輸中使用 SSH(SFTP)、TLS(FTPS)或 S/MIME(AS2);靜態加密繼承目的地的加密設定。
- Snow Family 以 256 位元加密每個位元組;金鑰僅存於 AWS KMS。
- DMS 支援對來源與目標端點使用 TLS,並支援加密複寫執行個體的儲存空間。
傳輸規模估算——估計時間與成本
估算傳輸規模是 SAA-C03 資料傳輸題型的半場重點。你需要的算術如下:
時間算術
線上傳輸天數 = (資料量(TB)× 8000) / (bandwidth(Mbps)× 86.4 × 利用率)
以利用率 ≈ 0.8(TCP 開銷後可用的 80%)計算:
- 10 TB / 100 Mbps:(10 × 8000) / (100 × 86.4 × 0.8) ≈ 11.6 天
- 10 TB / 1 Gbps:約 1.2 天
- 100 TB / 1 Gbps:約 11.6 天
- 100 TB / 100 Mbps:約 116 天(因此:Snowball)
- 1 PB / 10 Gbps:約 12 天
成本算術
- DataSync 固定每 GB 傳輸費加上目的地的請求/儲存/資料傳輸費。
- Snowball Edge 固定設備租用費(每次任務 $X)加運費,加可選的超天費,加標準 S3 請求/儲存費。低於約 50 TB 時每 GB 成本通常高於 DataSync;在慢速線路上超過 80 TB 時,Snowball 便宜得多。
- Direct Connect 每月連接埠費加每 GB egress(遠低於網際網路 egress)。
- DMS 複寫執行個體按小時計費,加上 VPC / Region / 網際網路之間的資料傳輸費。
必須背起來的關鍵數字
SAA-C03 快速回憶 AWS data transfer solutions 的數字:
- Snowcone: 8 TB HDD 或 14 TB SSD;2 vCPUs;4 GB RAM。
- Snowball Edge Storage Optimized: 約 80 TB 可用 HDD;40 vCPUs;80 GB RAM。
- Snowball Edge Compute Optimized: 約 42 TB;52 vCPUs;208 GB RAM;可選 NVIDIA V100 GPU。
- Snowmobile: 每台最高 100 PB;已停止新訂單。
- DataSync: 每個 Agent 最高約 10 Gbps;固定每 GB 定價。
- Transfer Family: SFTP、FTPS、FTP、AS2;後端為 S3 或 EFS。
- Direct Connect: 1 / 10 / 100 Gbps 專用連接埠;egress 成本低於網際網路。
- S3 Transfer Acceleration: 使用 CloudFront 邊緣網路;每個儲存貯體設定;在標準 S3 定價上加收每 GB 溢價。
- DMS 任務類型: Full load、Full load + CDC、CDC only。
- AWS SCT: 異質結構描述轉換;免費;桌面工具。
- 算術: 天數 = (TB × 8000) / (Mbps × 86.4 × 0.8)。七天閾值 = Snowball。
AWS Data Transfer Solutions 常見考試陷阱
陷阱一:DataSync vs Snowball
題目給你資料集大小與 bandwidth,問你選哪個。永遠先做天數算術。線上不到約 7 天用 DataSync;超過約 7 天用 Snowball。不要被「我們想要安全」的干擾選項騙了——兩者都有加密。
陷阱二:Storage Gateway vs DataSync
Storage Gateway 是持續性且雙向的(應用程式持續使用地端掛載,資料同時存於雲端)。DataSync 是一次性或排程式且主要單向的(複製,不是掛載)。觸發詞:「取代磁帶庫」/「持續性 NAS 分層」→ Storage Gateway;「將此分享遷移至 S3」→ DataSync。
陷阱三:Transfer Family vs DataSync
Transfer Family 用於外部合作夥伴使用檔案傳輸協定(SFTP / FTPS / FTP / AS2)。DataSync 用於你自己複製你自己的資料。需求說「我們的客戶/廠商/合作夥伴傳送檔案」→ Transfer Family。需求說「我們需要遷移/同步自己的資料」→ DataSync。
陷阱四:Snowball vs Snowmobile
Snowmobile 用於 Exabyte 等級(100 PB,真的是一台卡車)。Snowball Edge 用於 TB 到 PB 等級。現今 AWS 建議大多數大型遷移改用 Snowball Edge 車隊,而非 Snowmobile。若題目說「50 PB 資料中心撤離」,歷史正確答案是 Snowmobile;AWS 現今建議的答案是 Snowball Edge 車隊。
陷阱五:DMS vs DataSync 用於資料庫
DMS 是資料庫感知的——它讀取交易日誌、處理 CDC,並寫入正在運作的目標資料庫。DataSync 是檔案/物件感知的——它讀取檔案。把資料庫傾印成平面檔案再用 DataSync 搬移,會失去交易一致性並造成停機。任何涉及運作中資料庫遷移的情境,DMS 都是正確答案。
陷阱六:Direct Connect 本身不傳輸資料
Direct Connect 是管道。資料傳輸服務(DataSync、Storage Gateway、DMS)跑在管道上。若題目問「如何透過現有 Direct Connect 把 500 TB 從地端遷移到 S3」,答案是「DataSync over Direct Connect」,而不是「Direct Connect 本身」。
陷阱七:S3 Transfer Acceleration 不是 DataSync
S3 Transfer Acceleration 透過 CloudFront 邊緣節點加速用戶端直接上傳至單一 S3 儲存貯體。DataSync 則協調檔案系統到 S3 的大量複製,支援排程、增量傳輸與驗證。題目措辭是關鍵:「全球使用者直接上傳到 S3」→ S3TA;「排程 NFS 分享同步至 S3」→ DataSync。
資料傳輸成本——最小化 Egress 與傳輸費用
成本最佳化與傳輸設計相互交織。高影響力的調控手段:
- 流入 AWS Region 的資料傳輸免費。 你不需要為透過網際網路上傳至 S3 的每 GB 付費。向外的 egress 費用昂貴,跨 Region 費用昂貴,AZ 間傳輸有少量費用。
- S3 Gateway VPC endpoint 免費,且可消除私有子網路中 S3 流量的 NAT Gateway 資料處理費用。
- Direct Connect egress 遠低於網際網路 egress,以每 GB 計——通常在月均 egress 超過約 10 TB 時,1 Gbps 專用連接埠的損益平衡點即可達到。
- DataSync 在目的地儲存/請求費之上收取固定每 GB 傳輸費;複製所用的運算資源不另收費。
- Snowball Edge 是固定設備租用費加運費;Snow Family 資料本身不收每 GB 傳輸費(你仍需為落地在儲存貯體中的資料支付 S3 儲存費)。
- Transfer Family 按已啟用端點的每小時費加每 GB 上傳/下載收費——不使用時請關閉端點。
資料傳輸 vs 資料轉換——本主題的邊界
AWS data transfer solutions 搬移位元組,不轉換位元組。若你還需要把 CSV 轉成 Parquet、建立結構描述目錄、清理 PII 或執行分析,那些是 AWS Glue、Amazon EMR、AWS Lambda 和 Amazon Athena 的工作——請參閱 Glue / EMR 資料轉換主題及 Athena / Lake Formation / QuickSight 分析主題。典型的生產管線是「DataSync → S3 落地區 → Glue 爬蟲 → Glue Job → S3 精緻區 → Athena」。了解邊界很重要——SAA-C03 會把 Glue 當成傳輸題的干擾選項,也會把 Transfer Family 當成轉換題的干擾選項。
FAQ — AWS Data Transfer Solutions 最常見的 7 個問題
1. 什麼時候應該用 AWS DataSync,而不是自己寫 rsync 腳本?
只要來源是 NFS、SMB、HDFS 或 S3 相容的物件儲存,且目的地是 S3、EFS 或 FSx,就用 DataSync。DataSync 是受管服務——你支付固定每 GB 費用,AWS 負責排程、重試、增量偵測、驗證、bandwidth 節流和元資料保留。自己在 EC2 上跑 rsync,意味著要維護一台 VM、監控它、處理當機、思考驗證邏輯,還要支付 EC2 使用費。對幾乎所有真實工作負載而言,DataSync 在營運負擔上勝出。唯一考慮自建的時機是來源協定不被支援(罕見),或資料集小到微不足道(幾 GB,用什麼工具都行)。
2. 如何在線上傳輸和 AWS Snow Family 離線傳輸之間做決定?
做時間算術:天數 = (volume_TB × 8000) / (bandwidth_Mbps × 86.4 × 0.8)。若結果超過一週,Snow Family 幾乎在時間、成本和營運風險上都勝出(不用擔心 WAN 中斷、佔滿生產網際網路,或多日複製任務被打斷)。若結果不到幾天,用 DataSync 線上傳輸較為簡單。bandwidth-資料量格子:低於 10 TB 且 bandwidth 合理 → 線上;超過 100 TB 且 < 1 Gbps → Snow Family;介於兩者之間 → 算算看。
3. AWS Transfer Family 和 AWS DataSync 的差異是什麼?
Transfer Family 接收來自外部方使用標準檔案傳輸協定(SFTP、FTPS、FTP、AS2)投遞的檔案。DataSync 在排程或按需下複製你自己的儲存系統之間的資料。情境是「我們的合作夥伴需要每天投遞檔案」→ Transfer Family。情境是「我們需要遷移或同步自己的 NFS 分享」→ DataSync。
4. AWS Database Migration Service 能不停機遷移嗎?
DMS 使用全量載入 + CDC 任務類型支援近零停機時間遷移。初始全量載入複製現有資料,同時 CDC 元件擷取來源的每筆交易。當 CDC 延遲縮小到很短(數秒)時,進行應用程式切換——停止來源的寫入,等待 CDC 排空,然後開始對目標寫入。實際停機時間通常是分鐘,而非小時。對於異質遷移(Oracle → Aurora PostgreSQL),請先執行 AWS Schema Conversion Tool 轉換結構描述,再執行 DMS。
5. AWS Direct Connect 什麼時候適合用於資料傳輸?
當你有持續性、高容量、可預測延遲的資料中心到 AWS 傳輸需求,或需要較低的每 GB egress 成本時,Direct Connect 就值得採用。一次性的 10 TB 遷移,透過 DataSync 走網際網路就夠了。每月 50 TB 的持續性同步且工作負載對延遲敏感,Direct Connect + DataSync 很快就會回本。記住:Direct Connect 是管道;你仍然需要在上面加 DataSync、Storage Gateway 或 DMS 來實際搬移資料。
6. 如何確保資料傳輸完全不碰公共網際網路?
結合三件事:(a)AWS Direct Connect 或 AWS Site-to-Site VPN 作為傳輸媒介,(b)為 AWS 服務端點設定 VPC endpoint(AWS PrivateLink)(DataSync 的介面型 VPC endpoint、S3 的 Gateway endpoint、Transfer Family 的內部端點、在 VPC 內的 DMS 端點),以及(c)在目的地啟用靜態加密(S3 的 SSE-KMS、KMS 加密的 EBS 快照、加密的 EFS/FSx)。這是 HIPAA、PCI-DSS 和 GDPR 受規範工作負載的標準模式,SAA-C03 會直接考這個整合。
7. 大量從地端到 S3 的遷移,應該使用 S3 Transfer Acceleration 嗎?
通常不需要。S3 Transfer Acceleration 的設計對象是全球分散的用戶端透過公共網際網路上傳至單一 S3 儲存貯體——它透過 CloudFront 邊緣節點路由流量以利用 AWS 骨幹網路。對於從單一地端資料中心進行大量遷移,DataSync(檔案系統來源)或 Snowball Edge(大型一次性遷移)才是專門設計、更符合成本效益的選擇。當需求說「世界各地的許多使用者直接上傳到 S3,我們希望上傳速度更快」時,才考慮 S3TA。
Data Transfer Solutions — 總結
AWS data transfer solutions 分為四大族群:線上網路傳輸(DataSync、Transfer Family、Storage Gateway、S3 Transfer Acceleration)、離線實體傳輸(Snow Family)、專用 bandwidth(Direct Connect)、資料庫感知遷移(DMS)。SAA-C03 反覆測試三個決策變數:資料量、bandwidth 和急迫性。先做線上天數算術——若線上傳輸需要超過一週,選 Snow Family。再找觸發關鍵詞:「持續性混合雲」→ Storage Gateway;「合作夥伴 SFTP/FTPS/AS2」→ Transfer Family;「資料庫」→ DMS;「全球直接上傳」→ S3 Transfer Acceleration。其餘「把這份儲存搬到 AWS 一次或定期搬」的情境全部是 DataSync,對受規範工作負載理想上搭配 Direct Connect 與 VPC endpoint 使用。記住 Snow Family 容量(Snowcone 8/14 TB、Snowball Edge Storage Optimized 約 80 TB、Snowmobile 最高 100 PB)和算術公式,整個 AWS data transfer solutions 題型就能在 30 秒內用決策樹搞定。