AWS AI/ML 與分析服務是一系列託管雲端產品,讓客戶可以在不自行架設 GPU 叢集、Spark 農場或資料倉儲的情況下,應用機器學習、生成式 AI 與大規模資料分析。在 AWS Certified Cloud Practitioner(CLF-C02)考試中,Task Statement 3.7 要求你能辨識哪些 AWS AI/ML 服務適合特定使用情境,以及哪個 AWS 分析服務處理哪一種資料型態。最常被考到的服務名稱包括 Amazon SageMaker、Amazon Bedrock、Amazon Q、Amazon Rekognition、Amazon Comprehend、Amazon Textract、Amazon Athena、Amazon Redshift、Amazon Kinesis、AWS Glue 與 Amazon QuickSight。此主題是領域 3 中成長最快的子領域(年增 25%),預期考試中至少會出現三至五題。
本學習指南涵蓋 CLF-C02 考試範圍內所有 AWS AI/ML 服務與 AWS 分析服務,解析 Amazon SageMaker 與 Amazon Bedrock、Amazon Kinesis Data Streams 與 Amazon Data Firehose、Amazon Athena 與 Amazon Redshift 之間的陷阱差異,並以五則 FAQ 與可直接拿來練習的摘要作結。
什麼是 AWS AI/ML 與分析服務?
AWS AI/ML 服務是三層式堆疊。最底層是 Amazon SageMaker,這是提供給資料科學家從頭訓練與部署自訂模型的端對端 AWS AI/ML 平台。中間層是 Amazon Bedrock,這是無伺服器 API,讓你直接呼叫 Anthropic Claude、Meta Llama、Amazon Titan 等預訓練基礎模型來做生成式 AI。最上層是一系列任務導向的 AWS AI/ML 服務(Amazon Rekognition、Amazon Comprehend、Amazon Transcribe、Amazon Polly、Amazon Translate、Amazon Textract、Amazon Lex、Amazon Personalize、Amazon Forecast、Amazon Kendra)以及 Amazon Q,只要一個 API 呼叫就能使用,完全不需要微調模型。
AWS 分析服務就緊鄰這個 AI/ML 堆疊。Amazon Athena 在 Amazon S3 上執行無伺服器 SQL。Amazon Redshift 是 PB 等級的資料倉儲。AWS Glue 負責 ETL 與 Data Catalog。Amazon Kinesis(與 Amazon MSK)即時串流事件。Amazon EMR 執行託管的 Hadoop 與 Spark。Amazon OpenSearch Service 提供搜尋與可觀測性功能。Amazon QuickSight 提供 BI 儀表板。AWS Lake Formation 治理資料湖。
AWS AI/ML 服務與 AWS 分析服務合在一起,構成 AWS 上每一個現代資料產品的骨幹,而考試會測驗你是否能在第一次讀題時就挑出正確的服務。
為什麼 AI/ML 與分析服務對 CLF-C02 很重要
CLF-C02 的領域 3 佔整份考試 34%。Task Statement 3.7 新增了生成式 AI 的範圍,Amazon Bedrock 與 Amazon Q 在 2024 年後才納入考試藍圖。Explorer 資料顯示此主題的趨勢線是所有主題中最陡的(提及量成長 25%),生成式 AI 題目的考試訊號頻率為 48(成長 35%)。忽略這個主題,是目前導致 CLF-C02 落榜的最主要原因。
白話文解釋 AI/ML 與分析服務
AWS AI/ML services 跟 AWS analytics services 聽起來很複雜,用三個白話比喻就懂。
類比一——夜市小吃攤
把資料工作想像成一個熱鬧的台灣夜市。
- Amazon SageMaker 就像是自己擺攤的老師傅,從選食材、調醬料、翻鍋到擺盤通通一手包辦。你提供原料(訓練資料),從零開始做出自家招牌(模型)。
- Amazon Bedrock 則像是現成的招牌滷味攤——基礎模型(Claude、Llama、Titan)已經滷好放著,你只要透過提示詞決定要切哪幾樣、淋什麼醬。
- Amazon Q 是那位熟門熟路的攤位老闆娘,菜單和老客戶的習慣她都記得,有問題直接問她就有答案。
- Amazon Rekognition、Amazon Comprehend、Amazon Transcribe、Amazon Polly、Amazon Translate、Amazon Textract 是單一功能的小家電——果汁機、烤麵包機、榨汁機。丟一樣食材進去,輸出一個結果。
- Amazon Athena、Amazon Redshift、Amazon EMR、Amazon Kinesis、AWS Glue、Amazon QuickSight 則分別是備料台、冷藏櫃、工業攪拌機、輸送帶、洗碗機與出菜窗口——每個 AWS 分析服務都對應夜市運作的一個環節。
如果考題問「要分析顧客上傳的原始照片」,你拿的是果汁機(Amazon Rekognition),不是老師傅那一整套設備(Amazon SageMaker)。
類比二——瑞士刀
AWS AI/ML 服務組合就像一把 13 功能的瑞士刀。
- 主刀刃 是 Amazon SageMaker——要自己磨利。
- 開瓶器 是 Amazon Bedrock——已經成型,只要拉開(提示詞)就能開瓶。
- 剪刀、鑷子、牙籤、銼刀、鋸子 分別是 Amazon Rekognition(影像/影片)、Amazon Comprehend(NLP)、Amazon Textract(OCR)、Amazon Transcribe(語音轉文字)、Amazon Polly(文字轉語音)、Amazon Translate(翻譯)、Amazon Lex(聊天機器人)、Amazon Personalize(推薦)、Amazon Forecast(時間序列)與 Amazon Kendra(企業搜尋)。
在 CLF-C02 考試中,你不需要動手打造什麼,只要挑出正確的刀刃即可。「從掃描 PDF 萃取文字與表格」 = Amazon Textract。「把評論翻成西班牙文」 = Amazon Translate。「偵測推文情緒」 = Amazon Comprehend。訣竅就這樣而已。
類比三——郵政系統
AWS 分析服務就像郵政系統在分送郵件。
- Amazon Kinesis Data Streams 是分揀中心內的即時輸送帶——郵件包裹即時飛過,由你決定它們要往哪裡送。
- Amazon Data Firehose(原名 Kinesis Data Firehose)是自動配送車,把郵件送到預先設定好的地址(Amazon S3、Amazon Redshift、Amazon OpenSearch Service)。
- Amazon MSK 是同樣的輸送帶,只是建在 Apache Kafka 之上,供已經標準化使用 Kafka 的客戶。
- Amazon S3 是信件長期存放的倉庫。
- AWS Glue 是信件分類室,替每個信封貼上標籤(Data Catalog),也會改寫地址格式(ETL)。
- Amazon Athena 是那位可以直接在倉庫裡用 SQL 閱讀任何一封信的辦事員。
- Amazon Redshift 是有索引貨架的高安全性檔案室——為 PB 級 OLAP 報表提供快速檢索。
- Amazon EMR 是跑著 Spark 與 Hadoop 的工業分揀機器人。
- Amazon QuickSight 是前台的螢幕,顯示當日郵件統計資料。
- AWS Lake Formation 是總郵政長,替整棟大樓制定權限規則。
- Amazon OpenSearch Service 是搜尋索引——問「這封信在哪裡?」馬上給你答案。
只要記住這個郵政路由的畫面,每一題 AWS 分析服務的問題就變成地理常識問答。
核心運作原則——預建 AI API、自訂 ML 與生成式 AI
AWS AI/ML 服務遵循三層抽象模型。理解這三層之間的界線,是 CLF-C02 最實用的心智工具。
- 第一層——AI Services(預建 API):Amazon Rekognition、Amazon Comprehend、Amazon Transcribe、Amazon Polly、Amazon Translate、Amazon Textract、Amazon Lex、Amazon Personalize、Amazon Forecast、Amazon Kendra。完全不需要訓練模型。呼叫 API、拿回結果。
- 第二層——生成式 AI 與基礎模型:Amazon Bedrock(基礎模型市集)與 Amazon Q(建構在 Bedrock 之上的預建助理)。你提供提示詞,模型負責推理並生成文字、圖片或程式碼。
- 第三層——ML 平台:Amazon SageMaker。你帶資料、挑演算法、訓練、調參、部署。彈性最大,工程量也最大。
題目若寫「公司想以最少的 ML 專業使用預訓練模型」,對應到第一層或第二層。題目若寫「資料科學團隊需要 notebook 環境訓練自訂模型」,對應到第三層(Amazon SageMaker)。
基礎模型是以大量通用資料預訓練的大型模型(例如 Anthropic Claude 或 Amazon Titan),可透過提示詞或微調調整,用於許多下游任務。Amazon Bedrock 是 AWS 用來以 API 方式存取基礎模型的服務。 Source ↗
預建 vs 自訂 的決策樹
- 「我沒有 ML 團隊,想做 OCR」 → Amazon Textract(預建)。
- 「我沒有 ML 團隊,想做情感偵測」 → Amazon Comprehend(預建)。
- 「想要聲音自然的聊天機器人」 → Amazon Lex 搭配 Amazon Polly,或用 Amazon Bedrock 做生成式回應。
- 「想部署自己訓練好的詐騙偵測模型」 → Amazon SageMaker。
- 「想用聊天介面彙整內部文件」 → Amazon Q Business。
- 「想透過 API 生成行銷文案」 → Amazon Bedrock 搭配 Claude 或 Titan。
生成式 AI 服務——Amazon Bedrock 與 Amazon Q
Amazon Bedrock
Amazon Bedrock 是完全託管的 AWS AI/ML 服務,透過單一 API 提供 Anthropic(Claude)、Meta(Llama)、AI21 Labs(Jurassic)、Cohere、Mistral AI、Stability AI(Stable Diffusion)以及 Amazon(Titan、Nova)的基礎模型。Amazon Bedrock 是無伺服器的——不用佈建 GPU、也不用維護模型伺服器。客戶可以透過微調或使用 Amazon Bedrock Knowledge Bases 的 Retrieval Augmented Generation(RAG)來以自己的資料客製化基礎模型,還可以透過 Amazon Bedrock Agents 串接多個模型。
Amazon Bedrock 考試重點:
- 無伺服器,不需管理基礎架構。
- 多家基礎模型供應商,統一透過一個 API。
- 送到 Amazon Bedrock 的資料不會被用來訓練基礎模型。
- 在多個 AWS Regions 可用,但各 Region 可用的模型不同。
Amazon Q
Amazon Q 是面向企業使用者的 AI 助理家族,部分由 Amazon Bedrock 驅動。
- Amazon Q Business 是企業級助理,可連接公司文件、wiki、S3 儲存貯體、Salesforce、ServiceNow 等,並以附帶引用來源的方式回答自然語言問題。
- Amazon Q Developer(原名 Amazon CodeWhisperer)是 IDE 內的程式開發助理,能生成、審查並解釋程式碼,也能協助排解 AWS Management Console 的問題。
- Amazon Q in QuickSight 可依據英文自然語言問題生成 BI 敘述與儀表板。
- Amazon Q in Connect 即時協助客服中心的客服專員。
在 CLF-C02 考試中,題目如果提到「業務使用者想要一個聊天助理讀內部文件」,請選 Amazon Q Business。如果題目說「開發者需要 API 存取 Claude/Llama/Titan 來打造自訂生成式 AI 應用」,請選 Amazon Bedrock。Amazon Q 是非技術使用者接觸的前端,Amazon Bedrock 則是開發者從程式碼呼叫的服務。 Source ↗
自訂 ML 平台——Amazon SageMaker
Amazon SageMaker 是 AWS 旗艦級的端對端 AI/ML 平台,涵蓋 ML 生命週期的每一個階段:
- 資料準備——Amazon SageMaker Data Wrangler、Amazon SageMaker Feature Store,以及 Amazon SageMaker Ground Truth 用於資料標註。
- 模型建構——Amazon SageMaker Studio notebook、內建演算法、JumpStart 預訓練模型。
- 訓練——託管訓練工作支援分散式訓練、Automatic Model Tuning(超參數搜尋),以及 Amazon SageMaker HyperPod 用於大規模基礎模型訓練。
- 部署——即時端點、無伺服器端點、批次轉換、Amazon SageMaker Asynchronous Inference、Multi-Model Endpoints。
- MLOps——Amazon SageMaker Pipelines、Model Registry、Model Monitor、Clarify(偏差偵測)。
CLF-C02 只要求你能辨識 Amazon SageMaker 是用來「端對端建構、訓練與部署自訂模型」的 AWS AI/ML 服務。深入功能記憶(每個子功能做什麼)屬於 AIF-C01 與 MLS-C01 的範圍,CLF-C02 不需要。
Amazon SageMaker = 建構、訓練、部署你自己的模型。Amazon Bedrock = 透過 API 呼叫別人的基礎模型。題目若提到「訓練資料」、「notebook」或「超參數」就是 Amazon SageMaker。若提到「基礎模型」、「Claude」、「Titan」或「生成式 AI」就是 Amazon Bedrock。 Source ↗
預建 AI/ML API——一任務對一服務的目錄
這些 AWS AI/ML 服務用單一 API 呼叫解決單一工作。請熟記「名詞對服務」的對應關係。
Amazon Rekognition——影像與影片分析
Amazon Rekognition 分析影像與影片,偵測物件、場景、活動、不安全內容、影像中的文字以及人臉(包括名人辨識、臉部比對,以及在既有集合中搜尋人臉)。即時影片分析需搭配 Amazon Kinesis Video Streams。
使用情境:使用者生成平台的內容審核、臉部登入、工作場域安全(偵測 PPE 個人防護裝備)。
Amazon Comprehend——自然語言處理
Amazon Comprehend 是預建的 NLP AWS AI/ML 服務,能萃取實體(人、地、組織)、關鍵片語、情感(正面/負面/中性/混合)、語言偵測、語法,以及個人可識別資訊(PII)。Amazon Comprehend Medical 則加入醫療專用 NLP(ICD-10-CM 疾病代碼、RxNorm 藥品代碼)。
使用情境:客戶評論情感評分、合規個資遮罩、多語內容路由。
Amazon Textract——文件 OCR 加上表單與表格
Amazon Textract 超越一般 OCR,能保留表單(鍵/值對)與表格的結構,支援 PDF、發票、身分證件與手寫頁面。與純 OCR 不同,Amazon Textract 會回傳帶有儲存格與欄位關係的結構化 JSON。
使用情境:發票自動化處理、貸款申請資料建檔、醫療表單數位化。
Amazon Transcribe——語音轉文字
Amazon Transcribe 以批次或串流方式將音訊轉為文字,支援多國語言、語者辨識、自訂詞彙、自動語言偵測,以及專為臨床語音設計的 Amazon Transcribe Medical。
使用情境:客服中心通話逐字稿、Podcast 字幕、會議記錄。
Amazon Polly——文字轉語音
Amazon Polly 以神經式與長篇語音將文字轉換成逼真語音。輸出可以是 MP3、Ogg Vorbis 或 PCM。支援 Speech Synthesis Markup Language(SSML)做細緻控制。
使用情境:IVR 語音提示、有聲書生成、無障礙輔助工具。
Amazon Translate——神經機器翻譯
Amazon Translate 提供 75 種以上語言的神經式翻譯,支援即時或批次,並提供自訂詞彙表來處理品牌專屬用語,以及 Active Custom Translation 進行領域適配。
使用情境:商品型錄在地化、即時聊天翻譯、多語客服支援。
Amazon Lex——對話式聊天機器人
Amazon Lex 是驅動 Alexa 的對話式 AI AWS AI/ML 服務,可用 intents、slots 搭配 AWS Lambda 實作履行邏輯來打造語音與文字聊天機器人。Amazon Lex V2 加入多語機器人與串流對話。
使用情境:客服機器人、預約排程、銀行 IVR。
Amazon Personalize——即時推薦
Amazon Personalize 提供與 Amazon.com 相同的推薦引擎技術。丟入使用者互動與商品型錄,即可透過 API 取得即時個人化推薦、相關商品與個人化排序。
使用情境:商品推薦、內容動態牆個人化、個人化電子郵件。
Amazon Forecast——時間序列預測
Amazon Forecast 以 Amazon.com 用於需求規劃的相同技術產生時間序列預測。它透過 AutoML 結合多種演算法(ARIMA、Prophet、DeepAR+、CNN-QR)。
使用情境:零售庫存預測、人力規劃、財務指標推估。
Amazon Kendra——企業搜尋
Amazon Kendra 是智慧型企業搜尋 AWS AI/ML 服務,能理解跨內部資料庫(Amazon S3、Microsoft SharePoint、Salesforce、ServiceNow、Confluence、Google Drive)的自然語言問題,回傳精確答案而不是關鍵字匹配。
使用情境:內部知識庫、IT 服務台搜尋、對外 FAQ 搜尋。
對於預建 API 的 AWS AI/ML 服務,永遠把題目裡的名詞對應到單一服務。影像或影片 → Amazon Rekognition。語音轉文字 → Amazon Transcribe。文字轉語音 → Amazon Polly。語言翻譯 → Amazon Translate。情感或實體 → Amazon Comprehend。文件的表單與表格 → Amazon Textract。聊天機器人 → Amazon Lex。推薦 → Amazon Personalize。預測 → Amazon Forecast。企業搜尋 → Amazon Kendra。 Source ↗
AWS 分析服務——完整堆疊
AWS 分析服務涵蓋擷取、儲存、目錄、查詢、倉儲、大資料處理、BI、搜尋與治理。CLF-C02 考的是辨識能力,不是深度調校。
Amazon Athena——在 Amazon S3 上的無伺服器 SQL
Amazon Athena 直接對 Amazon S3 上的資料執行標準 SQL,零基礎架構。計費方式是按掃描的 TB 數。Amazon Athena 以 AWS Glue Data Catalog 作為中繼資料存放處。Amazon Athena 的聯邦查詢也能讀取 Amazon DynamoDB、Amazon RDS 等其他來源。最適合對 Amazon S3 上的日誌檔、CSV 匯出、Apache Parquet 與 Apache ORC 資料集做臨時分析。
Amazon Redshift——PB 等級資料倉儲
Amazon Redshift 是 AWS 針對 Online Analytical Processing(OLAP)的分析服務。它是欄式、大規模平行處理的資料倉儲,可擴充至 PB 等級。Amazon Redshift Serverless 會自動佈建容量。Amazon Redshift Spectrum 讓你直接查詢 Amazon S3 中 EB 等級的資料而不用先載入。Amazon Redshift 擅長企業規模結構化資料的複雜 join 與彙總。
Amazon EMR——託管 Hadoop、Spark、Hive、Presto
Amazon EMR 是託管的大資料 AWS 分析服務,能在 EC2、Amazon EKS、AWS Outposts 或 Amazon EMR Serverless 上執行 Apache Spark、Apache Hadoop、Apache Hive、Presto、Apache HBase 與 Apache Flink。當你需要在程式碼層級完全掌控 Spark 工作、做大規模 ETL 或機器學習資料前處理時,就選 Amazon EMR。
Amazon Kinesis——即時串流
Amazon Kinesis 是由三項串流 AWS 分析服務組成的家族。
- Amazon Kinesis Data Streams——具備生產者與消費者 API 的持久即時記錄串流。你要自己寫消費者(AWS Lambda、Amazon Kinesis Client Library、AWS Glue streaming)。保留期為 1 至 365 天,在單一分片內保持順序。
- Amazon Data Firehose(原名 Kinesis Data Firehose)——完全託管、免寫程式的遞送管線。它會擷取串流,將資料遞送至 Amazon S3、Amazon Redshift、Amazon OpenSearch Service、Splunk、HTTP 端點等,並可選擇透過 AWS Lambda 做行內轉換與格式轉換為 Apache Parquet。
- Amazon Managed Service for Apache Flink(原名 Kinesis Data Analytics)——託管的 Apache Flink,用於即時分析與串流 SQL。
這是 CLF-C02 中 Amazon Kinesis 最常考的陷阱。Amazon Kinesis Data Streams 是為「自訂即時處理」而生——消費者要自己寫程式。Amazon Data Firehose 則是「免寫程式的遞送」——它會自動把資料載入 Amazon S3、Amazon Redshift 或 Amazon OpenSearch Service,且屬於近即時(有緩衝)。題目若說「不寫程式,直接送到 S3」,選 Amazon Data Firehose。題目若說「用 Lambda 自訂消費者」或「次秒延遲」,選 Amazon Kinesis Data Streams。 Source ↗
Amazon MSK——Apache Kafka 託管串流
Amazon MSK 提供完全託管的 Apache Kafka 叢集。當組織已經具備 Kafka 專業或現有 Kafka 整合時,就選 Amazon MSK。Amazon MSK Serverless 免去 broker 容量規劃。Amazon MSK Connect 則執行 Kafka Connect workers。
Amazon OpenSearch Service——搜尋與可觀測性
Amazon OpenSearch Service 是 OpenSearch 的託管 AWS 分析服務(OpenSearch 是 Elasticsearch 的 Apache 2.0 分支)。使用情境:日誌分析、應用程式搜尋、全文搜尋、安全事件分析(SIEM),以及透過 OpenSearch Dashboards(Kibana 的分支)呈現可觀測性儀表板。
AWS Glue——無伺服器 ETL 與 Data Catalog
AWS Glue 是無伺服器的 ETL AWS 分析服務。它以 Glue Crawlers 自動探索 schema,中繼資料存在 AWS Glue Data Catalog(Amazon Athena、Amazon EMR、Amazon Redshift Spectrum 都會用到),並用 Apache Spark 或 Python shell 執行 ETL 工作。AWS Glue DataBrew 是視覺化、免寫程式的資料準備工具。AWS Glue Studio 則是低程式碼的視覺化 ETL 設計器。
Amazon QuickSight——BI 儀表板
Amazon QuickSight 是無伺服器的商業智慧 AWS 分析服務。Enterprise 版支援按 session 計費。Amazon QuickSight Q(現已與 Amazon Q in QuickSight 整合強化)支援自然語言問題,自動生成圖表。Amazon QuickSight SPICE 是記憶體內引擎,快取資料加速儀表板。
AWS Lake Formation——資料湖治理
AWS Lake Formation 在 Amazon S3 上建立並保護資料湖。它透過 AWS Glue Data Catalog,跨 Amazon Athena、Amazon Redshift Spectrum、Amazon EMR 與 AWS Glue 集中管理細粒度存取控制(列、欄、儲存格層級)。AWS Lake Formation 回答的是「資料湖裡誰可以看哪些資料」這個問題。
並列比較(考試高價值重點)
Amazon Athena vs Amazon Redshift
| 維度 | Amazon Athena | Amazon Redshift |
|---|---|---|
| 資料位置 | 直接讀 Amazon S3 | Amazon Redshift 儲存(或 Redshift Spectrum 讀 Amazon S3) |
| 計費 | 每 TB 掃描 | 每節點小時或 Redshift Serverless RPU |
| 最適合 | Amazon S3 原始檔的臨時 SQL | 複雜且反覆執行的 OLAP 報表 |
| 設定 | 無伺服器,無叢集 | 佈建叢集(或無伺服器) |
| 規模 | PB(但按掃描付費) | PB,具備調校索引 |
對 Amazon S3 資料做偶發探索選 Amazon Athena。需要持續高效能分析工作負載,並連接 BI 工具時選 Amazon Redshift。
Amazon Kinesis Data Streams vs Amazon Data Firehose vs Amazon MSK
| 維度 | Kinesis Data Streams | Data Firehose | Amazon MSK |
|---|---|---|---|
| 典範 | 自訂串流消費者 | 免程式碼遞送 | 託管 Apache Kafka |
| 延遲 | 次秒 | 約 60 秒(緩衝) | 次秒 |
| 是否需寫程式 | 需要(消費者) | 極少 | 需要 |
| 目的地 | 任意(自己寫) | S3、Redshift、OpenSearch、Splunk | 任何 Kafka 消費者 |
| 最適合 | 即時自訂應用 | 串流到倉儲的 ETL | Kafka 原生組織 |
Amazon Lex vs Amazon Bedrock
Amazon Lex 是專為有 intents 與 slots 的結構化聊天機器人所設計。Amazon Bedrock 則透過基礎模型生成自由格式文字。現代做法是用 Amazon Lex 處理對話編排,搭配 Amazon Bedrock 做生成式備援回答。
關鍵數字與必背事實
- Well-Architected ML 支柱:Amazon SageMaker 遵循相同的 AWS Well-Architected 原則,但模型資料與程式碼屬於客戶責任(共同責任模型)。
- Amazon Bedrock 資料保留:客戶的提示詞與回應不會用來訓練基礎模型。
- Amazon Kinesis Data Streams 保留期:預設 24 小時,最長可設定為 365 天。
- Amazon Data Firehose 延遲:通常約 60 秒(緩衝大小/間隔可設定)。
- Amazon Redshift 單一叢集儲存:PB 等級(RA3 節點類型將儲存與運算解耦)。
- Amazon Athena 費用模型:隨需模式每 TB 掃描 $5(改用 Parquet/ORC 可大幅降低成本)。
- Amazon QuickSight 定價:按使用者(Standard/Enterprise)及按 session(Enterprise)計費。
- Amazon Rekognition:支援已儲存影像、已儲存影片與串流影片(透過 Amazon Kinesis Video Streams)。
- Amazon Transcribe:支援即時(串流)與批次轉錄。
- AWS Glue Data Catalog:與 Hive 相容,可在 Amazon Athena、Amazon EMR、Amazon Redshift Spectrum 之間共用。
常見考試陷阱
- Amazon SageMaker vs Amazon Bedrock:訓練 vs 呼叫。題目出現「預訓練基礎模型」和「生成式 AI API」是 Amazon Bedrock。出現「建構、訓練、部署自訂模型」是 Amazon SageMaker。
- Amazon Athena vs Amazon Redshift:直接在 S3 上 SQL vs OLAP 資料倉儲。「對 S3 日誌檔做臨時 SQL」是 Amazon Athena。「對經過整理的星型結構做 BI 儀表板複雜 join」是 Amazon Redshift。
- Kinesis Data Streams vs Data Firehose:寫程式 vs 免寫程式。「不寫消費者程式、直接送到 S3」是 Amazon Data Firehose。「用 AWS Lambda 在毫秒內處理每一筆紀錄」是 Amazon Kinesis Data Streams。
- Amazon Lex vs Amazon Bedrock:結構化聊天機器人 vs 自由生成。「有 intents 的語音或文字機器人」是 Amazon Lex。「摘要或創意文字生成」是 Amazon Bedrock。
- Amazon Rekognition vs Amazon Textract:影像 vs 文件。「照片中偵測人物」是 Amazon Rekognition。「從發票 PDF 萃取欄位」是 Amazon Textract。
- Amazon Comprehend vs Amazon Kendra:NLP 萃取 vs 搜尋。「情感、實體、PII」是 Amazon Comprehend。「跨 SharePoint 與 S3 找到正確文件」是 Amazon Kendra。
- Amazon EMR vs AWS Glue:自管 Spark vs 無伺服器 ETL。「有 Spark 開發者執行自訂程式」是 Amazon EMR。「零維運、附爬蟲與 Data Catalog 的 ETL」是 AWS Glue。
- Amazon MSK vs Kinesis:Kafka 生態系 vs AWS 原生串流。「已使用 Apache Kafka」是 Amazon MSK。「想要 AWS 原生的簡潔」是 Amazon Kinesis。
- Amazon Q Business vs Amazon Q Developer:業務使用者 vs 開發者。非技術使用者對內部文件發問是 Amazon Q Business。IDE 內程式建議是 Amazon Q Developer。
Amazon Kendra 是託管的 AI/ML 搜尋產品,能理解自然語言問題,並針對跨多種連接器的企業內容做最佳化。Amazon OpenSearch Service 則是託管的搜尋與分析引擎(Elasticsearch 的分支)——你要自己操作叢集、定義索引、撰寫查詢。題目若強調「針對公司文件做自然語言問答」,選 Amazon Kendra。若強調「自建搜尋索引或日誌分析儀表板」,選 Amazon OpenSearch Service。 Source ↗
Explorer 資料顯示生成式 AI 題目成長 35%。近期每一場 CLF-C02 考試至少都會出現一題 Amazon Bedrock 或 Amazon Q。這一節千萬不要略過。請牢記:Amazon Bedrock = 存取基礎模型的 API;Amazon Q = 預建 AI 助理(Business、Developer、in QuickSight、in Connect)。這兩項服務是 2024–2026 年 CLF-C02 考試中最具價值的新增內容。 Source ↗
AI/ML 服務 vs 其他服務類別——與 3.8 的分界
Task 3.7 涵蓋 AI/ML 與分析。Task 3.8 涵蓋其他所有類別——應用整合(Amazon SQS、Amazon SNS、Amazon EventBridge)、開發者工具(AWS CodePipeline)、終端使用者運算(Amazon WorkSpaces)、IoT(AWS IoT Core)。有一個容易混淆的點:Amazon Kinesis Video Streams 有時會與 Amazon Rekognition(AI/ML)一起出現,但技術上它屬於串流家族(比較接近分析類)。考試時請把 Amazon Kinesis Video Streams 當成可以餵給 Amazon Rekognition 的 AWS 分析擷取服務。
另一條分界:Amazon OpenSearch Service 既可作為搜尋後端,也可作為可觀測性工具。即使情境是安全事件分析,它仍然屬於 AWS 分析服務,不屬於安全領域(領域 2)。
練習題連結——Task 3.7 對應練習
情境 1:行銷團隊想將商品描述翻成 12 種語言,又不想招募翻譯人員。正確選擇:Amazon Translate。
情境 2:開發者想在行動 App 中加入使用 Anthropic Claude 的聊天體驗。正確選擇:Amazon Bedrock。
情境 3:資料科學團隊需要 Jupyter notebook、分散式訓練與託管部署來做詐騙偵測模型。正確選擇:Amazon SageMaker。
情境 4:銀行想從掃描的貸款申請書萃取欄位。正確選擇:Amazon Textract。
情境 5:一家 SaaS 公司想把網站點擊串流事件送到 Amazon S3 稍後分析,要近即時緩衝且不寫程式。正確選擇:Amazon Data Firehose。
情境 6:分析師想對 Amazon S3 中的 JSON 日誌執行臨時 SQL 查詢,且不願佈建任何叢集。正確選擇:Amazon Athena。
情境 7:BI 團隊想打造支援自然語言問答的互動儀表板。正確選擇:Amazon QuickSight(搭配 Amazon Q in QuickSight)。
情境 8:企業希望員工能用英文自然語言搜尋 SharePoint、Salesforce 與 Amazon S3。正確選擇:Amazon Kendra。
情境 9:運維團隊需要在 PB 等級的星型結構上執行夜間 BI 的複雜 join。正確選擇:Amazon Redshift。
情境 10:媒體公司想偵測使用者上傳影片中的不安全內容。正確選擇:Amazon Rekognition。
FAQ——AWS AI/ML 與分析服務熱門問題
1. Amazon Bedrock 與 Amazon SageMaker 有什麼差別?
Amazon Bedrock 讓你透過 API 存取預訓練的基礎模型(Claude、Llama、Titan、Mistral 等)來做生成式 AI,完全不需訓練。Amazon SageMaker 則是端對端的 AWS AI/ML 平台,用來建構、訓練並部署自己的自訂模型。如果你從不想訓練模型,就用 Amazon Bedrock。如果需要在程式碼層級用自己的資料訓練或微調,就用 Amazon SageMaker(Amazon SageMaker JumpStart 也提供部分基礎模型供微調)。CLF-C02 考試中,提到「基礎模型」或「生成式 AI」的題目幾乎都對應到 Amazon Bedrock。
2. 什麼時候該用 Amazon Athena 而不是 Amazon Redshift?
當資料本來就在 Amazon S3,查詢是臨時或偶發,而且你希望零基礎架構時,選 Amazon Athena。當你需要持續的 OLAP 效能、複雜 join、物化檢視,以及為數百位分析師串接 BI 工具時,選 Amazon Redshift。Amazon Athena 按掃描 TB 數計費——小量或偶發查詢便宜,反覆全表掃描昂貴。Amazon Redshift 按節點小時(或 Redshift Serverless RPU)計費——持續重度工作負載反而便宜。
3. Amazon Kinesis Data Streams 跟 Amazon Data Firehose 一樣嗎?
不一樣。Amazon Kinesis Data Streams 是持久的即時串流,你要自己寫消費者(AWS Lambda、Amazon Kinesis Client Library、AWS Glue streaming)。Amazon Data Firehose 則是免寫程式的遞送管線,可自動把串流寫入 Amazon S3、Amazon Redshift、Amazon OpenSearch Service 或 Splunk,近即時緩衝。題目說「自訂即時處理」選 Amazon Kinesis Data Streams;說「不寫程式直接送到目的地」選 Amazon Data Firehose。
4. Amazon Q 是什麼?它跟 Amazon Bedrock 有什麼不同?
Amazon Q 是一組預建 AI 助理家族(Amazon Q Business 企業問答、Amazon Q Developer 程式開發、Amazon Q in QuickSight BI、Amazon Q in Connect 客服協助)。Amazon Bedrock 則是底層的 AWS AI/ML 服務,透過 API 存取原始基礎模型。Amazon Q 是非技術使用者透過現成助理接觸的產品;Amazon Bedrock 是開發者從程式碼呼叫、用來打造自家生成式 AI 應用的服務。可以把 Amazon Q 想成整輛現成的車,Amazon Bedrock 則是引擎。
5. 要做 OCR 該用哪個 AWS AI/ML 服務?
用 Amazon Textract 做 OCR 加結構萃取,包含文件、表單與表格。Amazon Textract 優於一般 OCR,因為它保留鍵/值對、表格儲存格與關聯關係——非常適合發票、稅表、身分證件、病歷。從影像中純擷取文字(例如街道標誌)也可以用 Amazon Rekognition 的影像文字偵測,但凡屬於文件導向情境(收據、PDF、表單)都該選 Amazon Textract。
6. 如果我已經用 Amazon Athena,還需要 AWS Glue 嗎?
通常需要——Amazon Athena 預設以 AWS Glue Data Catalog 作為中繼資料存放處。AWS Glue Crawlers 會自動探索 Amazon S3 的 schema 並註冊,讓 Amazon Athena 知道有哪些欄位存在。AWS Glue 的 ETL 工作也能把資料轉成 Apache Parquet 這類欄式格式,大幅降低 Amazon Athena 的掃描成本。CLF-C02 請記住:AWS Glue = 無伺服器 ETL 加 Data Catalog;Amazon Athena = 無伺服器 SQL。它們是互補而不是競爭。
7. AWS AI/ML 服務適用 AWS 共同責任模型嗎?
是的。AWS 負責 AI/ML 服務本身的安全性(基礎架構、託管模型運作、修補)。客戶負責服務中的安全性(訓練資料保護、IAM 政策、提示詞內容、模型產物、API 金鑰管理)。這與 Amazon RDS 等其他託管服務一致。以 Amazon Bedrock 為例,客戶的提示詞與回應不會被用來訓練基礎模型——這是考題中常見的合規關注點。
延伸閱讀
- Amazon SageMaker Developer Guide——端對端 ML 工作流程。https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html
- Amazon Bedrock User Guide——基礎模型與 RAG。https://docs.aws.amazon.com/bedrock/latest/userguide/what-is-bedrock.html
- Amazon Q Business User Guide——企業 AI 助理。https://docs.aws.amazon.com/amazonq/latest/qbusiness-ug/what-is.html
- Amazon Athena User Guide——在 S3 上的無伺服器 SQL。https://docs.aws.amazon.com/athena/latest/ug/what-is.html
- Amazon Redshift Management Guide——資料倉儲。https://docs.aws.amazon.com/redshift/latest/mgmt/welcome.html
- Amazon Kinesis Data Streams Developer Guide。https://docs.aws.amazon.com/streams/latest/dev/introduction.html
- AWS Glue Developer Guide——ETL 與 Data Catalog。https://docs.aws.amazon.com/glue/latest/dg/what-is-glue.html
- AWS Certified Cloud Practitioner Exam Guide v1.0。https://d1.awsstatic.com/training-and-certification/docs-cloud-practitioner/AWS-Certified-Cloud-Practitioner_Exam-Guide.pdf
摘要
AWS AI/ML 服務分成三層:Amazon SageMaker(自訂 ML)、Amazon Bedrock 與 Amazon Q(生成式 AI),以及任務導向 API(Amazon Rekognition、Amazon Comprehend、Amazon Textract、Amazon Transcribe、Amazon Polly、Amazon Translate、Amazon Lex、Amazon Personalize、Amazon Forecast、Amazon Kendra)。AWS 分析服務則分為擷取(Amazon Kinesis、Amazon MSK)、儲存與目錄(Amazon S3 搭配 AWS Glue Data Catalog、AWS Lake Formation)、處理(Amazon Athena、Amazon EMR、AWS Glue)、倉儲(Amazon Redshift)、搜尋(Amazon OpenSearch Service)與 BI(Amazon QuickSight)。CLF-C02 要能辨識「名詞對服務」的對應、記住 SageMaker vs Bedrock 規則,千萬不要把 Amazon Kinesis Data Streams 跟 Amazon Data Firehose 搞混。鑑於 AWS AI/ML 服務考題成長 25%,生成式 AI 訊號成長 35%,這是 CLF-C02 考試前領域 3 中投資報酬率最高的主題。