明確標準 Prompt 設計：提升 Precision

明確標準 prompt 設計是 Claude Certified Architect — Foundations（CCA-F）考試 Domain 4 的機械核心。任務說明 4.1——「設計具有明確標準的 prompt 以提升 precision 並降低 false positive」——錨定了一個佔比 20% 的領域，並貢獻了結構化資料 extraction 情境題中比例最高的考題。考試指南對其期待非常清楚：能夠把模糊的指令（「標記可疑交易」）改寫成可執行的標準區塊（「標記 amount > $10,000 AND merchant_country 不同於 billing_country AND 該帳戶在過去 90 天內沒有在該國家的交易記錄」）的考生，才能通過考試。把 prompt 當成散文而非規格書的考生，往往在這道任務說明上考試當天失分。

這份學習筆記完整涵蓋 CCA-F 考生必須掌握的明確標準設計面向：為何具體性能降低 hallucination、條件-閾值-行動三元組結構、正向與負向標準、數值閾值相對於定性形容詞的優勢、邊界案例列舉、classification 邊界規則、收緊標準所帶來的 precision 與 recall 權衡、針對標記邊界集的標準測試、版本管理紀律，以及欄位層級的 extraction 規則。最後的常見陷阱章節與 FAQ，將每個抽象原則連回考試從中取材最積極的結構化資料 extraction 情境。

為何明確標準重要——具體性降低 Hallucination

大型語言模型是模式補全器。當 prompt 說「標記可疑交易」，Claude 必須從其預訓練分佈中推斷「可疑」的定義——而那個分佈涵蓋了從銀行詐欺教科書、論壇奇聞，到電影情節的一切內容。缺乏明確標準，模型就以一個平均化、不可預測的定義來填補空缺，同一個 prompt 的兩次執行可能產生互不相容的結果。

明確標準收縮了這個推理空間。當 prompt 說「標記 amount > $10,000 AND merchant_country 不同於 billing_country」，Claude 就沒有任何需要自行發明的東西了。Prompt 已成為一份規格書，任何符合標準的實作——無論是人類、規則引擎或模型——都能確定性地執行。Precision 提升，因為標準縮窄了比對範圍；false positive 降低，因為過去因語意重疊而鑽空子的邊界案例，現在都被明確排除了。

CCA-F 考試一貫地獎勵四個選項中最嚴謹、最像規格書的標準。「考量交易背景並運用判斷力標記可疑項目」這樣的干擾選項聽起來很有深度，但幾乎每次都輸給「標記 amount > $10,000 AND merchant_country 不同於 billing_country AND 該帳戶在過去 90 天內沒有在該國家的交易記錄」。明確標準在考試中幾乎每次都勝過模型判斷。

Explicit criteria 是將決策規則表達為完整指定謂詞的 prompt 指令——可觀察條件、數值閾值與必要行動的組合——不留任何解釋空間讓模型從預訓練先驗中填補。Explicit criteria 以可測試、可稽核的邏輯取代了「可疑」、「相關」或「重要」等模糊措辭，能在多次執行間產生可重現的結果，且非技術審閱者也能對照具體範例進行評估。 Source ↗

模糊指令創造了「模糊預算」

Prompt 中每一個模糊詞彙——「相關」、「合理」、「顯著」、「高品質」——都會創造一個模糊預算，讓 Claude 朝其訓練先驗漂移來消耗。Prompt 中模糊詞彙越少，漂移幅度就越小。在 CCA-F 結構化資料 extraction 情境中，把「重大發現」定義為「confidence score ≥ 0.85 AND severity 屬於 {high, critical}」的 prompt，無論在 precision 還是逐次執行的穩定性上，都會優於單獨依賴「重大」這個詞彙的 prompt。

標準解剖——條件-閾值-行動三元組

每一個完整的明確標準都分解為三個部分。內化這個三元組結構，是 CCA-F 考生在 Domain 4 能做到的單一最高效益之事。

條件（Condition） — 規則所測試的輸入可觀察特徵。範例：transaction.amount、document.length、message.sender_domain、address.country_code。
閾值（Threshold） — 用於與條件比較的數值界限、列舉集合或模式。範例：> 10000、in {US, CA, GB}、matches /^\d{3}-\d{2}-\d{4}$/。
行動（Action） — 當條件滿足閾值時觸發的決策。範例：set flag = true、加入審核佇列、略過 extraction、return confidence = low。

缺少三個部分中任何一個的標準，都是定義不完整的。「標記可疑交易」有行動（標記）但沒有條件也沒有閾值。「Amount > $10,000」有條件和閾值但沒有行動。「如果可疑就標記」有條件和行動但沒有閾值——而且「可疑」並不可觀察。

以三元組形式撰寫標準

CCA-F 等級標準區塊的建議 prompt 形狀如下：

<criteria>
  <rule id="R1">
    Condition: transaction.amount
    Threshold: > 10000 USD
    Action: add "high-value" flag
  </rule>
  <rule id="R2">
    Condition: merchant_country != billing_country
    Threshold: equality test
    Action: add "cross-border" flag
  </rule>
  <rule id="R3">
    Condition: account.prior_transactions_in(merchant_country, 90 days)
    Threshold: == 0
    Action: add "novel-geography" flag
  </rule>
  <rule id="COMBINED">
    Condition: count(flags) >= 2
    Threshold: >= 2
    Action: route to fraud review; otherwise pass through
  </rule>
</criteria>

這個形狀與三元組結構，以及 Claude 建議使用的 XML 結構化 prompt 一一對應。明確的 <rule id="..."> 鷹架對考試十分友善——把散文改寫為三元組形式的情境題，一貫地將三元組形式標記為正確答案。

每個明確標準都有三個部分：

條件（Condition） — 被測試的可觀察特徵（例：transaction.amount）。
閾值（Threshold） — 數值界限或列舉集合（例：> 10000）。
行動（Action） — 當條件滿足閾值時觸發的決策（例：flag for review）。

缺少三個部分中任何一個的標準，都是定義不完整的。CCA-F 情境題一貫地將三元組形式的答案標記為正確，優於散文形式的干擾選項。 Source ↗

正向與負向標準——同時指定該做什麼與不該做什麼

一個微妙但高頻出現的考試模式：明確標準必須涵蓋每個邊界的兩側。只說明要標記什麼，會讓 Claude 從預訓練先驗推斷不標記什麼；只說明要忽略什麼，則在另一側留下相同的空缺。

正向標準——納入規則

正向標準描述何時採取目標行動。它們將比對範圍從「Claude 認為可疑的任何事物」縮窄到「正好是這些列舉的案例」。

負向標準——排除規則

負向標準描述看似比對但必須排除的案例。沒有負向標準，Claude 的模式補全傾向就會拉入近似比對——這種行為在最重要的案例上膨脹了 false positive。

搭配正向與負向標準

生產等級的標準區塊，會針對每個敏感邊界搭配納入規則與排除規則：

<criteria>
  <include>
    Flag transactions where amount > 10000 USD AND merchant_country != billing_country.
  </include>
  <exclude>
    Do NOT flag transactions where the merchant is on the user's allowlist,
    regardless of amount or geography.
  </exclude>
  <exclude>
    Do NOT flag recurring subscription charges (same merchant, same amount,
    monthly cadence, at least 3 prior payments) even if amount > 10000 USD.
  </exclude>
</criteria>

搭配明確的納入與排除規則，是結構化資料 extraction 情境題中使用的標準模式。包含負向標準的情境答案，一貫地優於只列出正向標準的答案，因為負向標準才是真正降低 false positive 的關鍵。

在 CCA-F 情境題中，只要題目以「降低 false positive」為目標，就在選項文字中尋找明確的負向或排除標準。只列出納入標準的選項，在極限情況下或許能收緊 precision，但當 false positive 降低是明確目標時，考試更偏好將納入規則與明確排除規則搭配的選項，並將其標記為正確答案。 Source ↗

標準量化——數值閾值優於定性形容詞

數值閾值是確定性的；定性形容詞是解釋性的。每一個將形容詞替換為數字的機會，就是從 prompt 中移除一個模糊預算的機會。

應避免的形容詞

以下詞彙在 CCA-F prompt 改寫題中是紅旗：

「高」 → 替換為明確的數值閾值（例：> 0.85）。
「顯著」 → 替換為可量測的幅度（例：change >= 10%）。
「大量」 → 替換為有單位的數值（例：document_length > 50000 characters）。
「近期」 → 替換為時間界限（例：within the last 7 days）。
「許多」 → 替換為計數（例：>= 3 occurrences）。
「重要」 → 替換為列舉類別（例：severity in {high, critical}）。
「可疑」 → 分解為條件-閾值-行動規則。

為何數字勝過形容詞

數字迫使 prompt 作者與現實協商。「高 confidence」是一種感覺；「confidence_score >= 0.85」是可測試的邊界，可根據評估指標進行調整。當工程師發現 precision 過低時，可以將數字調整到 0.90 並量測影響。「高」這個字沒有等效的校準機制。

當形容詞不可避免時

有些標準確實難以化約為數字——「文件以正式語域撰寫」、「答案離題」、「語氣不專業」。對於這些情況，正確的備用方案是以範例列舉：提供一組標記過的範例來錨定該形容詞。這正是明確標準與 few-shot prompting（任務 4.2）交會之處。標準提供規則；few-shot 範例為任何不可化約的定性部分提供校準。

邊界案例規格——在 Prompt 中列舉已知的模糊案例

即使是撰寫良好的標準區塊，也會遺漏有經驗的領域專家能發現的邊界案例。解決方法不是放寬標準——而是直接在 prompt 內列舉已知的模糊案例。

為何邊界案例屬於 Prompt

Claude 無法推斷它從未見過的邊界案例。如果你的領域經常遇到理性的人類也會意見不一的模糊輸入——一筆符合金額閾值但客戶事先已標記的交易；一個存在但為空的 extraction 欄位；一份包含目標實體但出現在引用脈絡中的文件——解決模糊性的正確地方是 prompt，而不是下游清理程式碼。

邊界案例列舉模式

<edge_cases>
  <case id="E1">
    If a transaction matches R1-R3 but the customer has a "travel notice"
    flag active for the merchant_country, DO NOT flag the transaction.
  </case>
  <case id="E2">
    If the extraction field is present in the document but the value is
    empty string, null, or whitespace-only, return { "value": null, "confidence": 0.0 }.
    Do NOT attempt to infer a value from surrounding context.
  </case>
  <case id="E3">
    If the target entity appears inside a quotation (surrounded by quote marks
    or cited as a source), extract it but mark attribution = "quoted".
  </case>
</edge_cases>

列舉的邊界案例是 CCA-F 的最愛，因為它們將隱性的領域知識轉化為明確的指令，這些指令可稽核、可測試、可版本管理。它們也能與 few-shot 範例組合使用——每個邊界案例都可配對一個標記過的範例來強化規則。

CCA-F 考試一貫地偏好在 prompt 中列舉已知邊界案例的答案，而非仰賴 Claude 判斷的答案。當情境題描述一個反覆出現的模糊案例（「有時欄位是空的」、「有時商家在 allowlist 上」、「有時實體是被引用而非被討論的」），正確答案通常是新增明確的邊界案例規則，而非擴展主要標準區塊或在後處理程式碼中處理。邊界案例屬於 prompt，因為那才是 Claude 能套用它們的地方；隱藏在後處理中的邊界案例，仍然讓 Claude 產生不正確的中間輸出。 Source ↗

Classification 標準設計——邊界案例的決策規則

Classification 是 CCA-F 中受益於明確標準最多的任務。Classification 決策就是邊界決策；每對相鄰類別之間都有一條 prompt 必須解決的邊界。讓邊界保持隱性，就是將它交給預訓練先驗；讓它明確，就是穩定了分類器。

單一類別邊界規則模式

對於二元分類器，你需要一條能明確區分兩個類別的規則。模糊的規則（「若訊息看起來具有時效性就分類為緊急」）會失效；明確的規則（「若以下任一條件成立則分類為緊急：訊息包含『今日下班前』、訊息由 VIP 帳戶傳送、訊息提及正在發生的服務中斷」）則成功。

多類別邊界規則模式

對於 N 類分類器，你需要 N-1 條邊界規則加上優先順序。沒有優先順序，Claude 可能將輸入分配給 prompt 中第一個或最後一個列出的類別。明確的優先順序解決了這個問題：

<classification>
  <rule priority="1">
    If message contains explicit outage language (down, broken, not working)
    OR sender is a VIP account, classify as CRITICAL.
  </rule>
  <rule priority="2">
    If message asks a question that references a specific feature or workflow
    AND no CRITICAL conditions match, classify as TECHNICAL.
  </rule>
  <rule priority="3">
    If message is a thank-you, feedback, or general comment
    AND no higher-priority rule matches, classify as FEEDBACK.
  </rule>
  <rule priority="4">
    Otherwise classify as OTHER.
  </rule>
</classification>

類別定義屬於 Prompt

永遠不要假設 Claude 與你共享完全相同的類別定義。Prompt 必須包含每個類別一到兩句話的定義，以和標準相同的語言撰寫。如果你的分類器有五個類別，你的 prompt 就有五個類別定義。合計成本（幾百個 token）與 precision 的提升相比微不足道。

False Positive 降低——收緊標準以縮窄比對範圍

False positive 是 CCA-F 結構化資料 extraction 情境中被引用最多的 precision 失敗。機械性地降低它們，是收緊標準的工作。四個槓桿佔主導地位。

槓桿一：提高數值閾值

將 confidence_score > 0.70 移動到 confidence_score > 0.85，機械性地降低 false positive 率。代價是較低的 recall（某些 confidence_score 介於 0.70 到 0.85 之間的真正 positive 會被遺漏），但對於 false positive 代價高昂的工作流程——詐欺審核佇列、法律留存、合規標記——這個交換通常是值得的。

槓桿二：新增必要的 AND 條件

每一個以 AND 串接的正向標準都縮窄了比對範圍。「Amount > $10,000」捕捉到太多合法交易；「Amount > $10,000 AND merchant_country != billing_country AND 在 merchant_country 沒有先前交易」則捕捉到一個小得多、precision 高得多的集合。

槓桿三：新增負向（排除）標準

排除規則從比對範圍中剔除合法的近似案例，而不進一步限制正向側。「不標記定期訂閱費用」排除了一整類 false positive，同時不影響真正的詐欺訊號。

槓桿四：要求證據欄位

要求 Claude 回傳觸發比對的具體證據——「包含能證明比對的確切文字摘錄」、「包含滿足規則的欄位名稱」。要求提供證據能降低 hallucination 的比對，因為 Claude 無法像捏造標記那樣輕易地捏造證據。

透過標準收緊來降低 false positive，是一種透過提高數值閾值、新增 AND 條件、新增明確排除規則，以及要求輸出中包含證據欄位來縮窄 prompt 比對範圍的做法。每個槓桿都以犧牲一些 recall 為代價來改善 precision；校準良好的標準區塊，會根據每種錯誤類型的商業成本來平衡兩者。CCA-F 結構化資料 extraction 情境題一貫地獎勵同時應用至少兩個收緊槓桿的答案。 Source ↗

False Negative 權衡——標準收緊時的 Precision 與 Recall

你新增的每一個標準，都同時降低了 false positive 和 true positive。這就是 precision 與 recall 的權衡，CCA-F 考試測試考生是否能認識到這一點。

Precision 與 Recall——Prompt 設計的定義

Precision = 在 prompt 標記的項目中，有多少比例是真正正確的比對。高 precision 意味著 false positive 很少。
Recall = 在所有真正正確的比對中，有多少比例被 prompt 標記出來。高 recall 意味著 false negative 很少。

標準鬆散到標記一切的 prompt，recall 為 100% 但 precision 很低。標準嚴格到什麼都不標記的 prompt，recall 未定義且 false positive 為零。這兩個極端之間的工作點，是商業決策，而不是模型決策。

領域成本決定工作點

嚴格標準（高 precision、低 recall）適用於 false positive 代價高昂的情況——法律審核、詐欺佇列、安全事件。寬鬆標準（高 recall、低 precision）適用於 false negative 代價高昂的情況——醫療篩查、安全關鍵警報、法規遵循。CCA-F 考試期望考生在情境答案中明確闡述這個權衡。

透過評估進行校準

沒有標記好的評估集，就無法校準 precision-recall 的權衡。正確的工作流程：

在標記好的集合上執行 prompt。
在當前標準下量測 precision 和 recall。
調整標準（收緊或放寬）。
重新執行並重新量測。
反覆迭代，直到工作點符合商業需求。

這是從 prompt 設計（任務 4.1）通往驗證與重試迴圈（任務 4.4）的橋樑。明確標準給你旋鈕可以轉動；標記好的評估集告訴你要轉多遠。

CCA-F 情境答案中，承認 precision-recall 權衡的答案——「收緊這些標準將降低 false positive，但可能在邊界案例上增加 false negative；請在標記的評估集上監控 recall」——一貫地優於將收緊視為免費改善的答案。考試獎勵命名成本而非只說明好處的工程成熟度。 Source ↗

標準測試——針對標記邊界案例集評估 Prompt

明確的標準區塊，只有在校準它的評估達到一定品質時才有意義。CCA-F 期望考生像對待程式碼變更一樣對待 prompt 變更：針對固定的測試集量測，並設置明確的通過/失敗閾值。

最小標記集

標準區塊可用的評估集包含：

30-100 個正向案例 — 應該符合標準的輸入，涵蓋典型分佈。
30-100 個負向案例 — 不應符合的輸入，包括過去產生 false positive 的近似案例。
10-30 個邊界案例 — prompt 明確處理的已列舉模糊案例，每個都標記了預期輸出。

這不是研究等級的評估；而是捕捉收緊或放寬標準時發生回歸的最小可行測試框架。

執行評估

在完整的標記集上執行 prompt。在正向/負向拆分上計算 precision 和 recall。對於邊界案例，計算精確比對準確率——prompt 是否針對每個已知模糊案例產生了預期輸出。

解讀結果

若 precision 過低，使用上述四個槓桿收緊標準。
若 recall 過低，放寬標準或鬆弛閾值。
若邊界案例準確率過低，表示列舉的邊界案例規則沒有被套用——精煉其措辭或新增強化用的 few-shot 範例。

評估迴圈就是設計迴圈

沒有評估迴圈的明確標準只是猜測。迴圈是：修改標準 → 執行評估 → 量測 precision/recall/邊界案例準確率 → 決定是否提交、精煉或還原。這與軟體工程單元測試的紀律相同，應用於 prompt 上。

標準版本管理——追蹤 Prompt 變更及其 Precision 影響

標準區塊是原始碼。它們屬於版本控制，需要變更歷史、程式碼審查和回滾路徑。

要版本管理的內容

完整的 prompt 文字，包括 system prompt、標準區塊、邊界案例和 few-shot 範例。
評估集（正向、負向、邊界案例，含標記）。
每個已提交版本的量測指標（precision、recall、邊界案例準確率）。

變更日誌紀律

每次標準變更都應有一筆記錄，記載：

變更了什麼（哪條規則、哪個閾值、哪個邊界案例）。
為何變更（哪個失敗範例、哪個利害關係人的請求、哪個商業規則更新）。
在評估集上變更前後量測到的 precision/recall。
提交雜湊值或等效的版本識別碼。

回滾是設計特性

為了回應 false positive 投訴而收緊標準，可能會無意間壓垮合法案例的 recall。沒有版本管理，就無法回滾；有了版本管理，回滾只需一個指令。提到 prompt 版本管理的 CCA-F 情境答案，一貫地優於將 prompt 視為一次性產物的答案。

標準版本管理是 CCA-F 情境題中頻繁出現的切入點。當題目描述一個過去正常運作、現在產生回歸的 prompt，正確答案幾乎總是包含「回滾到先前的 prompt 版本並比對標準變更」或「查閱標準變更日誌以找出觸發回歸的規則變更」。不查閱版本歷史就提出從頭重新工程的答案，會被標記為過度工程。 Source ↗

Extraction 任務的標準——結構化資料的欄位層級規則

結構化資料 extraction 情境是明確標準在 CCA-F 考試上最重度發揮作用之處。結構化 extraction 意指從非結構化或半結構化輸入中提取具名欄位，並輸出符合 schema 的物件。每個欄位都值得有自己的標準區塊。

欄位層級標準

對於 extraction schema 中的每個欄位，prompt 應指定：

來源規則（Source rule） — 在輸入的哪裡尋找（例：「customer_name 是 header 區塊中『Customer:』後面的值」）。
格式規則（Format rule） — 值的預期形狀（例：「ISO 8601 日期字串」、「E.164 電話號碼」、「全大寫國家碼」）。
存在規則（Presence rule） — 欄位缺失時該如何處理（例：「回傳 null；不要從周圍脈絡推斷」）。
模糊性規則（Ambiguity rule） — 存在多個候選值時該如何處理（例：「若出現多個客戶名稱，選擇 header 中的那個；若沒有 header，回傳 null」）。

Strict Tool Use 作為強制層

明確標準產生正確的值；strict tool use 產生正確的形狀。將 extraction 定義為帶有 strict: true 的 tool call，保證 Claude 的輸出符合 JSON Schema——缺少欄位、錯誤類型和多餘的鍵都不可能出現。標準區塊管理內容；strict schema 管理結構。這兩層是組合關係——它們不是替代品。

證據連結欄位

對於需要稽核的 extraction，要求每個欄位包含支持該值的來源文字摘錄。這在標準中很便宜（「對於每個提取的欄位，包含一個 source_excerpt，其中包含輸入中支持該值的逐字文字」），且能大幅降低 hallucination 的 extraction。考試將此模式視為結構化資料 extraction 的最佳實踐。

欄位層級 extraction 標準是針對每個欄位的 prompt 規則，為輸出 schema 中的每個欄位指定：在輸入的哪裡尋找（來源規則）、值必須採用什麼形狀（格式規則）、欄位缺失時該如何處理（存在規則），以及如何解決多個候選值（模糊性規則）。與 strict tool use 和證據連結輸出欄位組合後，欄位層級標準是 CCA-F 偏好的結構化資料 extraction 工作流程模式，因為它們產生精確、可稽核、可針對標記集測試的 extraction 結果。 Source ↗

標準如何與 Few-Shot 範例組合

明確標準與 few-shot 範例是互補的，而非競爭關係。考試一貫地測試考生是否了解這一點。

標準定義規則；範例校準規則

標準以散文或結構化形式表達決策規則。範例在具體實例中錨定規則，消除微妙邊界案例的歧義。有標準但零範例的 prompt，傾向於執行規則的字面意思但錯過精神；有範例但無標準的 prompt，傾向於過度擬合範例，並在與範例集不同的輸入上行為失常。

何時對標準新增範例

在以下情況新增 few-shot 範例：

標準包含不可化約的定性元素（語氣、語域、專業度）。
邊界案例規則有非直觀的正確輸出，受益於視覺強化。
輸出格式足夠複雜，以至於具體實例比散文描述更能說明。

建議的組合形狀

<instructions>
  [task description]
</instructions>
<criteria>
  [explicit rules as triplets]
</criteria>
<edge_cases>
  [enumerated ambiguous cases with rules]
</edge_cases>
<examples>
  [3-5 input/output pairs that exercise criteria and edge cases]
</examples>
<input>
  [the actual input to process]
</input>

這個順序符合 Anthropic 的公開建議：標準和邊界案例建立邏輯；範例錨定邏輯；輸入排在最後，讓最新的脈絡在注意力中最清晰。

XML 標籤不是可選的

Claude 被訓練為能解析 prompt 中的 XML 標籤。使用 <criteria>、<edge_cases>、<examples> 和 <input> 作為明確章節，相較於非結構化散文，能大幅改善標準遵守程度。考試一貫地將 XML 標籤化的 prompt 標記為正確，優於內容相同的散文 prompt。

白話說明

抽象的標準機制，一旦錨定在大多數考生已經熟悉的具體情境上，就會變得直觀。三個截然不同的類比涵蓋了明確標準設計的完整面貌。

類比一：衛生稽查員的查核表——標準作為三元組

想像一位衛生稽查員走進一間餐廳廚房。一個模糊的稽查員四處走動說「標記任何不衛生的地方」。兩個稽查員對「不衛生」的認定會持續不一致，同一個稽查員在不同天也可能做出不同的結論。一個專業稽查員帶著查核表：「若熟肉的表面溫度低於 60°C 則標記」（條件 + 閾值 + 行動）；「若生雞肉存放在即食食品上方則標記」（條件 + 閾值 + 行動）；「不標記不鏽鋼上能擦掉的輕微水漬」（負向標準）。查核表將稽查從解釋性的藝術轉化為可重現的程序。兩個使用相同查核表的稽查員產生相同的報告。明確標準對 Claude 做的事，正是查核表對稽查員做的事：它們以可觀察的規則取代解釋性判斷，這就是 precision 改善、逐次執行的差異縮小的原因。CCA-F 考試獎勵能為模糊指令撰寫出查核表版本的考生。

類比二：機場安全檢查線——Precision、Recall 與權衡

機場安保是一個活生生的 precision 與 recall 實驗。寬鬆的檢查政策讓所有人快速通過（非威脅的 recall 高、false positive 為零，但真正的威脅溜走——威脅偵測的 precision 低）。嚴格的政策仔細審查每位旅客（威脅的 precision 高，但許多無辜旅客被標記——非威脅快速通過的 recall 低）。安保主管必須根據每種錯誤類型的成本選擇工作點：錯失威脅的成本相對於誤報的成本。政策將工作點表達為明確標準：「若以下任一條件成立，旅客進入二次篩查——液體超過 100ml、金屬超過 X 克、隨機抽查，或列於觀察名單」。這些就是條件-閾值-行動三元組。當新威脅出現，標準收緊（降低閾值、新增條件）；當排隊過長的投訴增加，標準放寬。Claude 的 prompt 工程師面對著相同的經濟體：收緊標準以犧牲 recall 為代價降低 false positive；放寬標準以犧牲 false positive 為代價提高 recall。CCA-F 考試希望考生闡明這個權衡，而非將收緊視為免費的勝利。

類比三：藥師的處方核查——邊界案例與排除規則

藥師收到一張處方並必須決定是否配藥。正向標準：「處方有有效簽名、患者 ID 相符、藥物有庫存、劑量在指引範圍內」。負向標準：「若患者正在使用禁忌藥物則不配藥；若劑量超過依體重調整的最大值則不配藥；若保險拒絕申請則不配藥」。藥師曾見過的邊界案例：「若處方劑量看起來不尋常，但開立處方的醫師是這個病症的已知專科醫師，配藥前先致電確認——不要直接拒絕」。這每一項都對應到一個 prompt 模式。正向標準是納入規則。負向標準是排除規則。邊界案例是帶有明確解決方案的列舉規則。持續遵循這些書面規則的藥師，比只依賴經驗的藥師犯更少錯誤，因為書面規則可稽核、可傳授給新員工，且在新的安全資訊出現時可更新。帶有明確標準的 prompt 行為方式完全相同——它們產生可稽核、precision 最佳化的輸出，審閱者可追溯到具體規則。

考試當天選用哪個類比

關於標準結構的題目 → 衛生稽查員查核表類比。
關於收緊標準與權衡的題目 → 機場安保類比。
關於邊界案例與排除規則的題目 → 藥師類比。

常見考試陷阱

CCA-F Domain 4 持續利用五種圍繞明確標準設計的反覆出現陷阱模式。所有五種都以合理的干擾選項形式偽裝出現在結構化資料 extraction 情境中。

陷阱一：「更多標準永遠更好」

過度規格化導致脆弱性。有 40 條標準的 prompt 在訓練範例上的標記率會高於有 4 條標準的 prompt，但它也會在任何不符合 40 個預期形狀之一的輸入上出現災難性的行為失常。CCA-F 考試一貫地將「新增更多規則」標記為錯誤答案，當情境涉及偏離訓練分佈的輸入時。正確答案通常是將標準保持嚴格但精簡，讓 few-shot 範例涵蓋長尾。

陷阱二：明確標準取代 Few-Shot 範例

它們不能。標準與範例是互補的，兩者都應出現在 CCA-F 等級的 prompt 中。用更多標準取代 few-shot 範例的 prompt，失去了錨定定性術語的範例校準；用更多 few-shot 範例取代標準的 prompt，失去了讓新輸入可預測的規則式確定性。明確保留標準和範例兩者的 CCA-F 情境答案，一貫地優於偏向其中之一的答案。

陷阱三：偽裝成標準的模糊形容詞

「高 confidence」不是標準。「顯著影響」不是標準。「可疑行為」不是標準。情境干擾選項頻繁地將模糊形容詞包裝在類似標準的語法中——<rule>標記任何顯著的東西</rule>——並將其作為「明確標準」選項提供。它不是。正確答案將形容詞替換為數值閾值或列舉類別。

陷阱四：只有正向標準而無排除規則

以「降低 false positive」為目標的情境題，通常會提供一個收緊正向標準但不新增排除規則的選項。這個選項在邊際上改善 precision，但輸給將相同正向標準與已知近似案例的明確排除規則搭配的選項。在 CCA-F 上，當明確目標是降低 false positive 時，帶有排除規則的答案幾乎每次都勝出。

陷阱五：標準變更未經評估或版本管理

詢問「收緊標準後下一步該做什麼」的情境題，通常會將「立即部署」作為干擾選項提供。正確答案是針對標記的評估集執行已收緊的標準、量測 precision 和 recall，並在部署前將 prompt 版本化。將 prompt 視為一次性產物的行為會被扣分；將其視為版本化程式碼的行為會得到獎勵。

練習錨點

明確標準設計在六個 CCA-F 情境中的一個出現最密集。將以下內容視為情境叢集題的架構骨幹。

結構化資料 Extraction 情境

在這個情境中，一條 pipeline 吸收文件（發票、醫療記錄、合約、支援票）並將具名欄位 extract 到結構化 schema 中。預期會有題目測試你是否能：

將模糊的 extraction 指令（「提取關鍵欄位」）改寫為帶有來源、格式、存在和模糊性規則的欄位層級標準。
將正向納入標準與近似欄位的明確排除規則搭配。
將「重要」或「顯著」等形容詞替換為數值閾值或列舉類別。
在 prompt 內列舉已知的邊界案例（空欄位、引用實體、多比對輸入）。
將明確標準與 strict: true tool use 組合以保證 schema 符合。
在部署標準變更前，將 prompt 版本化並執行標記的評估集。

Customer-Support-Resolution-Agent 情境

Customer-Support 情境在 agent 必須對票務分類、偵測緊急程度或決定何時升級時，使用明確標準。預期會有題目測試帶優先順序排序的 classification 規則設計、明確的緊急閾值（而非主觀的「看起來緊急」啟發式方法），以及列舉的升級觸發條件（而非 Claude 判斷式的升級）。相同的條件-閾值-行動三元組結構同樣適用。

Multi-Agent-Research-System 情境

Multi-Agent-Research 情境在 subagent 決定什麼構成「充分的答案」或「高品質的來源」時使用明確標準。預期會有題目測試答案品質標準是否作為明確規則拼寫出來（最少引用來源數量、最低 confidence score、必要的證據欄位），而非留給 subagent 判斷。在 subagent prompt 層級的明確標準，是防止研究 pipeline 中品質漂移的手段。

FAQ——明確標準設計前五大問題

為何明確標準在 CCA-F 情境答案上優於自然語言指令？

明確標準收縮了 Claude 否則會用預訓練先驗填補的模糊空間。像「標記可疑交易」這樣的自然語言指令，需要 Claude 推斷「可疑」的定義；兩次執行可能產生不同的定義，因為推斷是欠定的。明確標準——amount > 10000 AND merchant_country != billing_country AND 在該國家 90 天內沒有先前交易——沒有任何需要推斷的東西。Precision 提升，因為比對範圍更窄；一致性提升，因為規則是確定性的；可稽核性提升，因為審閱者可以對照每條規則核查每個輸入。以條件-閾值-行動三元組形式呈現明確標準的 CCA-F 情境答案，一貫地優於依賴模型判斷的答案。

如何在收緊標準與失去 recall 之間取得平衡？

收緊標準從來不是免費的改善——你新增的每條規則都同時降低了 false positive 和某些 true positive。平衡是商業決策，由每種錯誤類型的成本驅動。對於 false positive 代價高昂的佇列（法律審核、詐欺調查、安全事件），積極收緊。對於 false negative 代價高昂的工作流程（醫療篩查、法規遵循），保持標準較寬鬆，並依賴下游人工審核來捕捉 false positive。校準需要標記的評估集：在當前標準下量測 precision 和 recall、調整、重新量測。明確命名這個權衡的 CCA-F 情境答案（例如「收緊這些標準將改善 precision，但可能降低 recall；在標記的評估集上監控」）一貫地優於將收緊視為無條件勝利的答案。

明確標準應該取代我的 few-shot 範例嗎？

不。標準和範例是互補的，兩者都應出現在 CCA-F 等級的 prompt 中。標準以結構化形式定義決策規則；範例校準規則中任何殘留的定性元素，並以具體形式展示輸出格式。有標準但無範例的 prompt，傾向於執行規則的字面意思但錯過微妙的格式慣例；有範例但無標準的 prompt，傾向於過度擬合範例並在不同的輸入上行為失常。建議的形狀是兩者交織：標準加邊界案例規則加 3-5 個 few-shot 範例，全部以 XML 標籤包裝。CCA-F 考試一貫地將同時保留標準和範例的答案標記為正確，優於偏向其中之一的答案。

如何處理我的標準無法解決的已知模糊案例？

直接在 prompt 中將模糊案例列舉為明確的 <edge_cases> 條目。對於每個案例，指定識別該案例的條件（「若一筆交易符合金額閾值，但客戶對 merchant_country 有有效的旅遊通知」），以及明確的解決方案（「不標記該交易；改而在輸出中設置 travel_notice_overrode_flag = true」）。列舉的邊界案例將隱性的領域知識轉化為可稽核的 prompt 指令。CCA-F 考試一貫地偏好此模式，優於擴展主要標準區塊或在下游程式碼中處理案例的方案。邊界案例屬於 prompt，因為那是 Claude 能套用它們的地方；隱藏在後處理中的邊界案例，仍然讓 Claude 產生不正確的中間輸出。

生產標準區塊的最低評估紀律是什麼？

標準區塊的最小可行評估框架包含 30-100 個標記好的正向案例、30-100 個標記好的負向案例（包含過去造成 false positive 的已知近似案例），以及 10-30 個對應到列舉的 <edge_cases> 規則的標記好邊界案例。在完整集合上執行 prompt，在正向/負向拆分上計算 precision 和 recall，並在邊界案例上計算精確比對準確率。每次標準變更都伴隨一次評估重跑，以及記錄變更前後指標的提交。將 prompt、評估集和量測結果一起版本化。提議在未重跑評估的情況下部署標準變更的 CCA-F 情境答案，一貫地被標記為錯誤；包含評估迴圈和版本提交的答案，被標記為考試獎勵的成熟工程回應。

延伸閱讀

Prompt engineering overview: https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview
Use examples (multishot prompting) to guide Claude's behavior: https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/multishot-prompting
Increase output consistency — structured outputs: https://docs.anthropic.com/en/docs/test-and-evaluate/strengthen-guardrails/increase-consistency
Use XML tags to structure your prompts: https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/use-xml-tags
Strict tool use — schema-guaranteed output: https://docs.anthropic.com/en/docs/agents-and-tools/tool-use/strict-tool-use
Claude 4 prompting best practices: https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/claude-4-best-practices

為何明確標準重要——具體性降低 Hallucination

模糊指令創造了「模糊預算」

標準解剖——條件-閾值-行動三元組

以三元組形式撰寫標準

正向與負向標準——同時指定該做什麼與不該做什麼

正向標準——納入規則

負向標準——排除規則

搭配正向與負向標準

標準量化——數值閾值優於定性形容詞

應避免的形容詞

為何數字勝過形容詞

當形容詞不可避免時

邊界案例規格——在 Prompt 中列舉已知的模糊案例

為何邊界案例屬於 Prompt

邊界案例列舉模式

Classification 標準設計——邊界案例的決策規則

單一類別邊界規則模式

多類別邊界規則模式

類別定義屬於 Prompt

False Positive 降低——收緊標準以縮窄比對範圍

槓桿一：提高數值閾值

槓桿二：新增必要的 AND 條件

槓桿三：新增負向（排除）標準

槓桿四：要求證據欄位

False Negative 權衡——標準收緊時的 Precision 與 Recall

Precision 與 Recall——Prompt 設計的定義

領域成本決定工作點

透過評估進行校準

標準測試——針對標記邊界案例集評估 Prompt

最小標記集

執行評估

解讀結果

評估迴圈就是設計迴圈

標準版本管理——追蹤 Prompt 變更及其 Precision 影響

要版本管理的內容

變更日誌紀律

回滾是設計特性

Extraction 任務的標準——結構化資料的欄位層級規則

欄位層級標準

Strict Tool Use 作為強制層

證據連結欄位

標準如何與 Few-Shot 範例組合

標準定義規則；範例校準規則

何時對標準新增範例

建議的組合形狀

XML 標籤不是可選的

白話說明

類比一：衛生稽查員的查核表——標準作為三元組

類比二：機場安全檢查線——Precision、Recall 與權衡

類比三：藥師的處方核查——邊界案例與排除規則

考試當天選用哪個類比

常見考試陷阱

陷阱一：「更多標準永遠更好」

陷阱二：明確標準取代 Few-Shot 範例

陷阱三：偽裝成標準的模糊形容詞

陷阱四：只有正向標準而無排除規則

陷阱五：標準變更未經評估或版本管理

練習錨點

結構化資料 Extraction 情境

Customer-Support-Resolution-Agent 情境

Multi-Agent-Research-System 情境

FAQ——明確標準設計前五大問題

為何明確標準在 CCA-F 情境答案上優於自然語言指令？

如何在收緊標準與失去 recall 之間取得平衡？

明確標準應該取代我的 few-shot 範例嗎？

如何處理我的標準無法解決的已知模糊案例？

生產標準區塊的最低評估紀律是什麼？

延伸閱讀

官方資料來源