# AI Workflow Eval Scorecard

Use this weekly or before releasing a prompt, model, or workflow change.

## Workflow

- Workflow name:
- Owner:
- Current production version:
- Candidate version:
- Eval date:
- Reviewer:

## Dataset

- Number of examples:
- Easy cases:
- Hard cases:
- Edge cases:
- Known previous failures:
- Last dataset review:

## Scorecard

| Dimension | Threshold | Current | Candidate | Pass? | Notes |
| --- | ---: | ---: | ---: | --- | --- |
| Correctness | 90% | | | | |
| Safety | 100% | | | | |
| Format/schema validity | 95% | | | | |
| Usefulness | 4/5 avg | | | | |
| Regression cases | 100% | | | | |

## Failure Review

| Case ID | Failure type | Current behavior | Candidate behavior | Fix or decision |
| --- | --- | --- | --- | --- |
| | | | | |

## Release Rule

- Blocking dimensions:
- Allowed tolerance:
- Required approver:
- Post-release check:

## Decision

- Ship:
- Hold:
- Revise:
- Roll back:
- Reason: