From 9b7b0a71aa0ebe4e52726e2b1fa0c05c16624d97 Mon Sep 17 00:00:00 2001
From: gxt <gauravkthakur2002@gmail.com>
Date: Sun, 19 Apr 2026 12:42:12 +0530
Subject: [PATCH 1/5] Show token cost breakdown in check output

---
 .env.example                               |   23 -
 .evalview/badge.json                       |    6 -
 .evalview/healing/2026-03-25T11-12-54.json |   72 --
 .evalview/healing/2026-03-25T11-13-40.json |   72 --
 .evalview/healing/2026-03-25T11-23-25.json |   45 -
 .evalview/healing/2026-03-28T22-06-19.json |   47 -
 .evalview/latest-check.html                | 1002 --------------------
 .evalview/latest-redesign-v2.html          |  681 -------------
 .evalview/latest-redesign.html             |  956 -------------------
 .evalview/latest-v3.html                   |  681 -------------
 .evalview/latest-v4.html                   |  708 --------------
 .evalview/latest-v5.html                   |  689 --------------
 .evalview/latest-v6.html                   |  616 ------------
 .evalview/latest-v6b.html                  |  616 ------------
 .evalview/latest-v6c.html                  |  603 ------------
 evalview/commands/check_display.py         |  118 +++
 tests/test_check_cmd.py                    |  224 +++++
 17 files changed, 342 insertions(+), 6817 deletions(-)
 delete mode 100644 .env.example
 delete mode 100644 .evalview/badge.json
 delete mode 100644 .evalview/healing/2026-03-25T11-12-54.json
 delete mode 100644 .evalview/healing/2026-03-25T11-13-40.json
 delete mode 100644 .evalview/healing/2026-03-25T11-23-25.json
 delete mode 100644 .evalview/healing/2026-03-28T22-06-19.json
 delete mode 100644 .evalview/latest-check.html
 delete mode 100644 .evalview/latest-redesign-v2.html
 delete mode 100644 .evalview/latest-redesign.html
 delete mode 100644 .evalview/latest-v3.html
 delete mode 100644 .evalview/latest-v4.html
 delete mode 100644 .evalview/latest-v5.html
 delete mode 100644 .evalview/latest-v6.html
 delete mode 100644 .evalview/latest-v6b.html
 delete mode 100644 .evalview/latest-v6c.html

diff --git a/.env.example b/.env.example
deleted file mode 100644
index 0752640..0000000
--- a/.env.example
+++ /dev/null
@@ -1,23 +0,0 @@
-# EvalView Environment Configuration
-# Copy this file to .env and fill in your values:
-#   cp .env.example .env
-
-# OpenAI API Key (required for LLM-as-judge evaluation)
-# Get yours at: https://platform.openai.com/api-keys
-OPENAI_API_KEY=your-openai-api-key-here
-
-# Optional: Anthropic API Key (for Claude-based evaluation)
-# ANTHROPIC_API_KEY=your-anthropic-api-key-here
-
-# Optional: Custom model for LLM-as-judge (default: gpt-4o-mini)
-# EVALVIEW_JUDGE_MODEL=gpt-4o
-
-# Optional: Enable debug logging
-# DEBUG=1
-
-# ============================================
-# Telemetry
-# ============================================
-
-# Disable anonymous usage analytics (enabled by default)
-# EVALVIEW_TELEMETRY_DISABLED=1
diff --git a/.evalview/badge.json b/.evalview/badge.json
deleted file mode 100644
index 07ad528..0000000
--- a/.evalview/badge.json
+++ /dev/null
@@ -1,6 +0,0 @@
-{
-  "label": "evalview",
-  "message": "3 regressions",
-  "color": "red",
-  "schemaVersion": 1
-}
diff --git a/.evalview/healing/2026-03-25T11-12-54.json b/.evalview/healing/2026-03-25T11-12-54.json
deleted file mode 100644
index 3fdc9b9..0000000
--- a/.evalview/healing/2026-03-25T11-12-54.json
+++ /dev/null
@@ -1,72 +0,0 @@
-{
-  "results": [
-    {
-      "test_name": "Service Outage Login Issue",
-      "original_status": "tools_changed",
-      "diagnosis": {
-        "action": "flag_review",
-        "trigger": "structural_change",
-        "reason": "tool change detected — review needed",
-        "root_cause_category": null,
-        "details": {
-          "tool_changes": [
-            "added: ? -> escalate_to_human"
-          ]
-        }
-      },
-      "attempted": false,
-      "healed": false,
-      "proposed": false,
-      "final_status": "tools_changed",
-      "original_score": 98.0,
-      "baseline_score": 96.5,
-      "retry_score": null,
-      "retry_status": null,
-      "baseline_model": "gpt-4o-mini",
-      "actual_model": "gpt-4o-mini",
-      "variant_saved": null,
-      "variant_path": null
-    },
-    {
-      "test_name": "Refund for Damaged Blender",
-      "original_status": "tools_changed",
-      "diagnosis": {
-        "action": "flag_review",
-        "trigger": "param_change",
-        "reason": "parameter changes detected — review needed",
-        "root_cause_category": null,
-        "details": {
-          "param_diffs": 3
-        }
-      },
-      "attempted": false,
-      "healed": false,
-      "proposed": false,
-      "final_status": "tools_changed",
-      "original_score": 86.7,
-      "baseline_score": 89.55,
-      "retry_score": null,
-      "retry_status": null,
-      "baseline_model": "gpt-4o-mini",
-      "actual_model": "gpt-4o-mini",
-      "variant_saved": null,
-      "variant_path": null
-    }
-  ],
-  "total_healed": 0,
-  "total_proposed": 0,
-  "total_review": 2,
-  "total_blocked": 0,
-  "attempted_count": 0,
-  "unresolved_count": 2,
-  "failed_count": 2,
-  "policy_version": "v1",
-  "thresholds": {
-    "min_variant_score": 70.0,
-    "max_cost_multiplier": 2.0,
-    "max_latency_multiplier": 3.0,
-    "max_auto_variants": 3.0
-  },
-  "model_update": null,
-  "audit_path": null
-}
\ No newline at end of file
diff --git a/.evalview/healing/2026-03-25T11-13-40.json b/.evalview/healing/2026-03-25T11-13-40.json
deleted file mode 100644
index 9a400ee..0000000
--- a/.evalview/healing/2026-03-25T11-13-40.json
+++ /dev/null
@@ -1,72 +0,0 @@
-{
-  "results": [
-    {
-      "test_name": "Service Outage Login Issue",
-      "original_status": "tools_changed",
-      "diagnosis": {
-        "action": "flag_review",
-        "trigger": "structural_change",
-        "reason": "tool change detected — review needed",
-        "root_cause_category": null,
-        "details": {
-          "tool_changes": [
-            "added: ? -> escalate_to_human"
-          ]
-        }
-      },
-      "attempted": false,
-      "healed": false,
-      "proposed": false,
-      "final_status": "tools_changed",
-      "original_score": 98.5,
-      "baseline_score": 96.5,
-      "retry_score": null,
-      "retry_status": null,
-      "baseline_model": "gpt-4o-mini",
-      "actual_model": "gpt-4o-mini",
-      "variant_saved": null,
-      "variant_path": null
-    },
-    {
-      "test_name": "Refund for Damaged Blender",
-      "original_status": "regression",
-      "diagnosis": {
-        "action": "flag_review",
-        "trigger": "param_change",
-        "reason": "parameter changes detected — review needed",
-        "root_cause_category": null,
-        "details": {
-          "param_diffs": 3
-        }
-      },
-      "attempted": false,
-      "healed": false,
-      "proposed": false,
-      "final_status": "regression",
-      "original_score": 83.6,
-      "baseline_score": 89.55,
-      "retry_score": null,
-      "retry_status": null,
-      "baseline_model": "gpt-4o-mini",
-      "actual_model": "gpt-4o-mini",
-      "variant_saved": null,
-      "variant_path": null
-    }
-  ],
-  "total_healed": 0,
-  "total_proposed": 0,
-  "total_review": 2,
-  "total_blocked": 0,
-  "attempted_count": 0,
-  "unresolved_count": 2,
-  "failed_count": 2,
-  "policy_version": "v1",
-  "thresholds": {
-    "min_variant_score": 70.0,
-    "max_cost_multiplier": 2.0,
-    "max_latency_multiplier": 3.0,
-    "max_auto_variants": 3.0
-  },
-  "model_update": null,
-  "audit_path": null
-}
\ No newline at end of file
diff --git a/.evalview/healing/2026-03-25T11-23-25.json b/.evalview/healing/2026-03-25T11-23-25.json
deleted file mode 100644
index 915780b..0000000
--- a/.evalview/healing/2026-03-25T11-23-25.json
+++ /dev/null
@@ -1,45 +0,0 @@
-{
-  "results": [
-    {
-      "test_name": "Refund for Damaged Blender",
-      "original_status": "regression",
-      "diagnosis": {
-        "action": "flag_review",
-        "trigger": "param_change",
-        "reason": "parameter changes detected — review needed",
-        "root_cause_category": null,
-        "details": {
-          "param_diffs": 3
-        }
-      },
-      "attempted": false,
-      "healed": false,
-      "proposed": false,
-      "final_status": "regression",
-      "original_score": 82.35,
-      "baseline_score": 89.55,
-      "retry_score": null,
-      "retry_status": null,
-      "baseline_model": "gpt-4o-mini",
-      "actual_model": "gpt-4o-mini",
-      "variant_saved": null,
-      "variant_path": null
-    }
-  ],
-  "total_healed": 0,
-  "total_proposed": 0,
-  "total_review": 1,
-  "total_blocked": 0,
-  "attempted_count": 0,
-  "unresolved_count": 1,
-  "failed_count": 1,
-  "policy_version": "v1",
-  "thresholds": {
-    "min_variant_score": 70.0,
-    "max_cost_multiplier": 2.0,
-    "max_latency_multiplier": 3.0,
-    "max_auto_variants": 3.0
-  },
-  "model_update": null,
-  "audit_path": null
-}
\ No newline at end of file
diff --git a/.evalview/healing/2026-03-28T22-06-19.json b/.evalview/healing/2026-03-28T22-06-19.json
deleted file mode 100644
index b189b8a..0000000
--- a/.evalview/healing/2026-03-28T22-06-19.json
+++ /dev/null
@@ -1,47 +0,0 @@
-{
-  "results": [
-    {
-      "test_name": "Office Sign-In Outage Check",
-      "original_status": "output_changed",
-      "diagnosis": {
-        "action": "propose_variant",
-        "trigger": "nondeterminism",
-        "reason": "saved candidate variant auto_heal_a3c6 (score 86.0)",
-        "root_cause_category": null,
-        "details": {
-          "retry_status": "regression",
-          "named_variant_count_before": 0,
-          "max_auto_variants": 3
-        }
-      },
-      "attempted": true,
-      "healed": false,
-      "proposed": true,
-      "final_status": "regression",
-      "original_score": 92.0,
-      "baseline_score": 93.5,
-      "retry_score": 86.0,
-      "retry_status": "regression",
-      "baseline_model": "gpt-4o-mini",
-      "actual_model": "gpt-4o-mini",
-      "variant_saved": "auto_heal_a3c6",
-      "variant_path": ".evalview/golden/Office_Sign-In_Outage_Check.variant_auto_heal_a3c6.golden.json"
-    }
-  ],
-  "total_healed": 0,
-  "total_proposed": 1,
-  "total_review": 0,
-  "total_blocked": 0,
-  "attempted_count": 1,
-  "unresolved_count": 1,
-  "failed_count": 1,
-  "policy_version": "v1",
-  "thresholds": {
-    "min_variant_score": 70.0,
-    "max_cost_multiplier": 2.0,
-    "max_latency_multiplier": 3.0,
-    "max_auto_variants": 3.0
-  },
-  "model_update": null,
-  "audit_path": null
-}
\ No newline at end of file
diff --git a/.evalview/latest-check.html b/.evalview/latest-check.html
deleted file mode 100644
index 47d4b9d..0000000
--- a/.evalview/latest-check.html
+++ /dev/null
@@ -1,1002 +0,0 @@
-<!doctype html>
-<html lang="en">
-<head>
-<meta charset="UTF-8">
-<meta name="viewport" content="width=device-width, initial-scale=1.0">
-<title>EvalView Check Report</title>
-<link rel="preconnect" href="https://fonts.googleapis.com">
-<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
-<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
-<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
-<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
-<style>
-*{box-sizing:border-box;margin:0;padding:0}
-:root{
-  --green:#10b981;--green-bright:#34d399;
-  --red:#ef4444;--red-bright:#f87171;
-  --yellow:#f59e0b;--yellow-bright:#fbbf24;
-  --blue:#2563eb;--blue-bright:#3b82f6;
-  --teal:#0d9488;--teal-bright:#14b8a6;
-  --cyan:#06b6d4;
-  --bg:#060b18;--bg-card:rgba(12,20,36,.75);
-  --border:rgba(51,65,85,.45);--border-light:rgba(71,85,105,.5);
-  --text:#f1f5f9;--text-2:#94a3b8;--text-3:#64748b;--text-4:#475569;
-  --r:16px;--r-sm:12px;--r-xs:8px;
-  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
-  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
-}
-html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
-body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;background:var(--bg)}
-
-/* ── Header ── */
-.header{
-  position:sticky;top:0;z-index:200;
-  background:rgba(6,11,24,.85);border-bottom:1px solid var(--border);
-  backdrop-filter:blur(20px);-webkit-backdrop-filter:blur(20px);
-  padding:0 40px;height:52px;display:flex;align-items:center;justify-content:space-between;
-}
-.logo{display:flex;align-items:center;gap:10px}
-.logo-icon{width:28px;height:28px;border-radius:7px;flex-shrink:0;background:linear-gradient(135deg,var(--blue-bright),var(--teal));display:flex;align-items:center;justify-content:center;font-size:13px;box-shadow:0 2px 10px rgba(37,99,235,.2)}
-.logo-text{font-size:14px;font-weight:700;letter-spacing:-.02em;color:var(--text)}
-.logo-sub{font-size:10px;color:var(--text-4);font-weight:400}
-.header-right{display:flex;align-items:center;gap:6px}
-
-/* ── Badges ── */
-.badge{display:inline-flex;align-items:center;gap:4px;padding:3px 10px;border-radius:20px;font-size:11px;font-weight:600;white-space:nowrap}
-.b-green{background:rgba(16,185,129,.12);color:var(--green-bright);border:1px solid rgba(16,185,129,.25)}
-.b-red{background:rgba(239,68,68,.12);color:var(--red-bright);border:1px solid rgba(239,68,68,.25)}
-.b-yellow{background:rgba(245,158,11,.12);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.25)}
-.b-cyan{background:rgba(6,182,212,.12);color:#67e8f9;border:1px solid rgba(6,182,212,.25)}
-
-/* ── Dashboard Gauge ── */
-.health-gauge{display:flex;align-items:center;gap:16px;padding:16px 20px}
-.gauge-ring{position:relative;width:80px;height:80px;flex-shrink:0}
-.gauge-ring svg{transform:rotate(-90deg)}
-.gauge-ring .gauge-text{position:absolute;inset:0;display:flex;align-items:center;justify-content:center;font-size:18px;font-weight:800;letter-spacing:-.02em}
-.gauge-stats{display:flex;flex-direction:column;gap:4px}
-.gauge-stat{font-size:12px;display:flex;align-items:center;gap:6px}
-.gauge-dot{width:8px;height:8px;border-radius:50%;flex-shrink:0}
-.confidence-badge{display:inline-flex;align-items:center;gap:4px;padding:2px 8px;border-radius:12px;font-size:10px;font-weight:600;margin-left:8px}
-.conf-high{background:rgba(239,68,68,.15);color:var(--red-bright);border:1px solid rgba(239,68,68,.2)}
-.conf-medium{background:rgba(245,158,11,.15);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.2)}
-.conf-low{background:rgba(100,116,139,.15);color:var(--text-3);border:1px solid rgba(100,116,139,.2)}
-.conf-insufficient{background:rgba(100,116,139,.08);color:var(--text-4);border:1px solid rgba(100,116,139,.15)}
-.accept-box{margin:8px 18px 12px;padding:12px 16px;border-radius:var(--r-xs);border:1px solid rgba(16,185,129,.25);background:rgba(16,185,129,.06)}
-.accept-box.neutral{border-color:rgba(245,158,11,.25);background:rgba(245,158,11,.06)}
-.accept-box code{background:rgba(255,255,255,.06);padding:3px 8px;border-radius:4px;font-family:var(--mono);font-size:11px;border:1px solid var(--border);user-select:all}
-.b-blue{background:rgba(37,99,235,.12);color:var(--blue-bright);border:1px solid rgba(37,99,235,.25)}
-.b-purple{background:rgba(13,148,136,.12);color:var(--teal-bright);border:1px solid rgba(13,148,136,.25)}
-
-/* ── Layout ── */
-.main{max-width:1160px;margin:0 auto;padding:28px 36px 80px;position:relative;z-index:1}
-
-/* ── Tabs ── */
-.tabbar{display:flex;gap:0;background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:3px;margin-bottom:28px}
-.tab{flex:1;text-align:center;background:none;border:none;color:var(--text-4);cursor:pointer;font:600 12px/1 var(--font);padding:10px 12px;border-radius:9px;transition:all .15s}
-.tab:hover{color:var(--text-2);background:rgba(255,255,255,.03)}
-.tab.on{color:#fff;background:rgba(37,99,235,.18);border:1px solid rgba(37,99,235,.3)}
-.panel{display:none}.panel.on{display:block}
-
-/* ══════════════════════════════════════════════
-   KPI STRIP — compact horizontal bar
-   ══════════════════════════════════════════════ */
-.kpi-strip{
-  display:flex;align-items:center;gap:0;
-  background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);
-  overflow:hidden;margin-bottom:14px;padding:10px 0;flex-wrap:wrap;
-}
-.kpi-item{
-  display:flex;align-items:center;gap:8px;padding:4px 20px;
-  border-right:1px solid var(--border);white-space:nowrap;
-}
-.kpi-item:last-child{border-right:none}
-.kpi-dot{width:8px;height:8px;border-radius:50%;flex-shrink:0}
-.kpi-dot.green{background:var(--green);box-shadow:0 0 6px rgba(16,185,129,.4)}
-.kpi-dot.yellow{background:var(--yellow);box-shadow:0 0 6px rgba(245,158,11,.4)}
-.kpi-dot.red{background:var(--red);box-shadow:0 0 6px rgba(239,68,68,.4)}
-.kpi-val{font-size:13px;font-weight:700;color:var(--text)}
-.kpi-label{font-size:11px;color:var(--text-3);font-weight:500}
-
-/* ── Card ── */
-.card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);padding:20px 22px;margin-bottom:14px;position:relative;overflow:hidden}
-.card-title{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:14px;display:flex;align-items:center;gap:7px}
-.card-title::before{content:'';width:3px;height:11px;border-radius:2px;background:var(--blue-bright)}
-.chart-wrap{position:relative}
-
-/* ── Meta row ── */
-.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-bottom:14px}
-@media(max-width:800px){.meta-row{grid-template-columns:1fr}}
-.meta-card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:14px 18px}
-.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:5px}
-.meta-value{font-size:14px;font-weight:700;color:var(--text)}
-.meta-sub{font-size:11px;color:var(--text-4);margin-top:3px}
-.healing-grid{display:grid;grid-template-columns:1.2fr .8fr;gap:12px;margin-bottom:14px}
-@media(max-width:800px){.healing-grid{grid-template-columns:1fr}}
-.healing-list{display:flex;flex-direction:column;gap:8px}
-.healing-row{display:flex;align-items:flex-start;justify-content:space-between;gap:10px;padding:10px 12px;border:1px solid var(--border);border-radius:var(--r-xs);background:rgba(255,255,255,.02)}
-.healing-name{font-weight:700;font-size:13px;color:var(--text)}
-.healing-reason{font-size:11px;color:var(--text-3);margin-top:3px}
-
-/* ── Chart row ── */
-
-/* ── Trace items ── */
-.item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden;transition:border-color .15s}
-.item:hover{border-color:var(--border-light)}
-.item-head{padding:12px 18px;display:flex;align-items:center;gap:10px;cursor:pointer;transition:background .1s}
-.item-head:hover{background:rgba(255,255,255,.015)}
-.item-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
-.item-meta{display:flex;align-items:center;gap:5px;flex-shrink:0;flex-wrap:wrap}
-.mc{display:inline-flex;align-items:center;gap:3px;padding:2px 7px;border-radius:4px;background:rgba(255,255,255,.035);font-size:10px;font-weight:500;color:var(--text-3);white-space:nowrap}
-.chevron{color:var(--text);font-size:18px;transition:transform .2s;flex-shrink:0;width:24px;height:24px;display:inline-flex;align-items:center;justify-content:center;border-radius:6px;background:rgba(255,255,255,.05);border:1px solid var(--border)}
-.item-head:hover .chevron{background:rgba(255,255,255,.08);border-color:var(--border-light)}
-details[open] .turn-chevron{transform:rotate(90deg)}
-.item-body{padding:18px;border-top:1px solid var(--border);background:rgba(0,0,0,.12)}
-.mermaid-box{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-sm);padding:14px 14px;overflow-x:auto;min-height:120px}
-.mermaid-box svg{min-width:400px;max-width:100%;height:auto;display:block;margin:0 auto}
-.mermaid-box .mermaid{min-width:500px}
-.mermaid-box line.actor-line{stroke-dasharray:4 4;stroke:rgba(100,116,139,.15) !important}
-
-/* ── Chat turns ── */
-.chat-container{margin-top:16px;padding:14px;background:rgba(0,0,0,.1);border:1px solid rgba(51,65,85,.25);border-radius:var(--r-sm)}
-.chat-header{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:12px;padding-bottom:8px;border-bottom:1px solid rgba(51,65,85,.25)}
-.chat-messages{display:flex;flex-direction:column;gap:3px}
-.chat-bubble{max-width:78%;padding:9px 13px;font-size:13px;line-height:1.5;border-radius:12px}
-.chat-bubble.user{align-self:flex-end;background:rgba(37,99,235,.1);border:1px solid rgba(37,99,235,.18);color:var(--text);border-bottom-right-radius:3px}
-.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.025);border:1px solid rgba(51,65,85,.35);color:var(--text-2);border-bottom-left-radius:3px}
-.chat-meta{display:flex;align-items:center;gap:6px;padding:4px 2px;font-size:10px;color:var(--text-4);font-weight:500}
-.chat-meta.right{justify-content:flex-end}
-.chat-tool-tag{display:inline-flex;padding:1px 6px;border-radius:3px;background:rgba(37,99,235,.07);border:1px solid rgba(37,99,235,.12);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
-.chat-eval{padding:5px 9px;border-radius:6px;font-size:11px;font-weight:600;max-width:78%}
-.chat-eval.pass{align-self:flex-start;background:rgba(16,185,129,.07);border:1px solid rgba(16,185,129,.18);color:var(--green-bright)}
-.chat-eval.fail{align-self:flex-start;background:rgba(239,68,68,.07);border:1px solid rgba(239,68,68,.18);color:var(--red-bright)}
-
-/* ── Diffs ── */
-.diff-item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden}
-.diff-head{padding:12px 18px;display:flex;align-items:center;gap:8px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
-.diff-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
-.diff-cols{display:grid;grid-template-columns:1fr 1fr}
-.diff-col{padding:14px 18px}
-.diff-col+.diff-col{border-left:1px solid var(--border)}
-.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;margin-bottom:7px}
-.tags{display:flex;flex-wrap:wrap;gap:3px;margin-bottom:7px}
-.tag{background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);border-radius:4px;padding:2px 7px;font-size:11px;font-family:var(--mono);font-weight:500}
-.tag.add{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
-.tag.rem{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
-.outbox{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:10px;font:12px/1.6 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:180px;overflow-y:auto}
-.difflines{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:8px;font:11px/1.6 var(--mono);max-height:180px;overflow-y:auto;margin-top:7px}
-.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
-.difflines .r{color:var(--red-bright);background:rgba(239,68,68,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
-.sim{display:inline-flex;align-items:center;gap:4px;font-size:11px;color:var(--text-3)}
-.sim-track{width:40px;height:3px;background:rgba(255,255,255,.06);border-radius:2px;overflow:hidden;display:inline-block;vertical-align:middle}
-.sim-fill{height:100%;border-radius:2px}
-.sim-fill.hi{background:var(--green)}.sim-fill.mid{background:var(--yellow)}.sim-fill.lo{background:var(--red)}
-.pipeline{display:flex;flex-direction:column;gap:5px;padding:12px 18px;border-top:1px solid var(--border)}
-.pipeline-row{display:flex;align-items:center;gap:3px;flex-wrap:wrap}
-.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;width:60px;flex-shrink:0}
-.pipe-step{display:inline-flex;padding:3px 9px;border-radius:4px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);color:var(--text-2);position:relative}
-.pipe-step+.pipe-step{margin-left:5px}
-.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-12px;color:var(--text-4);font-size:9px;font-family:var(--font)}
-.pipe-step.match{border-color:rgba(37,99,235,.2);background:rgba(37,99,235,.04)}
-.pipe-step.added{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
-.pipe-step.removed{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
-.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:10px;margin-top:12px;padding-top:12px;border-top:1px solid var(--border)}
-.traj-col .col-title{padding-bottom:6px}
-
-/* ── Tables ── */
-.ev-table{width:100%;border-collapse:collapse;font-size:13px}
-.ev-table th{text-align:left;padding:7px 10px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
-.ev-table td{padding:9px 10px;border-bottom:1px solid rgba(51,65,85,.25)}
-.ev-table tr:hover td{background:rgba(255,255,255,.012)}
-.ev-table .mono{font-family:var(--mono);font-size:12px}
-.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
-.param-table{width:100%;border-collapse:collapse;font-size:12px}
-.param-table th{text-align:left;padding:5px 9px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
-.param-table td{padding:5px 9px;border-bottom:1px solid rgba(51,65,85,.25)}
-table td,table th{transition:background .1s}
-.empty{text-align:center;padding:64px 40px;color:var(--text-4)}
-.empty-icon{font-size:32px;margin-bottom:10px;display:block;opacity:.25}
-.empty code{background:rgba(255,255,255,.05);padding:2px 7px;border-radius:4px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
-::-webkit-scrollbar{width:4px;height:4px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.07);border-radius:3px}
-</style>
-</head>
-<body>
-
-<header class="header">
-  <div class="logo">
-    <div class="logo-icon">◈</div>
-    <div><div class="logo-text">EvalView Check Report</div><div class="logo-sub">2026-04-06 19:57</div></div>
-  </div>
-  <div class="header-right">
-    <span class="badge b-red">✗ Final Outcome Failing</span>
-    <span class="badge b-red">✗ 3 Failed</span><span class="badge b-blue">3 Tests</span>
-  </div>
-</header>
-
-<main class="main">
-  <div class="tabbar">
-    <button class="tab " onclick="show('overview',this)">Overview</button>
-    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
-    <button class="tab on" onclick="show('diffs',this)">Diffs</button>
-    <button class="tab " onclick="show('timeline',this)">Timeline</button>
-    
-  </div>
-
-  <!-- ═══════════ OVERVIEW ═══════════ -->
-  <div id="p-overview" class="panel ">
-    
-
-    <!-- KPI Strip -->
-    <div class="kpi-strip">
-      <div class="kpi-item">
-        <span class="kpi-dot red"></span>
-        <span class="kpi-val" style="color:var(--red-bright)">0.0% passed</span>
-        <span class="kpi-label">(0/3)</span>
-      </div>
-      <div class="kpi-item">
-        <span class="kpi-val" style="color:var(--red-bright)">Avg 24.2/100</span>
-      </div>
-      <div class="kpi-item">
-        <span class="kpi-val" style="color:var(--blue-bright)">$0</span>
-        <span class="kpi-label">total</span>
-      </div>
-      <div class="kpi-item">
-        <span class="kpi-val">281135ms</span>
-        <span class="kpi-label">avg</span>
-      </div>
-      <div class="kpi-item">
-        <span class="kpi-val">Unknown</span>
-        
-      </div>
-    </div>
-    
-    <!-- Health Gauge + Trend Sparklines (or Score Per Test if no trends) -->
-    <div class="meta-row">
-      <div class="card" style="margin-bottom:0">
-        <div class="card-title">Health Gauge</div>
-        <div class="health-gauge">
-          <div class="gauge-ring">
-            <svg viewBox="0 0 36 36">
-              <path d="M18 2.0845 a 15.9155 15.9155 0 0 1 0 31.831 a 15.9155 15.9155 0 0 1 0 -31.831" fill="none" stroke="rgba(255,255,255,.06)" stroke-width="3"/>
-              <path d="M18 2.0845 a 15.9155 15.9155 0 0 1 0 31.831 a 15.9155 15.9155 0 0 1 0 -31.831" fill="none" stroke="var(--red-bright)" stroke-width="3" stroke-dasharray="0, 100" stroke-linecap="round"/>
-            </svg>
-            <span class="gauge-text" style="color:var(--red-bright)">0%</span>
-          </div>
-          <div class="gauge-stats">
-            
-            <div class="gauge-stat"><span class="gauge-dot" style="background:var(--red)"></span> 3 failed</div>
-            <div class="gauge-stat"><span class="gauge-dot" style="background:var(--red)"></span> 3 regressions</div>
-            
-          </div>
-        </div>
-      </div>
-      
-      <div class="card" style="margin-bottom:0">
-        <div class="card-title">Score Trends</div>
-        <div style="height:134px;position:relative"><canvas id="trendChart"></canvas></div>
-      </div>
-      
-    </div>
-    
-    
-    
-    
-    
-    <div class="card">
-      <div class="card-title">Behavior Summary</div>
-      <table class="ev-table">
-        <thead><tr><th>Behavior</th><th>Total</th><th>Passed</th><th>Changed</th><th>Regressions</th><th>Healed</th></tr></thead>
-        <tbody>
-          
-          <tr>
-            <td style="font-weight:700">untagged</td>
-            <td class="mono num">3</td>
-            <td class="mono num" style="color:var(--green-bright)">0</td>
-            <td class="mono num" style="color:var(--yellow-bright)">0</td>
-            <td class="mono num" style="color:var(--red-bright)">3</td>
-            <td class="mono num" style="color:var(--blue-bright)">0</td>
-          </tr>
-          
-        </tbody>
-      </table>
-    </div>
-    
-    
-    
-    <div class="meta-row" style="grid-template-columns:1fr 1fr 1fr">
-      
-      <div class="meta-card">
-        <div class="meta-label">Baseline Snapshot</div>
-        <div class="meta-value">2026-04-06 13:26</div>
-        <div class="meta-sub">Model: Not recorded in snapshot</div>
-      </div>
-      
-      
-      <div class="meta-card">
-        <div class="meta-label">EvalView Judge (openai/gpt-5.4-mini)</div>
-        <div class="meta-value">$0.000305</div>
-        <div class="meta-sub">2,489 tokens across 6 judge calls</div>
-      </div>
-      <div class="meta-card">
-        <div class="meta-label">Token Breakdown</div>
-        <div class="meta-value">in 2,301 / out 188</div>
-        <div class="meta-sub">$0.1/M input, $0.4/M output</div>
-      </div>
-      
-    </div>
-    
-
-    <!-- Score chart (full width) — only show separately when trends exist (otherwise it's already in the meta-row above) -->
-    
-    <div class="card">
-      <div class="card-title">Score per Test</div>
-      <div class="chart-wrap" style="height:144px"><canvas id="bars"></canvas></div>
-    </div>
-    
-
-    <!-- Cost table -->
-    <div class="card">
-      <div class="card-title">Execution Cost per Query</div>
-      <table class="ev-table">
-        
-        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Latency</th><th>Score</th></tr></thead>
-        <tbody>
-          <tr>
-            <td style="font-weight:600">implement</td>
-            <td class="mono" style="color:var(--text-4)">Unknown</td>
-            <td class="mono num" style="color:var(--text-4)">$0</td>
-            
-            <td style="color:var(--text-3)">360030ms</td>
-            <td class="num" style="color:var(--red-bright)">20.0</td>
-          </tr><tr>
-            <td style="font-weight:600">bug-fix</td>
-            <td class="mono" style="color:var(--text-4)">Unknown</td>
-            <td class="mono num" style="color:var(--text-4)">$0</td>
-            
-            <td style="color:var(--text-3)">324936ms</td>
-            <td class="num" style="color:var(--red-bright)">32.5</td>
-          </tr><tr>
-            <td style="font-weight:600">refactor</td>
-            <td class="mono" style="color:var(--text-4)">Unknown</td>
-            <td class="mono num" style="color:var(--text-4)">$0</td>
-            
-            <td style="color:var(--text-3)">158438ms</td>
-            <td class="num" style="color:var(--red-bright)">20.0</td>
-          </tr>
-          <tr style="background:rgba(0,0,0,.08)">
-            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0</td>
-            <td colspan="2" style="font-size:11px;color:var(--text-4)">avg $0.000000 per query</td>
-          </tr>
-        </tbody>
-      </table>
-      <div style="margin-top:10px;font-size:11px;color:var(--text-4);line-height:1.5">
-        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.04);padding:2px 6px;border-radius:3px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
-         This check also used 6 EvalView judge calls (2489 tokens).
-      </div>
-    </div>
-    
-  </div>
-
-  <!-- ═══════════ TRACE ═══════════ -->
-  <div id="p-trace" class="panel ">
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr1',this)">
-          <span class="badge b-red">✗</span>
-          <span class="item-name">implement</span>
-          <div class="item-meta">
-            
-            <span class="mc" style="color:var(--red-bright)">20.0/100</span>
-            
-            <span class="mc">⚡ 360030ms</span>
-            
-            <span class="mc">🧠 Unknown</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr1" class="item-body" >
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: Unknown</span>
-            
-            
-            <span class="badge b-purple">Baseline: 2026-04-06 13:26</span>
-            <span class="badge b-yellow">Baseline model: Not recorded in snapshot</span>
-          </div>
-          
-          <div style="background:rgba(255,255,255,.02);border:1px solid var(--border);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:12px;font-size:12px">
-            <div style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-bottom:8px">Score Breakdown</div>
-            <div style="display:flex;gap:16px;flex-wrap:wrap;align-items:center">
-              <div><span style="color:var(--text-4)">Tools</span> <span style="font-weight:700;color:var(--red-bright)">0.0%</span> <span style="color:var(--text-4);font-size:10px">× 30%</span></div>
-              <div><span style="color:var(--text-4)">Output</span> <span style="font-weight:700;color:var(--red-bright)">0.0/100</span> <span style="color:var(--text-4);font-size:10px">× 50%</span></div>
-              <div><span style="color:var(--text-4)">Sequence</span> <span style="font-weight:700;color:var(--green-bright)">Correct</span> <span style="color:var(--text-4);font-size:10px">× 20%</span></div>
-              <div style="border-left:1px solid var(--border);padding-left:16px"><span style="color:var(--text-4)">=</span> <span style="font-weight:800;font-size:14px;color:var(--red-bright)">20.0/100</span></div>
-            </div>
-            <div style="margin-top:8px;font-size:11px;color:var(--text-3);border-top:1px solid var(--border);padding-top:8px">The response does not implement group_by_key(), does not run the __main__ block, and simply repeats the timeout error. It fails to address the user’s request entirely.</div>
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Implement the group_by_key() function in stub.py. The docstring and type signature are already there — the body is just pass. Implement it, then run the __main__ block to verify it prints the correctly grouped output.
-
-          </div>
-          
-          <div style="background:rgba(239,68,68,.06);border:1px solid rgba(239,68,68,.18);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:12px">
-            <div style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--red-bright);margin-bottom:6px">Why it failed</div>
-            <ul style="margin:0;padding-left:18px;font-size:12px;color:var(--text-2)"><li style="margin-bottom:3px">Score 20.0 below minimum 70.0</li><li style="margin-bottom:3px">Output quality: 0.0/100</li><li style="margin-bottom:3px">Hallucination detected (70% confidence)</li><li style="margin-bottom:3px">Tool accuracy: 0.0%</li></ul>
-          </div>
-          <div class="mermaid-box"><div class="mermaid">sequenceDiagram
-    participant User
-    participant Agent
-    participant T0 as error
-    User->>Agent: Implement the group_by_key f...
-    Agent-xT0: error
-    T0-->Agent: OpenCode timed out after 360...
-    Agent-->>User: OpenCode timed out after 360...</div></div>
-          
-          
-          <div class="chat-container">
-            <div class="chat-header">Conversation Turns</div>
-            <div class="chat-messages">
-            
-              <div class="chat-meta right">Turn 1 · <span class="chat-tool-tag">error</span>  · ⚡ 360030.9ms · 💰 $0</div>
-              <div class="chat-bubble user">Implement the group_by_key() function in stub.py. The docstring and type signature are already there — the body is just pass. Implement it, then run the __main__ block to verify it prints the correctly grouped output.
-</div>
-              <div class="chat-bubble agent">OpenCode timed out after 360s</div>
-              
-            </div>
-          </div>
-          
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-top:10px">
-            <span class="badge b-red" title="Extracts factual claims from the agent response, then verifies each claim against tool outputs. Score = supported claims / total claims.">🔮 Hallucination detected · 70% · [Warning] - Tool &#39;error&#39; failed/returned error, but agent did not acknowledge the failure · openai/gpt-5.4-mini</span>
-            <span class="badge b-green">🛡 Safe</span>
-            
-            
-          </div>
-          <div style="background:rgba(168,85,247,.06);border:1px solid rgba(168,85,247,.15);border-radius:var(--r-xs);padding:9px 12px;margin-top:8px;font-size:11px;color:var(--text-3)"><span style="font-weight:600;color:var(--text-2)">Unsupported claims:</span> [Warning] - Tool &#39;error&#39; failed/returned error, but agent did not acknowledge the failure
-(Confidence 70% below threshold 98% - not blocking)</div>
-          
-          
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr2',this)">
-          <span class="badge b-red">✗</span>
-          <span class="item-name">bug-fix</span>
-          <div class="item-meta">
-            
-            <span class="mc" style="color:var(--red-bright)">32.5/100</span>
-            
-            <span class="mc">⚡ 324936ms</span>
-            
-            <span class="mc">🧠 Unknown</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr2" class="item-body" >
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: Unknown</span>
-            
-            
-            <span class="badge b-purple">Baseline: 2026-04-06 13:26</span>
-            <span class="badge b-yellow">Baseline model: Not recorded in snapshot</span>
-          </div>
-          
-          <div style="background:rgba(255,255,255,.02);border:1px solid var(--border);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:12px;font-size:12px">
-            <div style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-bottom:8px">Score Breakdown</div>
-            <div style="display:flex;gap:16px;flex-wrap:wrap;align-items:center">
-              <div><span style="color:var(--text-4)">Tools</span> <span style="font-weight:700;color:var(--red-bright)">33.3%</span> <span style="color:var(--text-4);font-size:10px">× 30%</span></div>
-              <div><span style="color:var(--text-4)">Output</span> <span style="font-weight:700;color:var(--red-bright)">5.0/100</span> <span style="color:var(--text-4);font-size:10px">× 50%</span></div>
-              <div><span style="color:var(--text-4)">Sequence</span> <span style="font-weight:700;color:var(--green-bright)">Correct</span> <span style="color:var(--text-4);font-size:10px">× 20%</span></div>
-              <div style="border-left:1px solid var(--border);padding-left:16px"><span style="color:var(--text-4)">=</span> <span style="font-weight:800;font-size:14px;color:var(--red-bright)">32.5/100</span></div>
-            </div>
-            <div style="margin-top:8px;font-size:11px;color:var(--text-3);border-top:1px solid var(--border);padding-top:8px">The response is relevant and acknowledges the bug, but it does not actually fix the code or run the file to confirm the output. It only states an intention to inspect the file, so it fails to satisfy the requested task and provides no concrete correction.</div>
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>There is a bug in buggy.py. The find_max function uses range(1, len(numbers) - 1) which means it never checks the last element. Fix the bug so the function correctly returns the maximum value including the last element. After fixing, run the file to confirm it prints 9.
-
-          </div>
-          
-          <div style="background:rgba(239,68,68,.06);border:1px solid rgba(239,68,68,.18);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:12px">
-            <div style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--red-bright);margin-bottom:6px">Why it failed</div>
-            <ul style="margin:0;padding-left:18px;font-size:12px;color:var(--text-2)"><li style="margin-bottom:3px">Score 32.5 below minimum 70.0</li><li style="margin-bottom:3px">Output quality: 5.0/100</li><li style="margin-bottom:3px">Tool accuracy: 33.3%</li></ul>
-          </div>
-          <div class="mermaid-box"><div class="mermaid">sequenceDiagram
-    participant User
-    participant Agent
-    participant T0 as read_file
-    User->>Agent: There is a bug in buggy.py.
-    Agent->>T0: filePath=/Users/hidaibar-mor...
-    T0-->Agent: path/Users/hidaibar-mor/Down...
-    Agent-->>User: Ill fix the bug in the find_...</div></div>
-          
-          
-          <div class="chat-container">
-            <div class="chat-header">Conversation Turns</div>
-            <div class="chat-messages">
-            
-              <div class="chat-meta right">Turn 1 · <span class="chat-tool-tag">read_file</span>  · ⚡ 324936.4ms · 💰 $0</div>
-              <div class="chat-bubble user">There is a bug in buggy.py. The find_max function uses range(1, len(numbers) - 1) which means it never checks the last element. Fix the bug so the function correctly returns the maximum value including the last element. After fixing, run the file to confirm it prints 9.
-</div>
-              <div class="chat-bubble agent">I&#39;ll fix the bug in the find_max function in buggy.py. Let me first examine the file to understand the current implementation.</div>
-              
-            </div>
-          </div>
-          
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-top:10px">
-            <span class="badge b-green" title="Extracts factual claims from the agent response, then verifies each claim against tool outputs. Score = supported claims / total claims.">🔮 No hallucination · No verifiable factual claims found in output. · openai/gpt-5.4-mini</span>
-            <span class="badge b-green">🛡 Safe</span>
-            
-            
-          </div>
-          
-          
-          
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr3',this)">
-          <span class="badge b-red">✗</span>
-          <span class="item-name">refactor</span>
-          <div class="item-meta">
-            
-            <span class="mc" style="color:var(--red-bright)">20.0/100</span>
-            
-            <span class="mc">⚡ 158438ms</span>
-            
-            <span class="mc">🧠 Unknown</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr3" class="item-body" >
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: Unknown</span>
-            
-            
-            <span class="badge b-purple">Baseline: 2026-04-06 13:26</span>
-            <span class="badge b-yellow">Baseline model: Not recorded in snapshot</span>
-          </div>
-          
-          <div style="background:rgba(255,255,255,.02);border:1px solid var(--border);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:12px;font-size:12px">
-            <div style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-bottom:8px">Score Breakdown</div>
-            <div style="display:flex;gap:16px;flex-wrap:wrap;align-items:center">
-              <div><span style="color:var(--text-4)">Tools</span> <span style="font-weight:700;color:var(--red-bright)">0.0%</span> <span style="color:var(--text-4);font-size:10px">× 30%</span></div>
-              <div><span style="color:var(--text-4)">Output</span> <span style="font-weight:700;color:var(--red-bright)">0.0/100</span> <span style="color:var(--text-4);font-size:10px">× 50%</span></div>
-              <div><span style="color:var(--text-4)">Sequence</span> <span style="font-weight:700;color:var(--green-bright)">Correct</span> <span style="color:var(--text-4);font-size:10px">× 20%</span></div>
-              <div style="border-left:1px solid var(--border);padding-left:16px"><span style="color:var(--text-4)">=</span> <span style="font-weight:800;font-size:14px;color:var(--red-bright)">20.0/100</span></div>
-            </div>
-            <div style="margin-top:8px;font-size:11px;color:var(--text-3);border-top:1px solid var(--border);padding-top:8px">The response does not answer the query, provide a refactoring, or confirm execution. It only contains a context-size error message and no code, so it fails completeness and relevance entirely.</div>
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Refactor the function p() in messy.py. It has poor naming, deeply nested conditionals, and uses type() instead of isinstance(). Rewrite it to be clean and readable while preserving the exact same behaviour: filter out None values, strip whitespace from non-empty strings, and pass through all other types unchanged. Then run the file to confirm it still prints {&#39;name&#39;: &#39;Alice&#39;, &#39;age&#39;: 30}.
-
-          </div>
-          
-          <div style="background:rgba(239,68,68,.06);border:1px solid rgba(239,68,68,.18);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:12px">
-            <div style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--red-bright);margin-bottom:6px">Why it failed</div>
-            <ul style="margin:0;padding-left:18px;font-size:12px;color:var(--text-2)"><li style="margin-bottom:3px">Score 20.0 below minimum 70.0</li><li style="margin-bottom:3px">Output quality: 0.0/100</li><li style="margin-bottom:3px">Tool accuracy: 0.0%</li></ul>
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-top:10px">
-            <span class="badge b-green" title="Extracts factual claims from the agent response, then verifies each claim against tool outputs. Score = supported claims / total claims.">🔮 No hallucination · No verifiable factual claims found in output. · openai/gpt-5.4-mini</span>
-            <span class="badge b-green">🛡 Safe</span>
-            
-            
-          </div>
-          
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>&#34;Context size has been exceeded.&#34;
-          </div>
-        </div>
-      </div>
-    
-  </div>
-
-  <!-- ═══════════ DIFFS ═══════════ -->
-  
-  <div id="p-diffs" class="panel on">
-    
-      <div class="diff-item">
-        <div class="diff-head" style="cursor:pointer" onclick="tog('df1',this)">
-          <span class="badge b-red">⬇ Regression</span>
-          
-          
-          
-          <span class="diff-name">implement</span>
-          <span class="mc" title="Weighted score: tool accuracy (30%) + output quality (50%) + sequence correctness (20%). Baseline → Current." style="color:var(--red-bright)">96.0 → 20.0</span>
-          <span class="badge b-red" title="Score change from baseline snapshot">-76.0</span>
-          <span class="sim" title="Exact word-for-word match between baseline and current output">lexical <span class="sim-track"><span class="sim-fill lo" style="width:2.9%"></span></span> <b style="color:var(--red-bright)">2.9%</b></span>
-          <span class="sim" title="Meaning similarity — high means same intent even if wording changed">semantic <span class="sim-track"><span class="sim-fill lo" style="width:0.4%"></span></span> <b style="color:var(--red-bright)">0.4%</b></span>
-          <span class="confidence-badge conf-low" title="Statistical confidence that this change is a real signal vs. normal LLM variance">70% confidence</span>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="df1" >
-        
-        <div class="pipeline">
-          <div class="pipeline-row"><span class="pipeline-label">Baseline</span><span class="pipe-step removed">glob</span><span class="pipe-step removed">read_file</span><span class="pipe-step removed">edit_file</span><span class="pipe-step removed">bash</span></div>
-          <div class="pipeline-row"><span class="pipeline-label">Current</span><span class="pipe-step added">error</span></div>
-        </div>
-        
-        
-        <div style="padding:12px 18px;border-top:1px solid var(--border);font-size:12px;color:var(--text-2)">
-          <div class="col-title" style="margin-bottom:6px">Why This Changed</div>
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:8px">
-            <span class="badge b-yellow">tool_reordered</span>
-          </div>
-          <div>Tool sequence changed: &#39;glob&#39; at step 1 was replaced by &#39;error&#39;</div>
-          <div style="margin-top:6px;color:var(--text-3)">Suggested fix: The agent is calling the right tools but in a different order. If the new order is valid, run `evalview snapshot --variant &lt;name&gt;` to accept it as an alternative.</div>
-        </div>
-        
-        <div class="diff-cols">
-          <div class="diff-col"><div class="col-title">Baseline Output</div><div class="outbox">Output matches expected behavior:
-
-- `&#34;fruit&#34;` → `[apple, banana]`
-- `&#34;veggie&#34;` → `[carrot]`
-
-The implementation iterates over each item, skips any missing the key, and appends to the appropriate grou...</div></div>
-          <div class="diff-col"><div class="col-title">Current Output</div><div class="outbox">OpenCode timed out after 360s</div><div class="difflines"><div class="r">--- golden</div><div class="a">+++ actual</div><div>@@ -1,6 +1 @@</div><div class="r">-Output matches expected behavior:
-</div><div class="r">-
-</div><div class="r">-- `&#34;fruit&#34;` → `[apple, banana]`
-</div><div class="r">-- `&#34;veggie&#34;` → `[carrot]`
-</div><div class="r">-
-</div><div class="r">-The implementation iterates over each item, skips any missing the key, and appends to the appropriate group in the result dict.</div><div class="a">+OpenCode timed out after 360s</div></div></div>
-        </div>
-        
-        
-        <div style="padding:10px 18px;border-top:1px solid var(--border)">
-          <div style="cursor:pointer;display:flex;align-items:center;gap:8px;padding:4px 0" onclick="togTraj(this)">
-            <span class="chevron">▾</span>
-            <span style="font-size:12px;font-weight:700;color:var(--text-2);text-transform:uppercase;letter-spacing:.06em">Trajectory Comparison</span>
-          </div>
-          <div class="traj-grid" style="display:none" data-golden="sequenceDiagram
-    participant User
-    participant Agent
-    participant T0 as glob
-    participant T1 as read_file
-    participant T2 as edit_file
-    participant T3 as bash
-    User->>Agent: ...
-    Agent->>T0: pattern=/stub.py
-    T0-->Agent: /Users/hidaibar-mor/Download...
-    Agent->>T1: filePath=/Users/hidaibar-mor...
-    T1-->Agent: path/Users/hidaibar-mor/Down...
-    Agent->>T2: filePath=/Users/hidaibar-mor...
-    T2-->Agent: Index: /Users/hidaibar-mor/D...
-    Agent->>T3: command=python stub.py, desc...
-    T3-->Agent: fruit: type: fruit,
-    Agent-->>User: ..." data-actual="sequenceDiagram
-    participant User
-    participant Agent
-    participant T0 as error
-    User->>Agent: Implement the group_by_key f...
-    Agent-xT0: error
-    T0-->Agent: OpenCode timed out after 360...
-    Agent-->>User: OpenCode timed out after 360...">
-            <div class="traj-col"><div class="col-title">Baseline</div><div class="mermaid-box" style="min-height:100px"><div class="mermaid-lazy"></div></div></div>
-            <div class="traj-col"><div class="col-title">Current</div><div class="mermaid-box" style="min-height:100px"><div class="mermaid-lazy"></div></div></div>
-          </div>
-        </div>
-        
-        
-        </div>
-      </div>
-    
-      <div class="diff-item">
-        <div class="diff-head" style="cursor:pointer" onclick="tog('df2',this)">
-          <span class="badge b-red">⬇ Regression</span>
-          
-          
-          
-          <span class="diff-name">bug-fix</span>
-          <span class="mc" title="Weighted score: tool accuracy (30%) + output quality (50%) + sequence correctness (20%). Baseline → Current." style="color:var(--red-bright)">100.0 → 32.5</span>
-          <span class="badge b-red" title="Score change from baseline snapshot">-67.5</span>
-          <span class="sim" title="Exact word-for-word match between baseline and current output">lexical <span class="sim-track"><span class="sim-fill lo" style="width:33.7%"></span></span> <b style="color:var(--red-bright)">33.7%</b></span>
-          <span class="sim" title="Meaning similarity — high means same intent even if wording changed">semantic <span class="sim-track"><span class="sim-fill lo" style="width:35.2%"></span></span> <b style="color:var(--red-bright)">35.2%</b></span>
-          <span class="confidence-badge conf-medium" title="Statistical confidence that this change is a real signal vs. normal LLM variance">99% confidence</span>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="df2" >
-        
-        <div class="pipeline">
-          <div class="pipeline-row"><span class="pipeline-label">Baseline</span><span class="pipe-step match">read_file</span><span class="pipe-step removed">edit_file</span><span class="pipe-step removed">bash</span></div>
-          <div class="pipeline-row"><span class="pipeline-label">Current</span><span class="pipe-step match">read_file</span></div>
-        </div>
-        
-        
-        <div style="padding:12px 18px;border-top:1px solid var(--border);font-size:12px;color:var(--text-2)">
-          <div class="col-title" style="margin-bottom:6px">Why This Changed</div>
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:8px">
-            <span class="badge b-yellow">tool_removed</span>
-          </div>
-          <div>Tools &#39;edit_file&#39;, &#39;bash&#39; were expected but not called</div>
-          <div style="margin-top:6px;color:var(--text-3)">Suggested fix: Check if your agent&#39;s prompt or logic still triggers &#39;edit_file&#39;. If the tool was intentionally removed, run `evalview snapshot` to update the baseline.</div>
-        </div>
-        
-        <div class="diff-cols">
-          <div class="diff-col"><div class="col-title">Baseline Output</div><div class="outbox">Fixed. The bug was `range(1, len(numbers) - 1)` which excluded the last index. Changed to `range(1, len(numbers))` so all elements are checked. Output confirms `9`.</div></div>
-          <div class="diff-col"><div class="col-title">Current Output</div><div class="outbox">I&#39;ll fix the bug in the find_max function in buggy.py. Let me first examine the file to understand the current implementation.</div><div class="difflines"><div class="r">--- golden</div><div class="a">+++ actual</div><div>@@ -1 +1 @@</div><div class="r">-Fixed. The bug was `range(1, len(numbers) - 1)` which excluded the last index. Changed to `range(1, len(numbers))` so all elements are checked. Output confirms `9`.</div><div class="a">+I&#39;ll fix the bug in the find_max function in buggy.py. Let me first examine the file to understand the current implementation.</div></div></div>
-        </div>
-        
-        
-        <div style="padding:10px 18px;border-top:1px solid var(--border)">
-          <div style="cursor:pointer;display:flex;align-items:center;gap:8px;padding:4px 0" onclick="togTraj(this)">
-            <span class="chevron">▾</span>
-            <span style="font-size:12px;font-weight:700;color:var(--text-2);text-transform:uppercase;letter-spacing:.06em">Trajectory Comparison</span>
-          </div>
-          <div class="traj-grid" style="display:none" data-golden="sequenceDiagram
-    participant User
-    participant Agent
-    participant T0 as read_file
-    participant T1 as edit_file
-    participant T2 as bash
-    User->>Agent: ...
-    Agent->>T0: filePath=/Users/hidaibar-mor...
-    T0-->Agent: path/Users/hidaibar-mor/Down...
-    Agent->>T1: filePath=/Users/hidaibar-mor...
-    T1-->Agent: Index: /Users/hidaibar-mor/D...
-    Agent->>T2: command=python3 buggy.py, de...
-    T2-->Agent: 9
-    Agent-->>User: ..." data-actual="sequenceDiagram
-    participant User
-    participant Agent
-    participant T0 as read_file
-    User->>Agent: There is a bug in buggy.py.
-    Agent->>T0: filePath=/Users/hidaibar-mor...
-    T0-->Agent: path/Users/hidaibar-mor/Down...
-    Agent-->>User: Ill fix the bug in the find_...">
-            <div class="traj-col"><div class="col-title">Baseline</div><div class="mermaid-box" style="min-height:100px"><div class="mermaid-lazy"></div></div></div>
-            <div class="traj-col"><div class="col-title">Current</div><div class="mermaid-box" style="min-height:100px"><div class="mermaid-lazy"></div></div></div>
-          </div>
-        </div>
-        
-        
-        </div>
-      </div>
-    
-      <div class="diff-item">
-        <div class="diff-head" style="cursor:pointer" onclick="tog('df3',this)">
-          <span class="badge b-red">⬇ Regression</span>
-          
-          
-          
-          <span class="diff-name">refactor</span>
-          <span class="mc" title="Weighted score: tool accuracy (30%) + output quality (50%) + sequence correctness (20%). Baseline → Current." style="color:var(--red-bright)">96.5 → 20.0</span>
-          <span class="badge b-red" title="Score change from baseline snapshot">-76.5</span>
-          <span class="sim" title="Exact word-for-word match between baseline and current output">lexical <span class="sim-track"><span class="sim-fill lo" style="width:9.9%"></span></span> <b style="color:var(--red-bright)">9.9%</b></span>
-          <span class="sim" title="Meaning similarity — high means same intent even if wording changed">semantic <span class="sim-track"><span class="sim-fill lo" style="width:12.0%"></span></span> <b style="color:var(--red-bright)">12.0%</b></span>
-          <span class="confidence-badge conf-low" title="Statistical confidence that this change is a real signal vs. normal LLM variance">58% confidence</span>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="df3" >
-        
-        <div class="pipeline">
-          <div class="pipeline-row"><span class="pipeline-label">Baseline</span><span class="pipe-step removed">read_file</span><span class="pipe-step removed">todowrite</span><span class="pipe-step removed">edit_file</span><span class="pipe-step removed">edit_file</span><span class="pipe-step removed">todowrite</span><span class="pipe-step removed">bash</span><span class="pipe-step removed">todowrite</span></div>
-          <div class="pipeline-row"><span class="pipeline-label">Current</span><span style="font-size:11px;color:var(--text-4);font-style:italic">No tools</span></div>
-        </div>
-        
-        
-        <div style="padding:12px 18px;border-top:1px solid var(--border);font-size:12px;color:var(--text-2)">
-          <div class="col-title" style="margin-bottom:6px">Why This Changed</div>
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:8px">
-            <span class="badge b-yellow">tool_removed</span>
-          </div>
-          <div>Tools &#39;read_file&#39;, &#39;todowrite&#39;, &#39;edit_file&#39;, &#39;edit_file&#39;, &#39;todowrite&#39;, &#39;bash&#39;, &#39;todowrite&#39; were expected but not called</div>
-          <div style="margin-top:6px;color:var(--text-3)">Suggested fix: Check if your agent&#39;s prompt or logic still triggers &#39;read_file&#39;. If the tool was intentionally removed, run `evalview snapshot` to update the baseline.</div>
-        </div>
-        
-        <div class="diff-cols">
-          <div class="diff-col"><div class="col-title">Baseline Output</div><div class="outbox">Output confirmed: `{&#39;name&#39;: &#39;Alice&#39;, &#39;age&#39;: 30}`
-
-Here&#39;s a summary of what changed in `messy.py`:
-
-| Before | After | Reason |
-|--------|-------|--------|
-| `p(d)` | `process_dict(data)` | Descriptive...</div></div>
-          <div class="diff-col"><div class="col-title">Current Output</div><div class="outbox">&#34;Context size has been exceeded.&#34;</div><div class="difflines"><div class="r">--- golden</div><div class="a">+++ actual</div><div>@@ -1,11 +1 @@</div><div class="r">-Output confirmed: `{&#39;name&#39;: &#39;Alice&#39;, &#39;age&#39;: 30}`
-</div><div class="r">-
-</div><div class="r">-Here&#39;s a summary of what changed in `messy.py`:
-</div><div class="r">-
-</div><div class="r">-| Before | After | Reason |
-</div><div class="r">-|--------|-------|--------|
-</div><div class="r">-| `p(d)` | `process_dict(data)` | Descriptive names |
-</div><div class="r">-| `for k in d` | `for key, value in data.items()` | Unpack key/value directly |
-</div><div class="r">-| `if d[k] != None` | `if value is None: continue` | `is None` is idiomatic; early-continue flattens nesting |
-</div><div class="r">-| `type(d[k]) == str` | `isinstance(value, str)` | `isinstance` is correct (handles subclasses) |
-</div><div class="r">-| `if len(d[k]) &gt; 0` / `else: pass` | `if stripped:` | Truthiness check on the already-stripped string; `pass` branch eliminated |</div><div class="a">+&#34;Context size has been exceeded.&#34;</div></div></div>
-        </div>
-        
-        
-        <div style="padding:10px 18px;border-top:1px solid var(--border)">
-          <div style="cursor:pointer;display:flex;align-items:center;gap:8px;padding:4px 0" onclick="togTraj(this)">
-            <span class="chevron">▾</span>
-            <span style="font-size:12px;font-weight:700;color:var(--text-2);text-transform:uppercase;letter-spacing:.06em">Trajectory Comparison</span>
-          </div>
-          <div class="traj-grid" style="display:none" data-golden="sequenceDiagram
-    participant User
-    participant Agent
-    participant T0 as read_file
-    participant T1 as todowrite
-    participant T2 as edit_file
-    participant T3 as bash
-    User->>Agent: ...
-    Agent->>T0: filePath=/Users/hidaibar-mor...
-    T0-->Agent: path/Users/hidaibar-mor/Down...
-    Agent->>T1: todos=content: Refact
-    T1-->Agent: content: Refactor
-    Agent->>T2: filePath=/Users/hidaibar-mor...
-    T2-->Agent: Index: /Users/hidaibar-mor/D...
-    Agent->>T2: filePath=/Users/hidaibar-mor...
-    T2-->Agent: Index: /Users/hidaibar-mor/D...
-    Agent->>T1: todos=content: Refact
-    T1-->Agent: content: Refactor
-    Agent->>T3: command=python3 messy.py, de...
-    T3-->Agent: name: Alice, age: 30
-    Agent->>T1: todos=content: Refact
-    T1-->Agent: content: Refactor
-    Agent-->>User: ..." data-actual="sequenceDiagram
-    Note over Agent: Direct response — no tools used">
-            <div class="traj-col"><div class="col-title">Baseline</div><div class="mermaid-box" style="min-height:100px"><div class="mermaid-lazy"></div></div></div>
-            <div class="traj-col"><div class="col-title">Current</div><div class="mermaid-box" style="min-height:100px"><div class="mermaid-lazy"></div></div></div>
-          </div>
-        </div>
-        
-        
-        </div>
-      </div>
-    
-  </div>
-  
-
-  <!-- ═══════════ TIMELINE ═══════════ -->
-  <div id="p-timeline" class="panel ">
-    
-    <!-- Timeline KPI strip -->
-    <div class="kpi-strip" style="margin-bottom:12px">
-      <div class="kpi-item">
-        <span class="kpi-val">2</span>
-        <span class="kpi-label">steps</span>
-      </div>
-      <div class="kpi-item">
-        <span class="kpi-val" style="color:var(--blue-bright)">281135ms</span>
-        <span class="kpi-label">avg latency</span>
-      </div>
-      <div class="kpi-item">
-        <span class="kpi-val" style="color:var(--blue-bright)">$0</span>
-        <span class="kpi-label">total cost</span>
-      </div>
-      <div class="kpi-item">
-        <span class="kpi-val">3</span>
-        <span class="kpi-label">tests</span>
-      </div>
-    </div>
-    <div style="display:grid;grid-template-columns:1fr 1fr;gap:12px">
-      <div class="card" style="margin-bottom:0">
-        <div class="card-title">Step Latencies</div>
-        <div style="position:relative;height:160px"><canvas id="tlChart"></canvas></div>
-      </div>
-      <div class="card" style="margin-bottom:0">
-        <div class="card-title">Step Cost</div>
-        <div style="position:relative;height:160px"><canvas id="tlCostChart"></canvas></div>
-      </div>
-    </div>
-    
-  </div>
-
-  <!-- ═══════════ COMPARE ═══════════ -->
-  
-</main>
-
-<script>
-mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
-  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(37,99,235,.1)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(37,99,235,.25)',lineColor:'rgba(100,116,139,.3)',secondaryColor:'rgba(16,185,129,.06)',tertiaryColor:'rgba(6,182,212,.06)',noteBkgColor:'rgba(37,99,235,.05)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(37,99,235,.15)',actorBkg:'rgba(37,99,235,.08)',actorBorder:'rgba(37,99,235,.2)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
-  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:15,messageFontSize:14,noteFontSize:13,boxTextMargin:12,mirrorActors:false,messageAlign:'center',actorMargin:50,bottomMarginAdj:4,diagramMarginX:20,diagramMarginY:16}
-});
-function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
-function tog(id,head){const el=document.getElementById(id);const o=el.style.display!=='none';el.style.display=o?'none':'block';head.querySelector('.chevron').style.transform=o?'':'rotate(180deg)'}
-function togTraj(trigger){const grid=trigger.nextElementSibling;const open=grid.style.display!=='none';grid.style.display=open?'none':'grid';trigger.querySelector('.chevron').style.transform=open?'':'rotate(180deg)';if(!open&&!grid.dataset.rendered){grid.dataset.rendered='1';const divs=grid.querySelectorAll('.mermaid-lazy');const src=[grid.dataset.golden,grid.dataset.actual];divs.forEach(function(d,i){if(src[i]){d.classList.add('mermaid');d.textContent=src[i];mermaid.init(undefined,d)}})}}
-
-
-(function(){
-  const scores=[20.0, 32.5, 20.0],names=["implement", "bug-fix", "refactor"];
-  const tc='rgba(100,116,139,.6)',gc='rgba(255,255,255,.025)';
-  const tt={backgroundColor:'rgba(6,11,24,.95)',borderColor:'rgba(51,65,85,.5)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:11},bodyFont:{family:'Inter',size:11},padding:8,cornerRadius:6};
-
-  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
-  /* Warning stripes for low scores */
-  const barBg=sorted.map(s=>{
-    if(s.score>=80) return 'rgba(16,185,129,.35)';
-    if(s.score>=60) return 'rgba(245,158,11,.35)';
-    return 'rgba(239,68,68,.35)';
-  });
-  const barBorder=sorted.map(s=>{
-    if(s.score>=80) return 'rgba(16,185,129,.55)';
-    if(s.score>=60) return 'rgba(245,158,11,.55)';
-    return 'rgba(239,68,68,.55)';
-  });
-  new Chart(document.getElementById('bars'),{type:'bar',
-    data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),backgroundColor:barBg,borderColor:barBorder,borderWidth:1,borderRadius:3,borderSkipped:false,barPercentage:.55,categoryPercentage:.8}]},
-    options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,
-      scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:9},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.7)',font:{family:'Inter',size:11,weight:'600'},padding:4,mirror:false},border:{display:false},afterFit:function(axis){var maxLen=0;sorted.forEach(function(s){var w=s.name.length*7;if(w>maxLen)maxLen=w});axis.width=Math.min(Math.max(maxLen,140),280)}}},
-      plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
-})();
-
-
-
-(function(){
-  const tl=[{"cost": 0.0, "label": "implement \u203a error", "latency": 360030.9, "success": false, "test": "implement", "tool": "error"}, {"cost": 0.0, "label": "bug-fix \u203a read_file", "latency": 19.0, "success": true, "test": "bug-fix", "tool": "read_file"}];if(!tl.length)return;
-  const labels=tl.map(r=>r.label||(r.test+' \u203a '+r.tool));const vals=tl.map(r=>r.latency||0);const costs=tl.map(r=>r.cost||0);
-  const maxLat=Math.max(...vals,0);
-  const tt={backgroundColor:'rgba(6,11,24,.95)',borderColor:'rgba(51,65,85,.5)',borderWidth:1,titleFont:{family:'Inter',weight:'700'},bodyFont:{family:'Inter'},padding:8,cornerRadius:6};
-  /* Color palette per test — distinct hues */
-  const palette=[
-    {bg:'rgba(37,99,235,.4)',border:'rgba(37,99,235,.65)'},
-    {bg:'rgba(16,185,129,.4)',border:'rgba(16,185,129,.65)'},
-    {bg:'rgba(245,158,11,.4)',border:'rgba(245,158,11,.65)'},
-    {bg:'rgba(168,85,247,.4)',border:'rgba(168,85,247,.65)'},
-    {bg:'rgba(6,182,212,.4)',border:'rgba(6,182,212,.65)'},
-    {bg:'rgba(239,68,68,.4)',border:'rgba(239,68,68,.65)'},
-    {bg:'rgba(236,72,153,.4)',border:'rgba(236,72,153,.65)'},
-    {bg:'rgba(132,204,22,.4)',border:'rgba(132,204,22,.65)'},
-  ];
-  const tests=[...new Set(tl.map(r=>r.test))];
-  const testIdx=Object.fromEntries(tests.map((t,i)=>[t,i%palette.length]));
-  const colors=tl.map(r=>r.success?palette[testIdx[r.test]].bg:'rgba(239,68,68,.45)');
-  const borders=tl.map(r=>r.success?palette[testIdx[r.test]].border:'rgba(239,68,68,.65)');
-  const chartOpts={indexAxis:'y',responsive:true,maintainAspectRatio:false,scales:{x:{suggestedMax:maxLat>0?maxLat*1.15:1,grid:{color:'rgba(255,255,255,.025)'},ticks:{color:'rgba(100,116,139,.5)',font:{family:'Inter',size:9},callback:v=>v+'ms'},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.6)',font:{family:'Inter',size:10,weight:'500'}},border:{display:false}}},plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` ${ctx.raw}ms`,afterLabel:ctx=>` Cost: $${(costs[ctx.dataIndex]||0).toFixed(6)}`,title:ctx=>ctx[0].label}}}};
-  new Chart(document.getElementById('tlChart'),{type:'bar',data:{labels,datasets:[{label:'ms',data:vals,backgroundColor:colors,borderColor:borders,borderWidth:1,borderRadius:3,borderSkipped:false,barPercentage:.6}]},options:chartOpts});
-  /* Cost chart */
-  const maxCost=Math.max(...costs,0.000001);
-  new Chart(document.getElementById('tlCostChart'),{type:'bar',data:{labels,datasets:[{label:'$',data:costs,backgroundColor:colors,borderColor:borders,borderWidth:1,borderRadius:3,borderSkipped:false,barPercentage:.6}]},options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,scales:{x:{suggestedMax:maxCost>0?maxCost*1.15:0.001,grid:{color:'rgba(255,255,255,.025)'},ticks:{color:'rgba(100,116,139,.5)',font:{family:'Inter',size:9},callback:v=>'$'+v.toFixed(4)},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.6)',font:{family:'Inter',size:10,weight:'500'}},border:{display:false}}},plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` $${ctx.raw.toFixed(6)}`,title:ctx=>ctx[0].label}}}}});
-})();
-
-
-
-(function(){
-  const canvas=document.getElementById('trendChart');
-  if(!canvas)return;
-  const sparklines=[{"name": "implement", "values": [3.7, 4.1, 2.5, 4.7, 2.9]}, {"name": "bug-fix", "values": [15.4, 15.1, 12.5, 13.6, 33.7]}, {"name": "refactor", "values": [7.9, 7.6, 2.0, 55.1, 9.9]}];
-  const passTrend=[0.0, 0.0, 50.0, 50.0, 50.0, 0.0, 0.0, 0.0, 0.0, 0.0];
-  const palette=[
-    {bg:'rgba(37,99,235,.15)',border:'rgba(37,99,235,.7)'},
-    {bg:'rgba(16,185,129,.15)',border:'rgba(16,185,129,.7)'},
-    {bg:'rgba(245,158,11,.15)',border:'rgba(245,158,11,.7)'},
-    {bg:'rgba(168,85,247,.15)',border:'rgba(168,85,247,.7)'},
-    {bg:'rgba(6,182,212,.15)',border:'rgba(6,182,212,.7)'},
-    {bg:'rgba(239,68,68,.15)',border:'rgba(239,68,68,.7)'},
-  ];
-  const maxLen=Math.max(...sparklines.map(s=>s.values.length),passTrend.length);
-  const labels=Array.from({length:maxLen},(_,i)=>''+(i+1));
-  const datasets=sparklines.map(function(s,i){
-    const c=palette[i%palette.length];
-    return {label:s.name,data:s.values,borderColor:c.border,backgroundColor:c.bg,borderWidth:2,pointRadius:3,pointHoverRadius:5,tension:.3,fill:false};
-  });
-  if(passTrend.length>1){
-    datasets.push({label:'Overall pass rate',data:passTrend,borderColor:'rgba(255,255,255,.4)',backgroundColor:'rgba(255,255,255,.05)',borderWidth:2,borderDash:[4,4],pointRadius:2,tension:.3,fill:false});
-  }
-  new Chart(canvas,{type:'line',data:{labels,datasets},options:{responsive:true,maintainAspectRatio:false,
-    scales:{x:{display:true,grid:{color:'rgba(255,255,255,.025)'},ticks:{color:'rgba(100,116,139,.5)',font:{family:'Inter',size:9}},title:{display:true,text:'Check #',color:'rgba(100,116,139,.5)',font:{family:'Inter',size:10}},border:{display:false}},y:{min:0,max:100,grid:{color:'rgba(255,255,255,.025)'},ticks:{color:'rgba(100,116,139,.5)',font:{family:'Inter',size:9},callback:function(v){return v+'%'}},border:{display:false}}},
-    plugins:{legend:{display:true,position:'bottom',labels:{color:'rgba(203,213,225,.7)',font:{family:'Inter',size:10},boxWidth:12,padding:10}},tooltip:{backgroundColor:'rgba(6,11,24,.95)',borderColor:'rgba(51,65,85,.5)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:11},bodyFont:{family:'Inter',size:11},padding:8,cornerRadius:6,callbacks:{label:function(ctx){return ' '+ctx.dataset.label+': '+ctx.raw+'%'}}}}}});
-})();
-
-
-
-</script>
-
-<!-- Share bar -->
-<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(6,11,24,.9);backdrop-filter:blur(16px);-webkit-backdrop-filter:blur(16px);border-top:1px solid var(--border);padding:8px 24px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:11px;color:var(--text-4)">
-  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:600">EvalView</a> <span style="opacity:.25;margin:0 5px">|</span> Agent testing &amp; regression detection</span>
-  <span style="display:flex;align-items:center;gap:5px">
-    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(29,155,240,.08);color:#1d9bf0;text-decoration:none;font-weight:600;font-size:10px;border:1px solid rgba(29,155,240,.1)"><svg width="12" height="12" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
-    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(255,255,255,.03);color:var(--text-2);text-decoration:none;font-weight:600;font-size:10px;border:1px solid var(--border)"><svg width="12" height="12" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
-  </span>
-</div>
-<div style="height:40px"></div>
-
-</body>
-</html>
\ No newline at end of file
diff --git a/.evalview/latest-redesign-v2.html b/.evalview/latest-redesign-v2.html
deleted file mode 100644
index 6e51fb0..0000000
--- a/.evalview/latest-redesign-v2.html
+++ /dev/null
@@ -1,681 +0,0 @@
-<!doctype html>
-<html lang="en">
-<head>
-<meta charset="UTF-8">
-<meta name="viewport" content="width=device-width, initial-scale=1.0">
-<title>EvalView Check Report</title>
-<link rel="preconnect" href="https://fonts.googleapis.com">
-<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
-<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
-<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
-<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
-<style>
-*{box-sizing:border-box;margin:0;padding:0}
-:root{
-  --green:#10b981;--green-bright:#34d399;--green-glow:rgba(16,185,129,.5);
-  --red:#f43f5e;--red-bright:#fb7185;--red-glow:rgba(244,63,94,.5);
-  --yellow:#f59e0b;--yellow-bright:#fbbf24;
-  --blue:#6366f1;--blue-bright:#818cf8;--blue-glow:rgba(99,102,241,.5);
-  --purple:#a855f7;--purple-bright:#c084fc;--cyan:#06b6d4;
-  --bg:#030712;--bg-card:#0d1117;--bg-elevated:#161b22;--bg-hover:#1c2333;
-  --border:#1e293b;--border-light:#334155;
-  --text:#f8fafc;--text-2:#cbd5e1;--text-3:#64748b;--text-4:#475569;
-  --r:20px;--r-sm:12px;--r-xs:8px;
-  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
-  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
-}
-html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
-body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;background:var(--bg)}
-/* Animated gradient mesh */
-body::before{
-  content:'';position:fixed;inset:0;pointer-events:none;z-index:0;
-  background:
-    radial-gradient(ellipse 120% 80% at 20% -20%,rgba(99,102,241,.22),transparent 55%),
-    radial-gradient(ellipse 100% 60% at 80% 110%,rgba(16,185,129,.14),transparent 55%),
-    radial-gradient(ellipse 60% 50% at 60% 30%,rgba(168,85,247,.1),transparent 50%);
-  animation:meshShift 20s ease-in-out infinite alternate;
-}
-@keyframes meshShift{0%{opacity:1;filter:hue-rotate(0deg)}100%{opacity:.85;filter:hue-rotate(15deg)}}
-body::after{
-  content:'';position:fixed;width:600px;height:600px;border-radius:50%;
-  top:-200px;right:-150px;pointer-events:none;z-index:0;
-  background:radial-gradient(circle,rgba(99,102,241,.18),transparent 70%);
-  filter:blur(60px);animation:orbFloat 15s ease-in-out infinite;
-}
-@keyframes orbFloat{0%,100%{transform:translate(0,0) scale(1)}50%{transform:translate(-40px,30px) scale(1.1)}}
-
-/* Header */
-.header{
-  position:sticky;top:0;z-index:200;
-  background:rgba(3,7,18,.75);border-bottom:1px solid var(--border);
-  backdrop-filter:blur(24px) saturate(180%);-webkit-backdrop-filter:blur(24px) saturate(180%);
-  padding:0 40px;height:60px;display:flex;align-items:center;justify-content:space-between;
-}
-.logo{display:flex;align-items:center;gap:12px}
-.logo-icon{
-  width:36px;height:36px;border-radius:10px;flex-shrink:0;
-  background:linear-gradient(135deg,#6366f1,#a855f7,#ec4899);
-  display:flex;align-items:center;justify-content:center;font-size:16px;
-  box-shadow:0 0 0 1px rgba(99,102,241,.4),0 4px 24px rgba(99,102,241,.35),0 0 60px rgba(99,102,241,.15);
-  animation:logoPulse 3s ease-in-out infinite;
-}
-@keyframes logoPulse{0%,100%{box-shadow:0 0 0 1px rgba(99,102,241,.4),0 4px 24px rgba(99,102,241,.35)}50%{box-shadow:0 0 0 1px rgba(99,102,241,.6),0 4px 32px rgba(99,102,241,.5),0 0 80px rgba(99,102,241,.2)}}
-.logo-text{font-size:16px;font-weight:800;letter-spacing:-.03em;background:linear-gradient(135deg,#f8fafc,#cbd5e1);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text}
-.logo-sub{font-size:11px;color:var(--text-3);font-weight:500}
-.header-right{display:flex;align-items:center;gap:8px}
-
-/* Badges */
-.badge{display:inline-flex;align-items:center;gap:4px;padding:5px 14px;border-radius:20px;font-size:11px;font-weight:600;letter-spacing:-.01em;white-space:nowrap;transition:all .2s}
-.b-green{background:rgba(16,185,129,.12);color:var(--green-bright);border:1px solid rgba(16,185,129,.25);box-shadow:0 0 12px rgba(16,185,129,.08)}
-.b-red{background:rgba(244,63,94,.12);color:var(--red-bright);border:1px solid rgba(244,63,94,.25);box-shadow:0 0 12px rgba(244,63,94,.08)}
-.b-yellow{background:rgba(245,158,11,.12);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.25)}
-.b-blue{background:rgba(99,102,241,.12);color:var(--blue-bright);border:1px solid rgba(99,102,241,.25);box-shadow:0 0 12px rgba(99,102,241,.08)}
-.b-purple{background:rgba(168,85,247,.12);color:var(--purple-bright);border:1px solid rgba(168,85,247,.25)}
-.badge:hover{transform:translateY(-1px);filter:brightness(1.15)}
-
-/* Layout */
-.main{max-width:1320px;margin:0 auto;padding:32px 40px 80px;position:relative;z-index:1}
-
-/* Tab bar */
-.tabbar{display:flex;gap:2px;background:rgba(13,17,23,.8);border:1px solid var(--border);border-radius:14px;padding:4px;margin-bottom:32px;width:fit-content;backdrop-filter:blur(12px)}
-.tab{background:none;border:none;color:var(--text-3);cursor:pointer;font:600 13px/1 var(--font);padding:10px 22px;border-radius:10px;transition:all .2s;letter-spacing:-.01em}
-.tab:hover{color:var(--text-2);background:rgba(255,255,255,.04)}
-.tab.on{color:#fff;background:linear-gradient(135deg,rgba(99,102,241,.25),rgba(168,85,247,.15));border:1px solid rgba(99,102,241,.3);box-shadow:0 2px 16px rgba(99,102,241,.2),inset 0 1px 0 rgba(255,255,255,.08)}
-.panel{display:none}.panel.on{display:block}
-
-/* Glass card base */
-.glass{
-  background:linear-gradient(145deg,rgba(13,17,23,.9),rgba(22,27,34,.7));
-  border:1px solid var(--border);border-radius:var(--r);
-  backdrop-filter:blur(20px);position:relative;overflow:hidden;
-  transition:all .25s cubic-bezier(.4,0,.2,1);
-}
-.glass::before{content:'';position:absolute;inset:0;border-radius:var(--r);pointer-events:none;background:linear-gradient(135deg,rgba(255,255,255,.05) 0%,transparent 40%,transparent 60%,rgba(255,255,255,.02) 100%)}
-.glass:hover{border-color:var(--border-light);transform:translateY(-2px);box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 0 1px rgba(99,102,241,.1)}
-
-/* KPI Cards */
-.kpi-row{display:grid;grid-template-columns:repeat(4,1fr);gap:16px;margin-bottom:24px}
-@media(max-width:1100px){.kpi-row{grid-template-columns:repeat(2,1fr)}}
-.kpi{padding:24px;cursor:default}
-.kpi.glow-green:hover{box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 60px rgba(16,185,129,.12),0 0 0 1px rgba(16,185,129,.2)}
-.kpi.glow-red:hover{box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 60px rgba(244,63,94,.12),0 0 0 1px rgba(244,63,94,.2)}
-.kpi.glow-blue:hover{box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 60px rgba(99,102,241,.12),0 0 0 1px rgba(99,102,241,.2)}
-.kpi-top{display:flex;align-items:flex-start;justify-content:space-between;margin-bottom:16px}
-.kpi-label{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.08em}
-.kpi-ring{position:relative;width:52px;height:52px;flex-shrink:0}
-.kpi-ring svg{transform:rotate(-90deg);filter:drop-shadow(0 0 8px var(--ring-glow,rgba(99,102,241,.3)))}
-.kpi-ring-label{position:absolute;inset:0;display:flex;align-items:center;justify-content:center;font-size:11px;font-weight:800;color:var(--text-2)}
-.kpi-num{font-size:42px;font-weight:900;letter-spacing:-.05em;line-height:1}
-.kpi-num.c-green{background:linear-gradient(135deg,#10b981,#34d399);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text;filter:drop-shadow(0 0 24px rgba(16,185,129,.35))}
-.kpi-num.c-red{background:linear-gradient(135deg,#f43f5e,#fb7185);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text;filter:drop-shadow(0 0 24px rgba(244,63,94,.35))}
-.kpi-num.c-yellow{background:linear-gradient(135deg,#f59e0b,#fbbf24);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text}
-.kpi-num.c-blue{background:linear-gradient(135deg,#6366f1,#818cf8);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text;filter:drop-shadow(0 0 24px rgba(99,102,241,.35))}
-.kpi-sub{font-size:12px;color:var(--text-4);margin-top:6px;font-weight:500}
-.token-bar{display:flex;align-items:center;gap:10px;margin-top:12px;font-size:11px;font-weight:600}
-.token-bar span{font-family:var(--mono);letter-spacing:-.02em}
-
-/* Meta cards */
-.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:16px;margin-bottom:20px}
-@media(max-width:900px){.meta-row{grid-template-columns:1fr}}
-.meta-card{padding:18px 22px}
-.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.1em;margin-bottom:8px}
-.meta-value{font-size:16px;font-weight:700;color:var(--text);letter-spacing:-.02em}
-.meta-sub{font-size:12px;color:var(--text-4);margin-top:4px;font-weight:500}
-
-/* Card */
-.card{padding:22px;margin-bottom:20px}
-.card-title{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.08em;margin-bottom:18px;display:flex;align-items:center;gap:8px}
-.card-title::before{content:'';width:3px;height:14px;border-radius:2px;background:linear-gradient(to bottom,#6366f1,#a855f7);box-shadow:0 0 8px rgba(99,102,241,.4)}
-.chart-wrap{position:relative}
-.chart-row{display:grid;grid-template-columns:1fr 260px;gap:16px;margin-bottom:20px}
-@media(max-width:900px){.chart-row{grid-template-columns:1fr}}
-
-/* Trace items */
-.item{margin-bottom:12px}
-.item-head{padding:16px 24px;display:flex;align-items:center;gap:12px;cursor:pointer;transition:background .15s}
-.item-head:hover{background:rgba(255,255,255,.02)}
-.item-name{font-weight:700;font-size:15px;flex:1;letter-spacing:-.02em}
-.item-meta{display:flex;align-items:center;gap:8px;flex-shrink:0;flex-wrap:wrap}
-.meta-chip{display:inline-flex;align-items:center;gap:4px;padding:3px 10px;border-radius:6px;background:rgba(255,255,255,.04);border:1px solid var(--border);font-size:11px;font-weight:600;color:var(--text-3);white-space:nowrap;transition:all .15s}
-.meta-chip:hover{background:rgba(255,255,255,.06);border-color:var(--border-light)}
-.chevron{color:var(--text-4);font-size:10px;transition:transform .25s;flex-shrink:0}
-details[open] .turn-chevron{transform:rotate(90deg)}
-.item-body{padding:24px;border-top:1px solid var(--border);background:linear-gradient(180deg,rgba(0,0,0,.2),rgba(0,0,0,.1))}
-.mermaid-box{background:rgba(0,0,0,.3);border:1px solid rgba(30,41,59,.8);border-radius:var(--r-sm);padding:32px 24px;overflow-x:auto;min-height:220px}
-.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
-.mermaid-box .mermaid{min-width:560px}
-
-/* Chat turns */
-.chat-container{margin-top:20px;padding:20px;background:rgba(0,0,0,.15);border:1px solid var(--border);border-radius:var(--r-sm)}
-.chat-header{font-size:12px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:16px;padding-bottom:12px;border-bottom:1px solid var(--border)}
-.chat-messages{display:flex;flex-direction:column;gap:4px}
-.chat-bubble{max-width:80%;padding:12px 16px;font-size:13px;line-height:1.6;letter-spacing:-.01em;border-radius:16px;animation:chatIn .3s cubic-bezier(.4,0,.2,1)}
-@keyframes chatIn{from{opacity:0;transform:translateY(6px)}to{opacity:1;transform:none}}
-.chat-bubble.user{align-self:flex-end;background:linear-gradient(135deg,rgba(99,102,241,.2),rgba(168,85,247,.1));border:1px solid rgba(99,102,241,.2);color:var(--text);border-bottom-right-radius:4px}
-.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.03);border:1px solid var(--border);color:var(--text-2);border-bottom-left-radius:4px}
-.chat-meta{display:flex;align-items:center;gap:8px;padding:6px 4px;font-size:10px;color:var(--text-4);font-weight:500}
-.chat-meta.right{justify-content:flex-end}
-.chat-tool-tag{display:inline-flex;align-items:center;gap:3px;padding:2px 8px;border-radius:4px;background:rgba(99,102,241,.1);border:1px solid rgba(99,102,241,.15);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
-.chat-eval{padding:8px 12px;border-radius:10px;font-size:11px;font-weight:600;max-width:80%;animation:chatIn .3s}
-.chat-eval.pass{align-self:flex-start;background:linear-gradient(135deg,rgba(16,185,129,.08),rgba(16,185,129,.04));border:1px solid rgba(16,185,129,.2);color:var(--green-bright)}
-.chat-eval.fail{align-self:flex-start;background:linear-gradient(135deg,rgba(244,63,94,.08),rgba(244,63,94,.04));border:1px solid rgba(244,63,94,.2);color:var(--red-bright)}
-
-/* Diffs */
-.diff-item{margin-bottom:12px}
-.diff-head{padding:16px 24px;display:flex;align-items:center;gap:10px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
-.diff-name{font-weight:700;font-size:15px;flex:1;letter-spacing:-.02em}
-.diff-cols{display:grid;grid-template-columns:1fr 1fr}
-.diff-col{padding:18px 22px}
-.diff-col+.diff-col{border-left:1px solid var(--border)}
-.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:10px}
-.tags{display:flex;flex-wrap:wrap;gap:4px;margin-bottom:10px}
-.tag{background:rgba(255,255,255,.04);border:1px solid var(--border);border-radius:6px;padding:3px 10px;font-size:11px;font-family:var(--mono);font-weight:500;transition:all .15s}
-.tag.add{border-color:rgba(16,185,129,.3);color:var(--green-bright);background:rgba(16,185,129,.08)}
-.tag.rem{border-color:rgba(244,63,94,.3);color:var(--red-bright);background:rgba(244,63,94,.08);text-decoration:line-through}
-.outbox{background:rgba(0,0,0,.25);border:1px solid rgba(30,41,59,.6);border-radius:var(--r-xs);padding:14px;font:12px/1.7 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:200px;overflow-y:auto}
-.difflines{background:rgba(0,0,0,.25);border:1px solid rgba(30,41,59,.6);border-radius:var(--r-xs);padding:12px;font:11px/1.7 var(--mono);max-height:200px;overflow-y:auto;margin-top:10px}
-.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.06);display:block;padding:1px 6px;margin:0 -6px;border-radius:3px}
-.difflines .r{color:var(--red-bright);background:rgba(244,63,94,.06);display:block;padding:1px 6px;margin:0 -6px;border-radius:3px}
-.sim{display:inline-flex;align-items:center;gap:6px;font-size:12px;color:var(--text-3)}
-.sim-track{width:52px;height:5px;background:rgba(255,255,255,.06);border-radius:3px;overflow:hidden;display:inline-block;vertical-align:middle}
-.sim-fill{height:100%;border-radius:3px;transition:width .8s cubic-bezier(.4,0,.2,1)}
-.sim-fill.hi{background:linear-gradient(90deg,var(--green),var(--green-bright))}.sim-fill.mid{background:linear-gradient(90deg,var(--yellow),var(--yellow-bright))}.sim-fill.lo{background:linear-gradient(90deg,var(--red),var(--red-bright))}
-
-/* Pipeline */
-.pipeline{display:flex;flex-direction:column;gap:8px;padding:18px 24px;border-top:1px solid var(--border)}
-.pipeline-row{display:flex;align-items:center;gap:4px;flex-wrap:wrap}
-.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;width:70px;flex-shrink:0}
-.pipe-step{display:inline-flex;align-items:center;padding:5px 12px;border-radius:6px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.04);border:1px solid var(--border);color:var(--text-2);position:relative;transition:all .15s}
-.pipe-step+.pipe-step{margin-left:6px}
-.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-14px;color:var(--text-4);font-size:10px;font-family:var(--font)}
-.pipe-step.match{border-color:rgba(99,102,241,.2);background:rgba(99,102,241,.06)}
-.pipe-step.added{border-color:rgba(16,185,129,.3);color:var(--green-bright);background:rgba(16,185,129,.08);box-shadow:0 0 8px rgba(16,185,129,.1)}
-.pipe-step.removed{border-color:rgba(244,63,94,.3);color:var(--red-bright);background:rgba(244,63,94,.08);text-decoration:line-through}
-.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-top:16px;padding-top:16px;border-top:1px solid var(--border)}
-.traj-col .col-title{padding-bottom:10px}
-
-/* Tables */
-.ev-table{width:100%;border-collapse:separate;border-spacing:0;font-size:13px}
-.ev-table th{text-align:left;padding:10px 14px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.08em;border-bottom:1px solid var(--border);background:rgba(0,0,0,.2)}
-.ev-table th:first-child{border-radius:var(--r-xs) 0 0 0}.ev-table th:last-child{border-radius:0 var(--r-xs) 0 0}
-.ev-table td{padding:12px 14px;border-bottom:1px solid rgba(30,41,59,.5);transition:background .15s}
-.ev-table tr:hover td{background:rgba(255,255,255,.02)}
-.ev-table .mono{font-family:var(--mono);font-size:12px;letter-spacing:-.02em}
-.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
-.param-table{width:100%;border-collapse:collapse;font-size:12px}
-.param-table th{text-align:left;padding:8px 12px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
-.param-table td{padding:8px 12px;border-bottom:1px solid rgba(30,41,59,.5)}
-table td,table th{transition:background .15s}
-
-/* Empty */
-.empty{text-align:center;padding:80px 40px;color:var(--text-4)}
-.empty-icon{font-size:40px;margin-bottom:14px;display:block;opacity:.3}
-.empty code{background:rgba(255,255,255,.06);padding:3px 10px;border-radius:6px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
-
-/* Scrollbar */
-::-webkit-scrollbar{width:5px;height:5px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.08);border-radius:4px}::-webkit-scrollbar-thumb:hover{background:rgba(255,255,255,.15)}
-
-/* Entrance animations */
-@keyframes slideUp{from{opacity:0;transform:translateY(16px)}to{opacity:1;transform:none}}
-.kpi,.meta-card,.card,.item,.diff-item{animation:slideUp .4s cubic-bezier(.4,0,.2,1) both}
-.kpi:nth-child(2),.meta-card:nth-child(2){animation-delay:.05s}
-.kpi:nth-child(3){animation-delay:.1s}
-.kpi:nth-child(4){animation-delay:.15s}
-.item:nth-child(2),.diff-item:nth-child(2){animation-delay:.05s}
-.item:nth-child(3),.diff-item:nth-child(3){animation-delay:.1s}
-</style>
-</head>
-<body>
-
-<header class="header">
-  <div class="logo">
-    <div class="logo-icon">◈</div>
-    <div>
-      <div class="logo-text">EvalView Check Report</div>
-      <div class="logo-sub">2026-03-17 15:46</div>
-    </div>
-  </div>
-  <div class="header-right">
-    
-      
-        <span class="badge b-red">✗ 1 Failed</span>
-      
-      <span class="badge b-blue">5 Tests</span>
-    
-  </div>
-</header>
-
-<main class="main">
-
-  <div class="tabbar">
-    <button class="tab on" onclick="show('overview',this)">Overview</button>
-    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
-    <button class="tab " onclick="show('diffs',this)">Diffs</button>
-    <button class="tab " onclick="show('timeline',this)">Timeline</button>
-    
-  </div>
-
-  <!-- OVERVIEW -->
-  <div id="p-overview" class="panel on">
-    
-    <div class="kpi-row">
-      <div class="kpi glass glow-green">
-        <div class="kpi-top">
-          <div class="kpi-label">Pass Rate</div>
-          <div class="kpi-ring" style="--ring-glow:var(--green-glow)">
-            <svg width="52" height="52" viewBox="0 0 52 52">
-              <circle cx="26" cy="26" r="22" fill="none" stroke="rgba(255,255,255,.05)" stroke-width="3.5"/>
-              <circle cx="26" cy="26" r="22" fill="none" stroke="var(--green-bright)" stroke-width="3.5" stroke-linecap="round" stroke-dasharray="110.6 138.2"/>
-            </svg>
-            <div class="kpi-ring-label">4/5</div>
-          </div>
-        </div>
-        <div class="kpi-num c-green">80.0%</div>
-        <div class="kpi-sub">4 of 5 tests</div>
-      </div>
-      <div class="kpi glass glow-blue">
-        <div class="kpi-top">
-          <div class="kpi-label">Avg Score</div>
-          <div class="kpi-ring" style="--ring-glow:var(--blue-glow)">
-            <svg width="52" height="52" viewBox="0 0 52 52">
-              <circle cx="26" cy="26" r="22" fill="none" stroke="rgba(255,255,255,.05)" stroke-width="3.5"/>
-              <circle cx="26" cy="26" r="22" fill="none" stroke="var(--yellow-bright)" stroke-width="3.5" stroke-linecap="round" stroke-dasharray="110.1 138.2"/>
-            </svg>
-            <div class="kpi-ring-label">79</div>
-          </div>
-        </div>
-        <div class="kpi-num c-yellow">79.7</div>
-        <div class="kpi-sub">out of 100</div>
-      </div>
-      <div class="kpi glass glow-blue">
-        <div class="kpi-top"><div class="kpi-label">Total Cost</div></div>
-        <div class="kpi-num c-blue">$0.017</div>
-        <div class="kpi-sub">2,835 tokens (verified)</div>
-        
-        <div class="token-bar"><span style="color:var(--blue-bright)">in 2,170</span><span style="color:var(--purple-bright)">out 665</span></div>
-        
-        
-        <div style="margin-top:8px;font-size:11px;color:var(--text-4);font-weight:500">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
-        
-      </div>
-      <div class="kpi glass glow-blue">
-        <div class="kpi-top"><div class="kpi-label">Avg Latency</div></div>
-        <div class="kpi-num c-blue">1360<span style="font-size:16px;font-weight:600;opacity:.5;margin-left:2px">ms</span></div>
-        <div class="kpi-sub">per test</div>
-      </div>
-    </div>
-
-    <div class="meta-row">
-      <div class="meta-card glass">
-        <div class="meta-label">Agent Model</div>
-        <div class="meta-value">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
-        <div class="meta-sub">5 tests in this run</div>
-      </div>
-      
-      <div class="meta-card glass">
-        <div class="meta-label">Token Usage</div>
-        <div class="meta-value">2,835 tokens</div>
-        <div class="meta-sub">in 2,170 / out 665</div>
-      </div>
-      
-    </div>
-    
-
-    
-    <div class="meta-row">
-      <div class="meta-card glass">
-        <div class="meta-label">EvalView Judge (gpt-4o-mini)</div>
-        <div class="meta-value">$0.006</div>
-        <div class="meta-sub">1,320 tokens across 5 judge calls</div>
-      </div>
-      <div class="meta-card glass">
-        <div class="meta-label">Judge Token Breakdown</div>
-        <div class="meta-value">in 1,100 / out 220</div>
-        <div class="meta-sub">Separate from agent trace cost</div>
-      </div>
-    </div>
-    
-
-    <div class="chart-row">
-      <div class="card glass">
-        <div class="card-title">Score per Test</div>
-        <div class="chart-wrap" style="height:260px"><canvas id="bars"></canvas></div>
-      </div>
-      <div class="card glass">
-        <div class="card-title">Distribution</div>
-        <div class="chart-wrap" style="height:220px"><canvas id="donut"></canvas></div>
-      </div>
-    </div>
-
-    <div class="card glass">
-      <div class="card-title">Execution Cost per Query</div>
-      <table class="ev-table">
-        
-        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Tokens</th><th>Latency</th><th>Score</th></tr></thead>
-        <tbody>
-          
-          <tr>
-            <td style="font-weight:600">refund-flow</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0034</td>
-            <td class="mono" style="color:var(--text-3)">570 tokens</td>
-            <td style="color:var(--text-3)">1200ms</td>
-            <td class="num" style="color:var(--green-bright)">92.5</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">order-lookup</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0021</td>
-            <td class="mono" style="color:var(--text-3)">415 tokens</td>
-            <td style="color:var(--text-3)">800ms</td>
-            <td class="num" style="color:var(--green-bright)">88.0</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">billing-dispute</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0058</td>
-            <td class="mono" style="color:var(--text-3)">890 tokens</td>
-            <td style="color:var(--text-3)">2400ms</td>
-            <td class="num" style="color:var(--red-bright)">45.0</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">password-reset</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0012</td>
-            <td class="mono" style="color:var(--text-3)">260 tokens</td>
-            <td style="color:var(--text-3)">600ms</td>
-            <td class="num" style="color:var(--green-bright)">95.0</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">vip-escalation</td>
-            <td class="mono" style="color:var(--text-4)">openai/claude-3.5-sonnet</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0045</td>
-            <td class="mono" style="color:var(--text-3)">700 tokens</td>
-            <td style="color:var(--text-3)">1800ms</td>
-            <td class="num" style="color:var(--yellow-bright)">78.0</td>
-          </tr>
-          
-          <tr style="background:rgba(0,0,0,.15)">
-            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.017</td>
-            <td colspan="3" style="font-size:11px;color:var(--text-4)">avg $0.003400 per query</td>
-          </tr>
-        </tbody>
-      </table>
-      <div style="margin-top:14px;font-size:11px;color:var(--text-4);line-height:1.6">
-        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.06);padding:2px 8px;border-radius:4px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
-         This check also used 5 EvalView judge calls (1320 tokens).
-      </div>
-    </div>
-    
-  </div>
-
-  <!-- TRACE -->
-  <div id="p-trace" class="panel ">
-    
-      
-      <div class="item glass">
-        <div class="item-head" onclick="tog('tr1',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">refund-flow</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--green-bright);border-color:rgba(16,185,129,.2)">92.5/100</span>
-            <span class="meta-chip">💰 $0.0034</span>
-            <span class="meta-chip">⚡ 1200ms</span>
-            <span class="meta-chip">570 tokens</span>
-            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr1" class="item-body" >
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 450 / out 120 tokens</span><span class="badge b-blue">$0.0034</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:linear-gradient(135deg,rgba(99,102,241,.08),rgba(168,85,247,.04));border:1px solid rgba(99,102,241,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(99,102,241,.5);margin-right:8px">Query</span>Process refund for order 4812
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Refund of $49.99 issued successfully.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item glass">
-        <div class="item-head" onclick="tog('tr2',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">order-lookup</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--green-bright);border-color:rgba(16,185,129,.2)">88.0/100</span>
-            <span class="meta-chip">💰 $0.0021</span>
-            <span class="meta-chip">⚡ 800ms</span>
-            <span class="meta-chip">415 tokens</span>
-            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr2" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 320 / out 95 tokens</span><span class="badge b-blue">$0.0021</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:linear-gradient(135deg,rgba(99,102,241,.08),rgba(168,85,247,.04));border:1px solid rgba(99,102,241,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(99,102,241,.5);margin-right:8px">Query</span>Look up order status for #7291
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Order #7291 shipped, arriving March 20.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item glass">
-        <div class="item-head" onclick="tog('tr3',this)">
-          <span class="badge b-red">✗</span>
-          <span class="item-name">billing-dispute</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--red-bright);border-color:rgba(244,63,94,.2)">45.0/100</span>
-            <span class="meta-chip">💰 $0.0058</span>
-            <span class="meta-chip">⚡ 2400ms</span>
-            <span class="meta-chip">890 tokens</span>
-            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr3" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 680 / out 210 tokens</span><span class="badge b-blue">$0.0058</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:linear-gradient(135deg,rgba(99,102,241,.08),rgba(168,85,247,.04));border:1px solid rgba(99,102,241,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(99,102,241,.5);margin-right:8px">Query</span>Customer disputes charge on Feb statement
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>I could not find the disputed charge.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item glass">
-        <div class="item-head" onclick="tog('tr4',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">password-reset</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--green-bright);border-color:rgba(16,185,129,.2)">95.0/100</span>
-            <span class="meta-chip">💰 $0.0012</span>
-            <span class="meta-chip">⚡ 600ms</span>
-            <span class="meta-chip">260 tokens</span>
-            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr4" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 200 / out 60 tokens</span><span class="badge b-blue">$0.0012</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:linear-gradient(135deg,rgba(99,102,241,.08),rgba(168,85,247,.04));border:1px solid rgba(99,102,241,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(99,102,241,.5);margin-right:8px">Query</span>Reset password for user@example.com
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Password reset email sent.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item glass">
-        <div class="item-head" onclick="tog('tr5',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">vip-escalation</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--yellow-bright);border-color:rgba(245,158,11,.2)">78.0/100</span>
-            <span class="meta-chip">💰 $0.0045</span>
-            <span class="meta-chip">⚡ 1800ms</span>
-            <span class="meta-chip">700 tokens</span>
-            <span class="meta-chip">🧠 openai/claude-3.5-sonnet</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr5" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
-            <span class="badge b-blue">Model: openai/claude-3.5-sonnet</span>
-            <span class="badge b-blue">in 520 / out 180 tokens</span><span class="badge b-blue">$0.0045</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:linear-gradient(135deg,rgba(99,102,241,.08),rgba(168,85,247,.04));border:1px solid rgba(99,102,241,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(99,102,241,.5);margin-right:8px">Query</span>VIP customer threatening to leave
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Escalated to senior support with priority flag.
-          </div>
-          
-        </div>
-      </div>
-      
-    
-  </div>
-
-  <!-- DIFFS -->
-  <div id="p-diffs" class="panel ">
-    
-      <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
-    
-  </div>
-
-  <!-- TIMELINE -->
-  <div id="p-timeline" class="panel ">
-    
-      <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
-    
-  </div>
-
-  <!-- COMPARE -->
-  
-</main>
-
-<script>
-mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
-  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(99,102,241,.15)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(99,102,241,.3)',lineColor:'rgba(100,116,139,.4)',secondaryColor:'rgba(16,185,129,.1)',tertiaryColor:'rgba(168,85,247,.1)',noteBkgColor:'rgba(99,102,241,.08)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(99,102,241,.2)',actorBkg:'rgba(99,102,241,.12)',actorBorder:'rgba(99,102,241,.3)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
-  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:12,messageFontSize:11,noteFontSize:10,boxTextMargin:8,mirrorActors:false,messageAlign:'center',actorMargin:30,bottomMarginAdj:4}
-});
-function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
-function tog(id,head){const el=document.getElementById(id);const open=el.style.display!=='none';el.style.display=open?'none':'block';head.querySelector('.chevron').style.transform=open?'':'rotate(180deg)'}
-
-
-(function(){
-  const passed=4,failed=1;
-  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
-  const tc='rgba(100,116,139,.8)',gc='rgba(255,255,255,.03)';
-  const ttOpts={backgroundColor:'rgba(3,7,18,.95)',borderColor:'rgba(30,41,59,.8)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:12},bodyFont:{family:'Inter',size:12},padding:12,cornerRadius:10,boxPadding:4};
-  new Chart(document.getElementById('donut'),{type:'doughnut',data:{labels:['Passed','Failed'],datasets:[{data:[passed,failed],backgroundColor:['rgba(16,185,129,.7)','rgba(244,63,94,.7)'],borderColor:['rgba(16,185,129,.15)','rgba(244,63,94,.15)'],borderWidth:2,hoverOffset:8,hoverBackgroundColor:['rgba(16,185,129,.9)','rgba(244,63,94,.9)']}]},options:{responsive:true,maintainAspectRatio:false,cutout:'76%',plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:11,weight:'600'},padding:20,boxWidth:8,boxHeight:8,usePointStyle:true,pointStyle:'circle'}},tooltip:{...ttOpts,callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}});
-  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
-  const barG=sorted.map(s=>{if(s.score>=80)return{bg:'rgba(16,185,129,.45)',b:'rgba(16,185,129,.7)',h:'rgba(16,185,129,.65)'};if(s.score>=60)return{bg:'rgba(245,158,11,.45)',b:'rgba(245,158,11,.7)',h:'rgba(245,158,11,.65)'};return{bg:'rgba(244,63,94,.45)',b:'rgba(244,63,94,.7)',h:'rgba(244,63,94,.65)'}});
-  new Chart(document.getElementById('bars'),{type:'bar',data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),backgroundColor:barG.map(g=>g.bg),borderColor:barG.map(g=>g.b),hoverBackgroundColor:barG.map(g=>g.h),borderWidth:1,borderRadius:6,borderSkipped:false,barPercentage:.65,categoryPercentage:.8}]},options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:10},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.8)',font:{family:'Inter',size:12,weight:'600'},padding:8},border:{display:false}}},plugins:{legend:{display:false},tooltip:{...ttOpts,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
-})();
-
-
-
-
-
-</script>
-
-<!-- Share bar -->
-<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(3,7,18,.9);backdrop-filter:blur(20px);-webkit-backdrop-filter:blur(20px);border-top:1px solid var(--border);padding:10px 28px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:12px;color:var(--text-4)">
-  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:700">EvalView</a> <span style="opacity:.3;margin:0 8px">|</span> Agent testing &amp; regression detection</span>
-  <span style="display:flex;align-items:center;gap:8px">
-    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:5px;padding:6px 14px;border-radius:8px;background:rgba(29,155,240,.1);color:#1d9bf0;text-decoration:none;font-weight:700;font-size:11px;transition:all .2s;border:1px solid rgba(29,155,240,.15)" onmouseover="this.style.background='rgba(29,155,240,.2)';this.style.borderColor='rgba(29,155,240,.3)';this.style.transform='translateY(-1px)'" onmouseout="this.style.background='rgba(29,155,240,.1)';this.style.borderColor='rgba(29,155,240,.15)';this.style.transform='none'">
-      <svg width="13" height="13" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
-    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:5px;padding:6px 14px;border-radius:8px;background:rgba(255,255,255,.04);color:var(--text-2);text-decoration:none;font-weight:700;font-size:11px;transition:all .2s;border:1px solid var(--border)" onmouseover="this.style.background='rgba(255,255,255,.08)';this.style.borderColor='var(--border-light)';this.style.transform='translateY(-1px)'" onmouseout="this.style.background='rgba(255,255,255,.04)';this.style.borderColor='var(--border)';this.style.transform='none'">
-      <svg width="13" height="13" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
-  </span>
-</div>
-<div style="height:44px"></div>
-
-</body>
-</html>
\ No newline at end of file
diff --git a/.evalview/latest-redesign.html b/.evalview/latest-redesign.html
deleted file mode 100644
index ea790bb..0000000
--- a/.evalview/latest-redesign.html
+++ /dev/null
@@ -1,956 +0,0 @@
-<!doctype html>
-<html lang="en">
-<head>
-<meta charset="UTF-8">
-<meta name="viewport" content="width=device-width, initial-scale=1.0">
-<title>EvalView Check Report</title>
-<link rel="preconnect" href="https://fonts.googleapis.com">
-<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
-<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
-<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
-<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
-<style>
-*{box-sizing:border-box;margin:0;padding:0}
-:root{
-  --green:#34d399;--green-dim:#065f46;--red:#fb7185;--red-dim:#9f1239;
-  --yellow:#fbbf24;--yellow-dim:#92400e;--blue:#818cf8;--purple:#c084fc;--cyan:#22d3ee;
-  --surface-0:#0a0e1a;--surface-1:rgba(255,255,255,.03);--surface-2:rgba(255,255,255,.055);
-  --surface-3:rgba(255,255,255,.08);--surface-raised:rgba(255,255,255,.04);
-  --border:rgba(255,255,255,.07);--border-subtle:rgba(255,255,255,.05);
-  --border-hover:rgba(255,255,255,.14);
-  --text:#f1f5f9;--text-secondary:#94a3b8;--text-tertiary:#64748b;
-  --radius:16px;--radius-sm:10px;--radius-xs:6px;
-  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
-  --mono:'JetBrains Mono','SF Mono','Fira Code',monospace;
-  --shadow-sm:0 1px 2px rgba(0,0,0,.3),0 1px 3px rgba(0,0,0,.15);
-  --shadow-md:0 4px 16px rgba(0,0,0,.25),0 2px 4px rgba(0,0,0,.15);
-  --shadow-lg:0 8px 32px rgba(0,0,0,.35),0 4px 8px rgba(0,0,0,.2);
-  --shadow-glow-green:0 0 20px rgba(52,211,153,.15),0 0 60px rgba(52,211,153,.05);
-  --shadow-glow-red:0 0 20px rgba(251,113,133,.15),0 0 60px rgba(251,113,133,.05);
-  --shadow-glow-blue:0 0 20px rgba(129,140,248,.15),0 0 60px rgba(129,140,248,.05);
-  --transition:all .2s cubic-bezier(.4,0,.2,1);
-}
-html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
-body{
-  font-family:var(--font);font-size:14px;line-height:1.6;
-  color:var(--text);min-height:100vh;overflow-x:hidden;
-  background:var(--surface-0);
-}
-/* Subtle mesh gradient background */
-body::before{
-  content:'';position:fixed;inset:0;pointer-events:none;z-index:0;
-  background:
-    radial-gradient(ellipse 80% 50% at 10% 0%,rgba(129,140,248,.1),transparent 50%),
-    radial-gradient(ellipse 60% 40% at 90% 100%,rgba(52,211,153,.07),transparent 50%),
-    radial-gradient(ellipse 40% 30% at 50% 40%,rgba(192,132,252,.04),transparent 50%);
-}
-
-/* ── Header ── */
-.header{
-  position:sticky;top:0;z-index:200;
-  background:rgba(10,14,26,.85);
-  border-bottom:1px solid var(--border);
-  backdrop-filter:blur(20px) saturate(180%);
-  -webkit-backdrop-filter:blur(20px) saturate(180%);
-  padding:0 32px;height:56px;
-  display:flex;align-items:center;justify-content:space-between;
-}
-.logo{display:flex;align-items:center;gap:10px}
-.logo-icon{
-  width:30px;height:30px;border-radius:8px;flex-shrink:0;
-  background:linear-gradient(135deg,var(--blue),var(--purple));
-  display:flex;align-items:center;justify-content:center;font-size:14px;
-  box-shadow:0 0 0 1px rgba(129,140,248,.3),0 2px 12px rgba(129,140,248,.2);
-}
-.logo-text{font-size:14px;font-weight:700;letter-spacing:-.02em;color:var(--text)}
-.logo-sub{font-size:11px;color:var(--text-tertiary);font-weight:400;letter-spacing:-.01em}
-.header-right{display:flex;align-items:center;gap:6px}
-
-/* ── Badges ── */
-.badge{
-  display:inline-flex;align-items:center;gap:4px;
-  padding:3px 10px;border-radius:20px;font-size:11px;font-weight:600;
-  letter-spacing:-.01em;white-space:nowrap;
-}
-.b-green{background:rgba(52,211,153,.1);color:var(--green);border:1px solid rgba(52,211,153,.2)}
-.b-red{background:rgba(251,113,133,.1);color:var(--red);border:1px solid rgba(251,113,133,.2)}
-.b-yellow{background:rgba(251,191,36,.1);color:var(--yellow);border:1px solid rgba(251,191,36,.2)}
-.b-blue{background:rgba(129,140,248,.1);color:var(--blue);border:1px solid rgba(129,140,248,.2)}
-.b-purple{background:rgba(192,132,252,.1);color:var(--purple);border:1px solid rgba(192,132,252,.2)}
-
-/* ── Layout ── */
-.main{max-width:1280px;margin:0 auto;padding:28px 32px 80px;position:relative;z-index:1}
-
-/* ── Tab bar ── */
-.tabbar{
-  display:flex;gap:1px;
-  background:var(--surface-1);border:1px solid var(--border);
-  border-radius:var(--radius-sm);padding:3px;margin-bottom:28px;width:fit-content;
-}
-.tab{
-  background:none;border:none;color:var(--text-tertiary);cursor:pointer;
-  font:500 13px/1 var(--font);padding:8px 18px;border-radius:7px;
-  transition:var(--transition);letter-spacing:-.01em;
-}
-.tab:hover{color:var(--text-secondary);background:var(--surface-2)}
-.tab.on{
-  color:var(--text);background:var(--surface-3);
-  box-shadow:var(--shadow-sm);
-}
-.panel{display:none}.panel.on{display:block}
-
-/* ── KPI Cards with progress rings ── */
-.kpi-row{display:grid;grid-template-columns:repeat(4,1fr);gap:14px;margin-bottom:18px}
-@media(max-width:1100px){.kpi-row{grid-template-columns:repeat(2,1fr)}}
-.kpi{
-  background:var(--surface-raised);border:1px solid var(--border);
-  border-radius:var(--radius);padding:20px;
-  position:relative;overflow:hidden;
-  transition:var(--transition);cursor:default;
-}
-.kpi:hover{transform:translateY(-2px);border-color:var(--border-hover);box-shadow:var(--shadow-md)}
-.kpi.kpi-pass:hover{box-shadow:var(--shadow-glow-green);border-color:rgba(52,211,153,.25)}
-.kpi.kpi-fail:hover{box-shadow:var(--shadow-glow-red);border-color:rgba(251,113,133,.25)}
-.kpi.kpi-blue:hover{box-shadow:var(--shadow-glow-blue);border-color:rgba(129,140,248,.25)}
-.kpi-top{display:flex;align-items:flex-start;justify-content:space-between;margin-bottom:12px}
-.kpi-label{font-size:11px;font-weight:600;color:var(--text-tertiary);text-transform:uppercase;letter-spacing:.06em}
-.kpi-ring{position:relative;width:44px;height:44px;flex-shrink:0}
-.kpi-ring svg{transform:rotate(-90deg)}
-.kpi-ring-label{position:absolute;inset:0;display:flex;align-items:center;justify-content:center;font-size:10px;font-weight:700;color:var(--text-secondary)}
-.kpi-num{font-size:32px;font-weight:800;letter-spacing:-.04em;line-height:1}
-.kpi-num.c-green{color:var(--green)}
-.kpi-num.c-red{color:var(--red)}
-.kpi-num.c-yellow{color:var(--yellow)}
-.kpi-num.c-blue{color:var(--blue)}
-.kpi-sub{font-size:12px;color:var(--text-tertiary);margin-top:4px;letter-spacing:-.01em}
-
-/* ── Meta cards ── */
-.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:14px;margin-bottom:18px}
-@media(max-width:900px){.meta-row{grid-template-columns:1fr}}
-.meta-card{
-  background:var(--surface-raised);border:1px solid var(--border);
-  border-radius:var(--radius);padding:16px 20px;
-  transition:var(--transition);
-}
-.meta-card:hover{border-color:var(--border-hover)}
-.meta-label{font-size:10px;font-weight:700;color:var(--text-tertiary);text-transform:uppercase;letter-spacing:.08em;margin-bottom:6px}
-.meta-value{font-size:15px;font-weight:700;color:var(--text);letter-spacing:-.01em}
-.meta-sub{font-size:12px;color:var(--text-tertiary);margin-top:3px}
-
-/* ── Cards ── */
-.card{
-  background:var(--surface-raised);border:1px solid var(--border);
-  border-radius:var(--radius);padding:20px;
-  position:relative;overflow:hidden;
-  transition:var(--transition);
-}
-.card:hover{border-color:var(--border-hover)}
-.card-title{
-  font-size:11px;font-weight:700;color:var(--text-tertiary);
-  text-transform:uppercase;letter-spacing:.06em;
-  margin-bottom:16px;display:flex;align-items:center;gap:8px;
-}
-.card-title::before{content:'';width:3px;height:12px;border-radius:2px;background:linear-gradient(to bottom,var(--blue),var(--purple))}
-
-/* ── Charts ── */
-.chart-row{display:grid;grid-template-columns:1fr 220px;gap:14px;margin-bottom:18px}
-@media(max-width:900px){.chart-row{grid-template-columns:1fr}}
-.chart-wrap{position:relative;height:200px}
-
-/* ── Trace cards ── */
-.item{
-  background:var(--surface-raised);border:1px solid var(--border);
-  border-radius:var(--radius);margin-bottom:10px;overflow:hidden;
-  transition:var(--transition);
-}
-.item:hover{border-color:var(--border-hover)}
-.item-head{
-  padding:14px 20px;display:flex;align-items:center;gap:10px;
-  cursor:pointer;transition:background .15s;
-}
-.item-head:hover{background:var(--surface-2)}
-.item-name{font-weight:600;font-size:14px;flex:1;letter-spacing:-.02em}
-.item-meta{display:flex;align-items:center;gap:10px;font-size:11px;color:var(--text-tertiary);flex-shrink:0}
-.item-meta-pill{
-  display:inline-flex;align-items:center;gap:4px;
-  padding:2px 8px;border-radius:4px;background:var(--surface-2);
-  font-size:11px;font-weight:500;white-space:nowrap;
-}
-.chevron{color:var(--text-tertiary);font-size:10px;transition:transform .2s;flex-shrink:0}
-details[open] .turn-chevron{transform:rotate(90deg)}
-.item-body{
-  padding:20px;border-top:1px solid var(--border);
-  background:rgba(0,0,0,.15);
-}
-.mermaid-box{
-  background:rgba(0,0,0,.25);border:1px solid var(--border-subtle);
-  border-radius:var(--radius-sm);padding:28px 20px;overflow-x:auto;
-  min-height:200px;
-}
-.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
-.mermaid-box .mermaid{min-width:560px}
-
-/* ── Chat-style conversation turns ── */
-.chat-turns{display:flex;flex-direction:column;gap:2px;margin-top:16px}
-.chat-turn-header{
-  font-size:11px;font-weight:700;color:var(--text-tertiary);
-  text-transform:uppercase;letter-spacing:.06em;margin-bottom:10px;
-}
-.chat-bubble{
-  max-width:85%;padding:10px 14px;font-size:13px;line-height:1.55;
-  letter-spacing:-.01em;border-radius:var(--radius-sm);
-  animation:fadeIn .2s ease-out;
-}
-@keyframes fadeIn{from{opacity:0;transform:translateY(4px)}to{opacity:1;transform:none}}
-.chat-bubble.user{
-  align-self:flex-end;
-  background:rgba(129,140,248,.12);border:1px solid rgba(129,140,248,.15);
-  color:var(--text);border-bottom-right-radius:4px;
-}
-.chat-bubble.agent{
-  align-self:flex-start;
-  background:var(--surface-2);border:1px solid var(--border);
-  color:var(--text-secondary);border-bottom-left-radius:4px;
-}
-.chat-meta{
-  display:flex;align-items:center;gap:8px;padding:4px 0;
-  font-size:10px;color:var(--text-tertiary);
-}
-.chat-meta.user-side{justify-content:flex-end}
-.chat-tool-tag{
-  display:inline-flex;align-items:center;gap:3px;
-  padding:2px 7px;border-radius:4px;
-  background:rgba(129,140,248,.08);border:1px solid rgba(129,140,248,.12);
-  font-size:10px;font-weight:600;color:var(--blue);font-family:var(--mono);
-}
-.chat-eval{
-  margin-top:2px;padding:6px 10px;border-radius:var(--radius-xs);
-  font-size:11px;font-weight:500;max-width:85%;
-}
-.chat-eval.pass{background:rgba(52,211,153,.06);border:1px solid rgba(52,211,153,.15);color:var(--green)}
-.chat-eval.fail{background:rgba(251,113,133,.06);border:1px solid rgba(251,113,133,.15);color:var(--red)}
-
-/* ── Diff tab ── */
-.diff-item{
-  background:var(--surface-raised);border:1px solid var(--border);
-  border-radius:var(--radius);margin-bottom:10px;overflow:hidden;
-  transition:var(--transition);
-}
-.diff-item:hover{border-color:var(--border-hover)}
-.diff-head{padding:14px 20px;display:flex;align-items:center;gap:8px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
-.diff-name{font-weight:600;font-size:14px;flex:1;letter-spacing:-.02em}
-.diff-cols{display:grid;grid-template-columns:1fr 1fr}
-.diff-col{padding:16px 20px}
-.diff-col+.diff-col{border-left:1px solid var(--border)}
-.col-title{font-size:10px;font-weight:700;color:var(--text-tertiary);text-transform:uppercase;letter-spacing:.06em;margin-bottom:10px}
-.tags{display:flex;flex-wrap:wrap;gap:4px;margin-bottom:10px}
-.tag{
-  background:var(--surface-2);border:1px solid var(--border);
-  border-radius:4px;padding:2px 8px;font-size:11px;font-family:var(--mono);
-  font-weight:500;letter-spacing:-.01em;
-}
-.tag.add{border-color:rgba(52,211,153,.25);color:var(--green);background:rgba(52,211,153,.06)}
-.tag.rem{border-color:rgba(251,113,133,.25);color:var(--red);background:rgba(251,113,133,.06)}
-.outbox{
-  background:rgba(0,0,0,.2);border:1px solid var(--border-subtle);border-radius:var(--radius-xs);
-  padding:12px;font:12px/1.6 var(--mono);color:var(--text-tertiary);
-  white-space:pre-wrap;word-break:break-all;max-height:200px;overflow-y:auto;
-}
-.difflines{
-  background:rgba(0,0,0,.2);border:1px solid var(--border-subtle);border-radius:var(--radius-xs);
-  padding:10px;font:11px/1.6 var(--mono);max-height:180px;overflow-y:auto;margin-top:8px;
-}
-.difflines .a{color:var(--green);background:rgba(52,211,153,.05);display:block;padding:0 4px;margin:0 -4px;border-radius:2px}
-.difflines .r{color:var(--red);background:rgba(251,113,133,.05);display:block;padding:0 4px;margin:0 -4px;border-radius:2px}
-/* Similarity progress bar */
-.sim-bar{display:inline-flex;align-items:center;gap:6px;font-size:11px;color:var(--text-tertiary)}
-.sim-track{width:48px;height:4px;background:var(--surface-3);border-radius:2px;overflow:hidden;display:inline-block;vertical-align:middle}
-.sim-fill{height:100%;border-radius:2px;transition:width .6s cubic-bezier(.4,0,.2,1)}
-.sim-fill.high{background:var(--green)}.sim-fill.mid{background:var(--yellow)}.sim-fill.low{background:var(--red)}
-
-/* ── Pipeline vis for tool sequence diff ── */
-.pipeline{display:flex;flex-direction:column;gap:8px;padding:16px 20px;border-top:1px solid var(--border)}
-.pipeline-row{display:flex;align-items:center;gap:6px;flex-wrap:wrap}
-.pipeline-label{font-size:10px;font-weight:700;color:var(--text-tertiary);text-transform:uppercase;letter-spacing:.06em;width:64px;flex-shrink:0}
-.pipeline-step{
-  display:inline-flex;align-items:center;padding:4px 10px;border-radius:4px;
-  font-size:11px;font-family:var(--mono);font-weight:500;
-  background:var(--surface-2);border:1px solid var(--border);color:var(--text-secondary);
-  position:relative;
-}
-.pipeline-step+.pipeline-step::before{
-  content:'';position:absolute;left:-8px;top:50%;width:6px;height:1px;background:var(--border-hover);
-}
-.pipeline-step.matched{border-color:rgba(52,211,153,.2);background:rgba(52,211,153,.04)}
-.pipeline-step.added{border-color:rgba(52,211,153,.3);color:var(--green);background:rgba(52,211,153,.06)}
-.pipeline-step.removed{border-color:rgba(251,113,133,.3);color:var(--red);background:rgba(251,113,133,.06);text-decoration:line-through}
-
-/* ── Timeline ── */
-.tl-swimlane{margin-bottom:20px}
-.tl-swimlane-label{font-size:12px;font-weight:600;color:var(--text-secondary);margin-bottom:8px;letter-spacing:-.01em}
-.tl-track{display:flex;gap:2px;align-items:center;height:28px}
-.tl-bar{
-  height:100%;border-radius:4px;display:flex;align-items:center;justify-content:center;
-  font-size:10px;font-weight:600;color:rgba(255,255,255,.8);letter-spacing:-.01em;
-  min-width:32px;padding:0 6px;cursor:default;
-  transition:var(--transition);position:relative;
-}
-.tl-bar:hover{filter:brightness(1.2);transform:scaleY(1.15)}
-.tl-bar.ok{background:linear-gradient(135deg,rgba(129,140,248,.6),rgba(52,211,153,.4))}
-.tl-bar.err{background:linear-gradient(135deg,rgba(251,113,133,.6),rgba(251,191,36,.4))}
-
-/* ── Tables ── */
-.ev-table{width:100%;border-collapse:collapse;font-size:13px}
-.ev-table th{
-  text-align:left;padding:8px 12px;color:var(--text-tertiary);
-  font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;
-  border-bottom:1px solid var(--border);background:var(--surface-1);
-}
-.ev-table td{padding:10px 12px;border-bottom:1px solid var(--border-subtle);transition:background .15s}
-.ev-table tr:hover td{background:var(--surface-1)}
-.ev-table .mono{font-family:var(--mono);font-size:12px}
-.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
-
-/* ── Empty states ── */
-.empty{text-align:center;padding:80px 40px;color:var(--text-tertiary)}
-.empty-icon{font-size:36px;margin-bottom:12px;display:block;opacity:.4}
-.empty code{background:var(--surface-3);padding:2px 8px;border-radius:4px;font-family:var(--mono);font-size:12px}
-
-/* ── Trajectory grid ── */
-.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-top:16px;padding-top:16px;border-top:1px solid var(--border)}
-.traj-col .col-title{padding-bottom:10px}
-
-/* ── Scrollbar ── */
-::-webkit-scrollbar{width:4px;height:4px}
-::-webkit-scrollbar-track{background:transparent}
-::-webkit-scrollbar-thumb{background:rgba(255,255,255,.1);border-radius:4px}
-::-webkit-scrollbar-thumb:hover{background:rgba(255,255,255,.18)}
-
-/* ── Param diff table ── */
-.param-table{width:100%;border-collapse:collapse;font-size:12px}
-.param-table th{
-  text-align:left;padding:6px 10px;color:var(--text-tertiary);
-  font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;
-  border-bottom:1px solid var(--border);
-}
-.param-table td{padding:6px 10px;border-bottom:1px solid var(--border-subtle)}
-
-/* ── Compare ── */
-table td,table th{transition:background .15s}
-</style>
-</head>
-<body>
-
-<header class="header">
-  <div class="logo">
-    <div class="logo-icon">◈</div>
-    <div>
-      <div class="logo-text">EvalView Check Report</div>
-      <div class="logo-sub">2026-03-17 14:47</div>
-    </div>
-  </div>
-  <div class="header-right">
-    
-      
-        <span class="badge b-red">✗ 1 Failed</span>
-      
-      <span class="badge b-blue">5 Tests</span>
-    
-  </div>
-</header>
-
-<main class="main">
-
-  <div class="tabbar">
-    <button class="tab on" onclick="show('overview',this)">Overview</button>
-    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
-    <button class="tab " onclick="show('diffs',this)">Diffs</button>
-    <button class="tab " onclick="show('timeline',this)">Timeline</button>
-    
-  </div>
-
-  <!-- ═══════════ OVERVIEW ═══════════ -->
-  <div id="p-overview" class="panel on">
-    
-    <div class="kpi-row">
-      <div class="kpi kpi-pass">
-        <div class="kpi-top">
-          <div class="kpi-label">Pass Rate</div>
-          <div class="kpi-ring">
-            <svg width="44" height="44" viewBox="0 0 44 44">
-              <circle cx="22" cy="22" r="18" fill="none" stroke="rgba(255,255,255,.06)" stroke-width="3"/>
-              <circle cx="22" cy="22" r="18" fill="none"
-                stroke="var(--green)"
-                stroke-width="3" stroke-linecap="round"
-                stroke-dasharray="90.5 113.1"
-                style="filter:drop-shadow(0 0 4px rgba(52,211,153,.4))"/>
-            </svg>
-            <div class="kpi-ring-label">4/5</div>
-          </div>
-        </div>
-        <div class="kpi-num c-green">80.0%</div>
-        <div class="kpi-sub">4 of 5 tests</div>
-      </div>
-      <div class="kpi kpi-blue">
-        <div class="kpi-top">
-          <div class="kpi-label">Avg Score</div>
-          <div class="kpi-ring">
-            <svg width="44" height="44" viewBox="0 0 44 44">
-              <circle cx="22" cy="22" r="18" fill="none" stroke="rgba(255,255,255,.06)" stroke-width="3"/>
-              <circle cx="22" cy="22" r="18" fill="none"
-                stroke="var(--yellow)"
-                stroke-width="3" stroke-linecap="round"
-                stroke-dasharray="90.1 113.1"
-                style="filter:drop-shadow(0 0 4px rgba(129,140,248,.3))"/>
-            </svg>
-            <div class="kpi-ring-label">79</div>
-          </div>
-        </div>
-        <div class="kpi-num c-yellow">79.7</div>
-        <div class="kpi-sub">out of 100</div>
-      </div>
-      <div class="kpi kpi-blue">
-        <div class="kpi-top">
-          <div class="kpi-label">Total Cost</div>
-        </div>
-        <div class="kpi-num c-blue">$0.017</div>
-        <div class="kpi-sub">
-          2,835 tokens (verified)
-          <br>openai/gpt-4o-mini, openai/claude-3.5-sonnet
-        </div>
-        
-        <div style="margin-top:8px;display:flex;gap:8px;font-size:11px">
-          <span style="color:var(--text-tertiary)">in <span style="color:var(--blue);font-weight:600;font-family:var(--mono)">2,170</span></span>
-          <span style="color:var(--text-tertiary)">out <span style="color:var(--purple);font-weight:600;font-family:var(--mono)">665</span></span>
-        </div>
-        
-      </div>
-      <div class="kpi kpi-blue">
-        <div class="kpi-top">
-          <div class="kpi-label">Avg Latency</div>
-        </div>
-        <div class="kpi-num c-blue">1360<span style="font-size:14px;font-weight:500;color:var(--text-tertiary);margin-left:2px">ms</span></div>
-        <div class="kpi-sub">per test</div>
-      </div>
-    </div>
-
-    <div class="meta-row">
-      <div class="meta-card">
-        <div class="meta-label">Agent Model</div>
-        <div class="meta-value">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
-        <div class="meta-sub">5 tests in this run</div>
-      </div>
-      
-      <div class="meta-card">
-        <div class="meta-label">Token Usage</div>
-        <div class="meta-value">2,835 tokens</div>
-        <div class="meta-sub">in 2,170 / out 665</div>
-      </div>
-      
-    </div>
-    
-
-    
-    <div class="meta-row">
-      <div class="meta-card">
-        <div class="meta-label">EvalView Judge (gpt-4o-mini)</div>
-        <div class="meta-value">
-          
-            $0.006
-          
-        </div>
-        <div class="meta-sub">
-          1,320 tokens across 5 judge calls
-        </div>
-      </div>
-      <div class="meta-card">
-        <div class="meta-label">Judge Token Breakdown</div>
-        <div class="meta-value">in 1,100 / out 220</div>
-        <div class="meta-sub">Separate from agent trace cost</div>
-      </div>
-    </div>
-    
-
-    <!-- Score distribution (horizontal bars) + compact donut -->
-    <div class="chart-row">
-      <div class="card">
-        <div class="card-title">Score per Test</div>
-        <div style="position:relative;height:220px"><canvas id="bars"></canvas></div>
-      </div>
-      <div class="card">
-        <div class="card-title">Distribution</div>
-        <div class="chart-wrap"><canvas id="donut"></canvas></div>
-      </div>
-    </div>
-
-    <!-- Execution cost breakdown -->
-    <div class="card">
-      <div class="card-title">Execution Cost per Query</div>
-      <table class="ev-table">
-        
-        <thead>
-          <tr>
-            <th>Test</th>
-            <th>Model</th>
-            <th>Trace Cost</th>
-            <th>Tokens</th>
-            <th>Latency</th>
-            <th>Score</th>
-          </tr>
-        </thead>
-        <tbody>
-          
-          <tr>
-            <td style="font-weight:600">refund-flow</td>
-            <td class="mono" style="color:var(--text-tertiary)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue)">$0.0034</td>
-            <td class="mono" style="color:var(--text-tertiary)">570 tokens</td>
-            <td style="color:var(--text-tertiary)">1200ms</td>
-            <td class="num" style="color:var(--green)">92.5</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">order-lookup</td>
-            <td class="mono" style="color:var(--text-tertiary)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue)">$0.0021</td>
-            <td class="mono" style="color:var(--text-tertiary)">415 tokens</td>
-            <td style="color:var(--text-tertiary)">800ms</td>
-            <td class="num" style="color:var(--green)">88.0</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">billing-dispute</td>
-            <td class="mono" style="color:var(--text-tertiary)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue)">$0.0058</td>
-            <td class="mono" style="color:var(--text-tertiary)">890 tokens</td>
-            <td style="color:var(--text-tertiary)">2400ms</td>
-            <td class="num" style="color:var(--red)">45.0</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">password-reset</td>
-            <td class="mono" style="color:var(--text-tertiary)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue)">$0.0012</td>
-            <td class="mono" style="color:var(--text-tertiary)">260 tokens</td>
-            <td style="color:var(--text-tertiary)">600ms</td>
-            <td class="num" style="color:var(--green)">95.0</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">vip-escalation</td>
-            <td class="mono" style="color:var(--text-tertiary)">openai/claude-3.5-sonnet</td>
-            <td class="mono num" style="color:var(--blue)">$0.0045</td>
-            <td class="mono" style="color:var(--text-tertiary)">700 tokens</td>
-            <td style="color:var(--text-tertiary)">1800ms</td>
-            <td class="num" style="color:var(--yellow)">78.0</td>
-          </tr>
-          
-          <tr style="background:var(--surface-1)">
-            <td style="font-weight:700">Total</td>
-            <td style="color:var(--text-tertiary)">—</td>
-            <td class="mono num" style="color:var(--blue)">$0.017</td>
-            <td colspan="3" style="font-size:11px;color:var(--text-tertiary)">avg $0.003400 per query</td>
-          </tr>
-        </tbody>
-      </table>
-      <div style="margin-top:12px;font-size:11px;color:var(--text-tertiary);line-height:1.5">
-        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:var(--surface-3);padding:2px 6px;border-radius:4px;font-family:var(--mono);font-size:11px">$0</code> even when EvalView used a separate judge or local model during evaluation.
-         This check also used 5 EvalView judge calls (1320 tokens).
-      </div>
-    </div>
-
-    
-  </div>
-
-  <!-- ═══════════ EXECUTION TRACE ═══════════ -->
-  <div id="p-trace" class="panel ">
-    
-      
-      <div class="item">
-        <div class="item-head" onclick="tog('tr1',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">refund-flow</span>
-          <div class="item-meta">
-            <span class="item-meta-pill" style="color:var(--green)">92.5/100</span>
-            <span class="item-meta-pill">💰 $0.0034</span>
-            <span class="item-meta-pill">⚡ 1200ms</span>
-            <span class="item-meta-pill">570 tokens</span>
-            <span class="item-meta-pill" style="color:var(--text-tertiary)">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr1" class="item-body" >
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:14px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            
-            <span class="badge b-blue">in 450 / out 120 tokens</span>
-            <span class="badge b-blue">$0.0034</span>
-            
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(129,140,248,.06);border:1px solid rgba(129,140,248,.12);border-radius:var(--radius-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-secondary)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(129,140,248,.6);margin-right:8px">Query</span>Process refund for order 4812
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:var(--surface-2);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-tertiary)">
-              <span style="opacity:.5">◎</span> Direct response — no tools invoked
-            </span>
-          </div>
-          
-          
-          
-          <div style="background:rgba(52,211,153,.04);border:1px solid rgba(52,211,153,.1);border-radius:var(--radius-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-secondary)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(52,211,153,.5);margin-right:8px">Response</span>Refund of $49.99 issued successfully.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item">
-        <div class="item-head" onclick="tog('tr2',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">order-lookup</span>
-          <div class="item-meta">
-            <span class="item-meta-pill" style="color:var(--green)">88.0/100</span>
-            <span class="item-meta-pill">💰 $0.0021</span>
-            <span class="item-meta-pill">⚡ 800ms</span>
-            <span class="item-meta-pill">415 tokens</span>
-            <span class="item-meta-pill" style="color:var(--text-tertiary)">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr2" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:14px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            
-            <span class="badge b-blue">in 320 / out 95 tokens</span>
-            <span class="badge b-blue">$0.0021</span>
-            
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(129,140,248,.06);border:1px solid rgba(129,140,248,.12);border-radius:var(--radius-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-secondary)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(129,140,248,.6);margin-right:8px">Query</span>Look up order status for #7291
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:var(--surface-2);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-tertiary)">
-              <span style="opacity:.5">◎</span> Direct response — no tools invoked
-            </span>
-          </div>
-          
-          
-          
-          <div style="background:rgba(52,211,153,.04);border:1px solid rgba(52,211,153,.1);border-radius:var(--radius-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-secondary)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(52,211,153,.5);margin-right:8px">Response</span>Order #7291 shipped, arriving March 20.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item">
-        <div class="item-head" onclick="tog('tr3',this)">
-          <span class="badge b-red">✗</span>
-          <span class="item-name">billing-dispute</span>
-          <div class="item-meta">
-            <span class="item-meta-pill" style="color:var(--red)">45.0/100</span>
-            <span class="item-meta-pill">💰 $0.0058</span>
-            <span class="item-meta-pill">⚡ 2400ms</span>
-            <span class="item-meta-pill">890 tokens</span>
-            <span class="item-meta-pill" style="color:var(--text-tertiary)">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr3" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:14px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            
-            <span class="badge b-blue">in 680 / out 210 tokens</span>
-            <span class="badge b-blue">$0.0058</span>
-            
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(129,140,248,.06);border:1px solid rgba(129,140,248,.12);border-radius:var(--radius-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-secondary)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(129,140,248,.6);margin-right:8px">Query</span>Customer disputes charge on Feb statement
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:var(--surface-2);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-tertiary)">
-              <span style="opacity:.5">◎</span> Direct response — no tools invoked
-            </span>
-          </div>
-          
-          
-          
-          <div style="background:rgba(52,211,153,.04);border:1px solid rgba(52,211,153,.1);border-radius:var(--radius-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-secondary)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(52,211,153,.5);margin-right:8px">Response</span>I could not find the disputed charge.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item">
-        <div class="item-head" onclick="tog('tr4',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">password-reset</span>
-          <div class="item-meta">
-            <span class="item-meta-pill" style="color:var(--green)">95.0/100</span>
-            <span class="item-meta-pill">💰 $0.0012</span>
-            <span class="item-meta-pill">⚡ 600ms</span>
-            <span class="item-meta-pill">260 tokens</span>
-            <span class="item-meta-pill" style="color:var(--text-tertiary)">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr4" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:14px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            
-            <span class="badge b-blue">in 200 / out 60 tokens</span>
-            <span class="badge b-blue">$0.0012</span>
-            
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(129,140,248,.06);border:1px solid rgba(129,140,248,.12);border-radius:var(--radius-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-secondary)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(129,140,248,.6);margin-right:8px">Query</span>Reset password for user@example.com
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:var(--surface-2);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-tertiary)">
-              <span style="opacity:.5">◎</span> Direct response — no tools invoked
-            </span>
-          </div>
-          
-          
-          
-          <div style="background:rgba(52,211,153,.04);border:1px solid rgba(52,211,153,.1);border-radius:var(--radius-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-secondary)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(52,211,153,.5);margin-right:8px">Response</span>Password reset email sent.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item">
-        <div class="item-head" onclick="tog('tr5',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">vip-escalation</span>
-          <div class="item-meta">
-            <span class="item-meta-pill" style="color:var(--yellow)">78.0/100</span>
-            <span class="item-meta-pill">💰 $0.0045</span>
-            <span class="item-meta-pill">⚡ 1800ms</span>
-            <span class="item-meta-pill">700 tokens</span>
-            <span class="item-meta-pill" style="color:var(--text-tertiary)">🧠 openai/claude-3.5-sonnet</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr5" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:14px">
-            <span class="badge b-blue">Model: openai/claude-3.5-sonnet</span>
-            
-            <span class="badge b-blue">in 520 / out 180 tokens</span>
-            <span class="badge b-blue">$0.0045</span>
-            
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(129,140,248,.06);border:1px solid rgba(129,140,248,.12);border-radius:var(--radius-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-secondary)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(129,140,248,.6);margin-right:8px">Query</span>VIP customer threatening to leave
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:var(--surface-2);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-tertiary)">
-              <span style="opacity:.5">◎</span> Direct response — no tools invoked
-            </span>
-          </div>
-          
-          
-          
-          <div style="background:rgba(52,211,153,.04);border:1px solid rgba(52,211,153,.1);border-radius:var(--radius-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-secondary)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(52,211,153,.5);margin-right:8px">Response</span>Escalated to senior support with priority flag.
-          </div>
-          
-        </div>
-      </div>
-      
-    
-  </div>
-
-  <!-- ═══════════ DIFFS ═══════════ -->
-  <div id="p-diffs" class="panel ">
-    
-      <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
-    
-  </div>
-
-  <!-- ═══════════ TIMELINE ═══════════ -->
-  <div id="p-timeline" class="panel ">
-    
-      <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
-    
-  </div>
-
-  <!-- ═══════════ COMPARE ═══════════ -->
-  
-
-</main>
-
-<script>
-mermaid.initialize({
-  startOnLoad:true,theme:'dark',securityLevel:'loose',
-  useMaxWidth:true,
-  themeVariables:{
-    darkMode:true,
-    background:'transparent',
-    primaryColor:'rgba(129,140,248,.15)',
-    primaryTextColor:'#e2e8f0',
-    primaryBorderColor:'rgba(129,140,248,.3)',
-    lineColor:'rgba(148,163,184,.3)',
-    secondaryColor:'rgba(52,211,153,.1)',
-    tertiaryColor:'rgba(192,132,252,.1)',
-    noteBkgColor:'rgba(129,140,248,.08)',
-    noteTextColor:'#94a3b8',
-    noteBorderColor:'rgba(129,140,248,.2)',
-    actorBkg:'rgba(129,140,248,.12)',
-    actorBorder:'rgba(129,140,248,.25)',
-    actorTextColor:'#e2e8f0',
-    signalColor:'#94a3b8',
-    signalTextColor:'#cbd5e1',
-    activationBkgColor:'rgba(129,140,248,.08)',
-    activationBorderColor:'rgba(129,140,248,.2)'
-  },
-  sequence:{
-    useMaxWidth:true,
-    width:180,
-    wrap:false,
-    actorFontFamily:'Inter,sans-serif',
-    noteFontFamily:'Inter,sans-serif',
-    messageFontFamily:'Inter,sans-serif',
-    actorFontSize:12,
-    messageFontSize:11,
-    noteFontSize:10,
-    boxTextMargin:8,
-    mirrorActors:false,
-    messageAlign:'center',
-    actorMargin:30,
-    bottomMarginAdj:4,
-    boxMargin:8,
-    noteMargin:8
-  }
-});
-
-function show(id,btn){
-  document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));
-  document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));
-  document.getElementById('p-'+id).classList.add('on');
-  btn.classList.add('on');
-}
-function tog(id,head){
-  const el=document.getElementById(id);
-  const open=el.style.display!=='none';
-  el.style.display=open?'none':'block';
-  head.querySelector('.chevron').style.transform=open?'':'rotate(180deg)';
-}
-
-
-(function(){
-  const passed=4,failed=1;
-  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
-  const tc='rgba(148,163,184,.7)',gc='rgba(255,255,255,.04)';
-
-  /* Compact donut */
-  new Chart(document.getElementById('donut'),{
-    type:'doughnut',
-    data:{labels:['Passed','Failed'],datasets:[{
-      data:[passed,failed],
-      backgroundColor:['rgba(52,211,153,.7)','rgba(251,113,133,.7)'],
-      borderColor:['rgba(52,211,153,.15)','rgba(251,113,133,.15)'],
-      borderWidth:2,hoverOffset:6
-    }]},
-    options:{responsive:true,maintainAspectRatio:false,cutout:'78%',
-      plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:11,weight:'500'},padding:16,boxWidth:8,boxHeight:8,usePointStyle:true,pointStyle:'circle'}},
-      tooltip:{backgroundColor:'rgba(10,14,26,.9)',borderColor:'rgba(255,255,255,.1)',borderWidth:1,titleFont:{family:'Inter',weight:'600'},bodyFont:{family:'Inter'},padding:10,cornerRadius:8,
-        callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}
-  });
-
-  /* Horizontal bar chart sorted by score */
-  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
-  new Chart(document.getElementById('bars'),{
-    type:'bar',
-    data:{labels:sorted.map(s=>s.name),datasets:[{
-      label:'Score',data:sorted.map(s=>s.score),
-      backgroundColor:sorted.map(s=>s.score>=80?'rgba(52,211,153,.5)':s.score>=60?'rgba(251,191,36,.5)':'rgba(251,113,133,.5)'),
-      borderColor:sorted.map(s=>s.score>=80?'rgba(52,211,153,.7)':s.score>=60?'rgba(251,191,36,.7)':'rgba(251,113,133,.7)'),
-      borderWidth:1,borderRadius:4,borderSkipped:false,
-      barPercentage:.7,categoryPercentage:.8
-    }]},
-    options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,
-      scales:{
-        x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:10},callback:v=>v},border:{display:false}},
-        y:{grid:{display:false},ticks:{color:'rgba(148,163,184,.9)',font:{family:'Inter',size:11,weight:'500'}},border:{display:false}}
-      },
-      plugins:{legend:{display:false},tooltip:{backgroundColor:'rgba(10,14,26,.9)',borderColor:'rgba(255,255,255,.1)',borderWidth:1,titleFont:{family:'Inter',weight:'600'},bodyFont:{family:'Inter'},padding:10,cornerRadius:8,
-        callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}
-  });
-})();
-
-
-
-
-
-</script>
-
-<!-- Share bar -->
-<div style="
-  position:fixed;bottom:0;left:0;right:0;z-index:100;
-  background:rgba(10,14,26,.92);backdrop-filter:blur(16px);
-  -webkit-backdrop-filter:blur(16px);
-  border-top:1px solid var(--border);
-  padding:10px 24px;
-  display:flex;align-items:center;justify-content:space-between;
-  font-family:var(--font);font-size:12px;color:var(--text-tertiary);
-">
-  <span>
-    Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue);text-decoration:none;font-weight:600">EvalView</a>
-    <span style="opacity:.3;margin:0 6px">|</span>
-    Agent testing &amp; regression detection
-  </span>
-  <span style="display:flex;align-items:center;gap:6px">
-    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view"
-       target="_blank" rel="noopener"
-       style="display:inline-flex;align-items:center;gap:4px;padding:5px 12px;border-radius:6px;background:rgba(29,155,240,.1);color:#1d9bf0;text-decoration:none;font-weight:600;font-size:11px;transition:all .15s;border:1px solid rgba(29,155,240,.15)"
-       onmouseover="this.style.background='rgba(29,155,240,.2)';this.style.borderColor='rgba(29,155,240,.3)'" onmouseout="this.style.background='rgba(29,155,240,.1)';this.style.borderColor='rgba(29,155,240,.15)'">
-      <svg width="13" height="13" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>
-      Share
-    </a>
-    <a href="https://github.com/hidai25/eval-view"
-       target="_blank" rel="noopener"
-       style="display:inline-flex;align-items:center;gap:4px;padding:5px 12px;border-radius:6px;background:var(--surface-2);color:var(--text-secondary);text-decoration:none;font-weight:600;font-size:11px;transition:all .15s;border:1px solid var(--border)"
-       onmouseover="this.style.background='var(--surface-3)';this.style.borderColor='var(--border-hover)'" onmouseout="this.style.background='var(--surface-2)';this.style.borderColor='var(--border)'">
-      <svg width="13" height="13" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>
-      Star
-    </a>
-  </span>
-</div>
-<div style="height:44px"></div><!-- spacer for fixed bar -->
-
-</body>
-</html>
\ No newline at end of file
diff --git a/.evalview/latest-v3.html b/.evalview/latest-v3.html
deleted file mode 100644
index 4de07bf..0000000
--- a/.evalview/latest-v3.html
+++ /dev/null
@@ -1,681 +0,0 @@
-<!doctype html>
-<html lang="en">
-<head>
-<meta charset="UTF-8">
-<meta name="viewport" content="width=device-width, initial-scale=1.0">
-<title>EvalView Check Report</title>
-<link rel="preconnect" href="https://fonts.googleapis.com">
-<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
-<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
-<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
-<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
-<style>
-*{box-sizing:border-box;margin:0;padding:0}
-:root{
-  --green:#10b981;--green-bright:#34d399;--green-glow:rgba(16,185,129,.5);
-  --red:#f43f5e;--red-bright:#fb7185;--red-glow:rgba(244,63,94,.5);
-  --yellow:#f59e0b;--yellow-bright:#fbbf24;
-  --blue:#3b82f6;--blue-bright:#60a5fa;--blue-glow:rgba(59,130,246,.5);
-  --purple:#0891b2;--purple-bright:#22d3ee;--cyan:#06b6d4;
-  --bg:#030712;--bg-card:#0d1117;--bg-elevated:#161b22;--bg-hover:#1c2333;
-  --border:#1e293b;--border-light:#334155;
-  --text:#f8fafc;--text-2:#cbd5e1;--text-3:#64748b;--text-4:#475569;
-  --r:20px;--r-sm:12px;--r-xs:8px;
-  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
-  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
-}
-html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
-body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;background:var(--bg)}
-/* Animated gradient mesh */
-body::before{
-  content:'';position:fixed;inset:0;pointer-events:none;z-index:0;
-  background:
-    radial-gradient(ellipse 120% 80% at 20% -20%,rgba(59,130,246,.22),transparent 55%),
-    radial-gradient(ellipse 100% 60% at 80% 110%,rgba(16,185,129,.14),transparent 55%),
-    radial-gradient(ellipse 60% 50% at 60% 30%,rgba(8,145,178,.1),transparent 50%);
-  animation:meshShift 20s ease-in-out infinite alternate;
-}
-@keyframes meshShift{0%{opacity:1;filter:hue-rotate(0deg)}100%{opacity:.85;filter:hue-rotate(15deg)}}
-body::after{
-  content:'';position:fixed;width:600px;height:600px;border-radius:50%;
-  top:-200px;right:-150px;pointer-events:none;z-index:0;
-  background:radial-gradient(circle,rgba(59,130,246,.18),transparent 70%);
-  filter:blur(60px);animation:orbFloat 15s ease-in-out infinite;
-}
-@keyframes orbFloat{0%,100%{transform:translate(0,0) scale(1)}50%{transform:translate(-40px,30px) scale(1.1)}}
-
-/* Header */
-.header{
-  position:sticky;top:0;z-index:200;
-  background:rgba(3,7,18,.75);border-bottom:1px solid var(--border);
-  backdrop-filter:blur(24px) saturate(180%);-webkit-backdrop-filter:blur(24px) saturate(180%);
-  padding:0 40px;height:60px;display:flex;align-items:center;justify-content:space-between;
-}
-.logo{display:flex;align-items:center;gap:12px}
-.logo-icon{
-  width:36px;height:36px;border-radius:10px;flex-shrink:0;
-  background:linear-gradient(135deg,#3b82f6,#0891b2,#06b6d4);
-  display:flex;align-items:center;justify-content:center;font-size:16px;
-  box-shadow:0 0 0 1px rgba(59,130,246,.4),0 4px 24px rgba(59,130,246,.35),0 0 60px rgba(59,130,246,.15);
-  animation:logoPulse 3s ease-in-out infinite;
-}
-@keyframes logoPulse{0%,100%{box-shadow:0 0 0 1px rgba(59,130,246,.4),0 4px 24px rgba(59,130,246,.35)}50%{box-shadow:0 0 0 1px rgba(59,130,246,.6),0 4px 32px rgba(59,130,246,.5),0 0 80px rgba(59,130,246,.2)}}
-.logo-text{font-size:16px;font-weight:800;letter-spacing:-.03em;background:linear-gradient(135deg,#f8fafc,#cbd5e1);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text}
-.logo-sub{font-size:11px;color:var(--text-3);font-weight:500}
-.header-right{display:flex;align-items:center;gap:8px}
-
-/* Badges */
-.badge{display:inline-flex;align-items:center;gap:4px;padding:5px 14px;border-radius:20px;font-size:11px;font-weight:600;letter-spacing:-.01em;white-space:nowrap;transition:all .2s}
-.b-green{background:rgba(16,185,129,.12);color:var(--green-bright);border:1px solid rgba(16,185,129,.25);box-shadow:0 0 12px rgba(16,185,129,.08)}
-.b-red{background:rgba(244,63,94,.12);color:var(--red-bright);border:1px solid rgba(244,63,94,.25);box-shadow:0 0 12px rgba(244,63,94,.08)}
-.b-yellow{background:rgba(245,158,11,.12);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.25)}
-.b-blue{background:rgba(59,130,246,.12);color:var(--blue-bright);border:1px solid rgba(59,130,246,.25);box-shadow:0 0 12px rgba(59,130,246,.08)}
-.b-purple{background:rgba(8,145,178,.12);color:var(--purple-bright);border:1px solid rgba(8,145,178,.25)}
-.badge:hover{transform:translateY(-1px);filter:brightness(1.15)}
-
-/* Layout */
-.main{max-width:1320px;margin:0 auto;padding:32px 40px 80px;position:relative;z-index:1}
-
-/* Tab bar */
-.tabbar{display:flex;gap:2px;background:rgba(13,17,23,.8);border:1px solid var(--border);border-radius:14px;padding:4px;margin-bottom:32px;width:fit-content;backdrop-filter:blur(12px)}
-.tab{background:none;border:none;color:var(--text-3);cursor:pointer;font:600 13px/1 var(--font);padding:10px 22px;border-radius:10px;transition:all .2s;letter-spacing:-.01em}
-.tab:hover{color:var(--text-2);background:rgba(255,255,255,.04)}
-.tab.on{color:#fff;background:linear-gradient(135deg,rgba(59,130,246,.25),rgba(8,145,178,.15));border:1px solid rgba(59,130,246,.3);box-shadow:0 2px 16px rgba(59,130,246,.2),inset 0 1px 0 rgba(255,255,255,.08)}
-.panel{display:none}.panel.on{display:block}
-
-/* Glass card base */
-.glass{
-  background:linear-gradient(145deg,rgba(13,17,23,.9),rgba(22,27,34,.7));
-  border:1px solid var(--border);border-radius:var(--r);
-  backdrop-filter:blur(20px);position:relative;overflow:hidden;
-  transition:all .25s cubic-bezier(.4,0,.2,1);
-}
-.glass::before{content:'';position:absolute;inset:0;border-radius:var(--r);pointer-events:none;background:linear-gradient(135deg,rgba(255,255,255,.05) 0%,transparent 40%,transparent 60%,rgba(255,255,255,.02) 100%)}
-.glass:hover{border-color:var(--border-light);transform:translateY(-2px);box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 0 1px rgba(59,130,246,.1)}
-
-/* KPI Cards */
-.kpi-row{display:grid;grid-template-columns:repeat(4,1fr);gap:16px;margin-bottom:24px}
-@media(max-width:1100px){.kpi-row{grid-template-columns:repeat(2,1fr)}}
-.kpi{padding:24px;cursor:default}
-.kpi.glow-green:hover{box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 60px rgba(16,185,129,.12),0 0 0 1px rgba(16,185,129,.2)}
-.kpi.glow-red:hover{box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 60px rgba(244,63,94,.12),0 0 0 1px rgba(244,63,94,.2)}
-.kpi.glow-blue:hover{box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 60px rgba(59,130,246,.12),0 0 0 1px rgba(59,130,246,.2)}
-.kpi-top{display:flex;align-items:flex-start;justify-content:space-between;margin-bottom:16px}
-.kpi-label{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.08em}
-.kpi-ring{position:relative;width:52px;height:52px;flex-shrink:0}
-.kpi-ring svg{transform:rotate(-90deg);filter:drop-shadow(0 0 8px var(--ring-glow,rgba(59,130,246,.3)))}
-.kpi-ring-label{position:absolute;inset:0;display:flex;align-items:center;justify-content:center;font-size:11px;font-weight:800;color:var(--text-2)}
-.kpi-num{font-size:42px;font-weight:900;letter-spacing:-.05em;line-height:1}
-.kpi-num.c-green{background:linear-gradient(135deg,#10b981,#34d399);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text;filter:drop-shadow(0 0 24px rgba(16,185,129,.35))}
-.kpi-num.c-red{background:linear-gradient(135deg,#f43f5e,#fb7185);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text;filter:drop-shadow(0 0 24px rgba(244,63,94,.35))}
-.kpi-num.c-yellow{background:linear-gradient(135deg,#f59e0b,#fbbf24);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text}
-.kpi-num.c-blue{background:linear-gradient(135deg,#3b82f6,#60a5fa);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text;filter:drop-shadow(0 0 24px rgba(59,130,246,.35))}
-.kpi-sub{font-size:12px;color:var(--text-4);margin-top:6px;font-weight:500}
-.token-bar{display:flex;align-items:center;gap:10px;margin-top:12px;font-size:11px;font-weight:600}
-.token-bar span{font-family:var(--mono);letter-spacing:-.02em}
-
-/* Meta cards */
-.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:16px;margin-bottom:20px}
-@media(max-width:900px){.meta-row{grid-template-columns:1fr}}
-.meta-card{padding:18px 22px}
-.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.1em;margin-bottom:8px}
-.meta-value{font-size:16px;font-weight:700;color:var(--text);letter-spacing:-.02em}
-.meta-sub{font-size:12px;color:var(--text-4);margin-top:4px;font-weight:500}
-
-/* Card */
-.card{padding:22px;margin-bottom:20px}
-.card-title{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.08em;margin-bottom:18px;display:flex;align-items:center;gap:8px}
-.card-title::before{content:'';width:3px;height:14px;border-radius:2px;background:linear-gradient(to bottom,#3b82f6,#0891b2);box-shadow:0 0 8px rgba(59,130,246,.4)}
-.chart-wrap{position:relative}
-.chart-row{display:grid;grid-template-columns:1fr 260px;gap:16px;margin-bottom:20px}
-@media(max-width:900px){.chart-row{grid-template-columns:1fr}}
-
-/* Trace items */
-.item{margin-bottom:12px}
-.item-head{padding:16px 24px;display:flex;align-items:center;gap:12px;cursor:pointer;transition:background .15s}
-.item-head:hover{background:rgba(255,255,255,.02)}
-.item-name{font-weight:700;font-size:15px;flex:1;letter-spacing:-.02em}
-.item-meta{display:flex;align-items:center;gap:8px;flex-shrink:0;flex-wrap:wrap}
-.meta-chip{display:inline-flex;align-items:center;gap:4px;padding:3px 10px;border-radius:6px;background:rgba(255,255,255,.04);border:1px solid var(--border);font-size:11px;font-weight:600;color:var(--text-3);white-space:nowrap;transition:all .15s}
-.meta-chip:hover{background:rgba(255,255,255,.06);border-color:var(--border-light)}
-.chevron{color:var(--text-4);font-size:10px;transition:transform .25s;flex-shrink:0}
-details[open] .turn-chevron{transform:rotate(90deg)}
-.item-body{padding:24px;border-top:1px solid var(--border);background:linear-gradient(180deg,rgba(0,0,0,.2),rgba(0,0,0,.1))}
-.mermaid-box{background:rgba(0,0,0,.3);border:1px solid rgba(30,41,59,.8);border-radius:var(--r-sm);padding:32px 24px;overflow-x:auto;min-height:220px}
-.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
-.mermaid-box .mermaid{min-width:560px}
-
-/* Chat turns */
-.chat-container{margin-top:20px;padding:20px;background:rgba(0,0,0,.15);border:1px solid var(--border);border-radius:var(--r-sm)}
-.chat-header{font-size:12px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:16px;padding-bottom:12px;border-bottom:1px solid var(--border)}
-.chat-messages{display:flex;flex-direction:column;gap:4px}
-.chat-bubble{max-width:80%;padding:12px 16px;font-size:13px;line-height:1.6;letter-spacing:-.01em;border-radius:16px;animation:chatIn .3s cubic-bezier(.4,0,.2,1)}
-@keyframes chatIn{from{opacity:0;transform:translateY(6px)}to{opacity:1;transform:none}}
-.chat-bubble.user{align-self:flex-end;background:linear-gradient(135deg,rgba(59,130,246,.2),rgba(8,145,178,.1));border:1px solid rgba(59,130,246,.2);color:var(--text);border-bottom-right-radius:4px}
-.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.03);border:1px solid var(--border);color:var(--text-2);border-bottom-left-radius:4px}
-.chat-meta{display:flex;align-items:center;gap:8px;padding:6px 4px;font-size:10px;color:var(--text-4);font-weight:500}
-.chat-meta.right{justify-content:flex-end}
-.chat-tool-tag{display:inline-flex;align-items:center;gap:3px;padding:2px 8px;border-radius:4px;background:rgba(59,130,246,.1);border:1px solid rgba(59,130,246,.15);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
-.chat-eval{padding:8px 12px;border-radius:10px;font-size:11px;font-weight:600;max-width:80%;animation:chatIn .3s}
-.chat-eval.pass{align-self:flex-start;background:linear-gradient(135deg,rgba(16,185,129,.08),rgba(16,185,129,.04));border:1px solid rgba(16,185,129,.2);color:var(--green-bright)}
-.chat-eval.fail{align-self:flex-start;background:linear-gradient(135deg,rgba(244,63,94,.08),rgba(244,63,94,.04));border:1px solid rgba(244,63,94,.2);color:var(--red-bright)}
-
-/* Diffs */
-.diff-item{margin-bottom:12px}
-.diff-head{padding:16px 24px;display:flex;align-items:center;gap:10px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
-.diff-name{font-weight:700;font-size:15px;flex:1;letter-spacing:-.02em}
-.diff-cols{display:grid;grid-template-columns:1fr 1fr}
-.diff-col{padding:18px 22px}
-.diff-col+.diff-col{border-left:1px solid var(--border)}
-.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:10px}
-.tags{display:flex;flex-wrap:wrap;gap:4px;margin-bottom:10px}
-.tag{background:rgba(255,255,255,.04);border:1px solid var(--border);border-radius:6px;padding:3px 10px;font-size:11px;font-family:var(--mono);font-weight:500;transition:all .15s}
-.tag.add{border-color:rgba(16,185,129,.3);color:var(--green-bright);background:rgba(16,185,129,.08)}
-.tag.rem{border-color:rgba(244,63,94,.3);color:var(--red-bright);background:rgba(244,63,94,.08);text-decoration:line-through}
-.outbox{background:rgba(0,0,0,.25);border:1px solid rgba(30,41,59,.6);border-radius:var(--r-xs);padding:14px;font:12px/1.7 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:200px;overflow-y:auto}
-.difflines{background:rgba(0,0,0,.25);border:1px solid rgba(30,41,59,.6);border-radius:var(--r-xs);padding:12px;font:11px/1.7 var(--mono);max-height:200px;overflow-y:auto;margin-top:10px}
-.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.06);display:block;padding:1px 6px;margin:0 -6px;border-radius:3px}
-.difflines .r{color:var(--red-bright);background:rgba(244,63,94,.06);display:block;padding:1px 6px;margin:0 -6px;border-radius:3px}
-.sim{display:inline-flex;align-items:center;gap:6px;font-size:12px;color:var(--text-3)}
-.sim-track{width:52px;height:5px;background:rgba(255,255,255,.06);border-radius:3px;overflow:hidden;display:inline-block;vertical-align:middle}
-.sim-fill{height:100%;border-radius:3px;transition:width .8s cubic-bezier(.4,0,.2,1)}
-.sim-fill.hi{background:linear-gradient(90deg,var(--green),var(--green-bright))}.sim-fill.mid{background:linear-gradient(90deg,var(--yellow),var(--yellow-bright))}.sim-fill.lo{background:linear-gradient(90deg,var(--red),var(--red-bright))}
-
-/* Pipeline */
-.pipeline{display:flex;flex-direction:column;gap:8px;padding:18px 24px;border-top:1px solid var(--border)}
-.pipeline-row{display:flex;align-items:center;gap:4px;flex-wrap:wrap}
-.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;width:70px;flex-shrink:0}
-.pipe-step{display:inline-flex;align-items:center;padding:5px 12px;border-radius:6px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.04);border:1px solid var(--border);color:var(--text-2);position:relative;transition:all .15s}
-.pipe-step+.pipe-step{margin-left:6px}
-.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-14px;color:var(--text-4);font-size:10px;font-family:var(--font)}
-.pipe-step.match{border-color:rgba(59,130,246,.2);background:rgba(59,130,246,.06)}
-.pipe-step.added{border-color:rgba(16,185,129,.3);color:var(--green-bright);background:rgba(16,185,129,.08);box-shadow:0 0 8px rgba(16,185,129,.1)}
-.pipe-step.removed{border-color:rgba(244,63,94,.3);color:var(--red-bright);background:rgba(244,63,94,.08);text-decoration:line-through}
-.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-top:16px;padding-top:16px;border-top:1px solid var(--border)}
-.traj-col .col-title{padding-bottom:10px}
-
-/* Tables */
-.ev-table{width:100%;border-collapse:separate;border-spacing:0;font-size:13px}
-.ev-table th{text-align:left;padding:10px 14px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.08em;border-bottom:1px solid var(--border);background:rgba(0,0,0,.2)}
-.ev-table th:first-child{border-radius:var(--r-xs) 0 0 0}.ev-table th:last-child{border-radius:0 var(--r-xs) 0 0}
-.ev-table td{padding:12px 14px;border-bottom:1px solid rgba(30,41,59,.5);transition:background .15s}
-.ev-table tr:hover td{background:rgba(255,255,255,.02)}
-.ev-table .mono{font-family:var(--mono);font-size:12px;letter-spacing:-.02em}
-.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
-.param-table{width:100%;border-collapse:collapse;font-size:12px}
-.param-table th{text-align:left;padding:8px 12px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
-.param-table td{padding:8px 12px;border-bottom:1px solid rgba(30,41,59,.5)}
-table td,table th{transition:background .15s}
-
-/* Empty */
-.empty{text-align:center;padding:80px 40px;color:var(--text-4)}
-.empty-icon{font-size:40px;margin-bottom:14px;display:block;opacity:.3}
-.empty code{background:rgba(255,255,255,.06);padding:3px 10px;border-radius:6px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
-
-/* Scrollbar */
-::-webkit-scrollbar{width:5px;height:5px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.08);border-radius:4px}::-webkit-scrollbar-thumb:hover{background:rgba(255,255,255,.15)}
-
-/* Entrance animations */
-@keyframes slideUp{from{opacity:0;transform:translateY(16px)}to{opacity:1;transform:none}}
-.kpi,.meta-card,.card,.item,.diff-item{animation:slideUp .4s cubic-bezier(.4,0,.2,1) both}
-.kpi:nth-child(2),.meta-card:nth-child(2){animation-delay:.05s}
-.kpi:nth-child(3){animation-delay:.1s}
-.kpi:nth-child(4){animation-delay:.15s}
-.item:nth-child(2),.diff-item:nth-child(2){animation-delay:.05s}
-.item:nth-child(3),.diff-item:nth-child(3){animation-delay:.1s}
-</style>
-</head>
-<body>
-
-<header class="header">
-  <div class="logo">
-    <div class="logo-icon">◈</div>
-    <div>
-      <div class="logo-text">EvalView Check Report</div>
-      <div class="logo-sub">2026-03-17 16:05</div>
-    </div>
-  </div>
-  <div class="header-right">
-    
-      
-        <span class="badge b-red">✗ 1 Failed</span>
-      
-      <span class="badge b-blue">5 Tests</span>
-    
-  </div>
-</header>
-
-<main class="main">
-
-  <div class="tabbar">
-    <button class="tab on" onclick="show('overview',this)">Overview</button>
-    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
-    <button class="tab " onclick="show('diffs',this)">Diffs</button>
-    <button class="tab " onclick="show('timeline',this)">Timeline</button>
-    
-  </div>
-
-  <!-- OVERVIEW -->
-  <div id="p-overview" class="panel on">
-    
-    <div class="kpi-row">
-      <div class="kpi glass glow-green">
-        <div class="kpi-top">
-          <div class="kpi-label">Pass Rate</div>
-          <div class="kpi-ring" style="--ring-glow:var(--green-glow)">
-            <svg width="52" height="52" viewBox="0 0 52 52">
-              <circle cx="26" cy="26" r="22" fill="none" stroke="rgba(255,255,255,.05)" stroke-width="3.5"/>
-              <circle cx="26" cy="26" r="22" fill="none" stroke="var(--green-bright)" stroke-width="3.5" stroke-linecap="round" stroke-dasharray="110.6 138.2"/>
-            </svg>
-            <div class="kpi-ring-label">4/5</div>
-          </div>
-        </div>
-        <div class="kpi-num c-green">80.0%</div>
-        <div class="kpi-sub">4 of 5 tests</div>
-      </div>
-      <div class="kpi glass glow-blue">
-        <div class="kpi-top">
-          <div class="kpi-label">Avg Score</div>
-          <div class="kpi-ring" style="--ring-glow:var(--blue-glow)">
-            <svg width="52" height="52" viewBox="0 0 52 52">
-              <circle cx="26" cy="26" r="22" fill="none" stroke="rgba(255,255,255,.05)" stroke-width="3.5"/>
-              <circle cx="26" cy="26" r="22" fill="none" stroke="var(--yellow-bright)" stroke-width="3.5" stroke-linecap="round" stroke-dasharray="110.1 138.2"/>
-            </svg>
-            <div class="kpi-ring-label">79</div>
-          </div>
-        </div>
-        <div class="kpi-num c-yellow">79.7</div>
-        <div class="kpi-sub">out of 100</div>
-      </div>
-      <div class="kpi glass glow-blue">
-        <div class="kpi-top"><div class="kpi-label">Total Cost</div></div>
-        <div class="kpi-num c-blue">$0.017</div>
-        <div class="kpi-sub">2,835 tokens (verified)</div>
-        
-        <div class="token-bar"><span style="color:var(--blue-bright)">in 2,170</span><span style="color:var(--cyan)">out 665</span></div>
-        
-        
-        <div style="margin-top:8px;font-size:11px;color:var(--text-4);font-weight:500">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
-        
-      </div>
-      <div class="kpi glass glow-blue">
-        <div class="kpi-top"><div class="kpi-label">Avg Latency</div></div>
-        <div class="kpi-num c-blue">1360<span style="font-size:16px;font-weight:600;opacity:.5;margin-left:2px">ms</span></div>
-        <div class="kpi-sub">per test</div>
-      </div>
-    </div>
-
-    <div class="meta-row">
-      <div class="meta-card glass">
-        <div class="meta-label">Agent Model</div>
-        <div class="meta-value">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
-        <div class="meta-sub">5 tests in this run</div>
-      </div>
-      
-      <div class="meta-card glass">
-        <div class="meta-label">Token Usage</div>
-        <div class="meta-value">2,835 tokens</div>
-        <div class="meta-sub">in 2,170 / out 665</div>
-      </div>
-      
-    </div>
-    
-
-    
-    <div class="meta-row">
-      <div class="meta-card glass">
-        <div class="meta-label">EvalView Judge (gpt-4o-mini)</div>
-        <div class="meta-value">$0.006</div>
-        <div class="meta-sub">1,320 tokens across 5 judge calls</div>
-      </div>
-      <div class="meta-card glass">
-        <div class="meta-label">Judge Token Breakdown</div>
-        <div class="meta-value">in 1,100 / out 220</div>
-        <div class="meta-sub">Separate from agent trace cost</div>
-      </div>
-    </div>
-    
-
-    <div class="chart-row">
-      <div class="card glass">
-        <div class="card-title">Score per Test</div>
-        <div class="chart-wrap" style="height:260px"><canvas id="bars"></canvas></div>
-      </div>
-      <div class="card glass">
-        <div class="card-title">Distribution</div>
-        <div class="chart-wrap" style="height:220px"><canvas id="donut"></canvas></div>
-      </div>
-    </div>
-
-    <div class="card glass">
-      <div class="card-title">Execution Cost per Query</div>
-      <table class="ev-table">
-        
-        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Tokens</th><th>Latency</th><th>Score</th></tr></thead>
-        <tbody>
-          
-          <tr>
-            <td style="font-weight:600">refund-flow</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0034</td>
-            <td class="mono" style="color:var(--text-3)">570 tokens</td>
-            <td style="color:var(--text-3)">1200ms</td>
-            <td class="num" style="color:var(--green-bright)">92.5</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">order-lookup</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0021</td>
-            <td class="mono" style="color:var(--text-3)">415 tokens</td>
-            <td style="color:var(--text-3)">800ms</td>
-            <td class="num" style="color:var(--green-bright)">88.0</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">billing-dispute</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0058</td>
-            <td class="mono" style="color:var(--text-3)">890 tokens</td>
-            <td style="color:var(--text-3)">2400ms</td>
-            <td class="num" style="color:var(--red-bright)">45.0</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">password-reset</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0012</td>
-            <td class="mono" style="color:var(--text-3)">260 tokens</td>
-            <td style="color:var(--text-3)">600ms</td>
-            <td class="num" style="color:var(--green-bright)">95.0</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">vip-escalation</td>
-            <td class="mono" style="color:var(--text-4)">openai/claude-3.5-sonnet</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0045</td>
-            <td class="mono" style="color:var(--text-3)">700 tokens</td>
-            <td style="color:var(--text-3)">1800ms</td>
-            <td class="num" style="color:var(--yellow-bright)">78.0</td>
-          </tr>
-          
-          <tr style="background:rgba(0,0,0,.15)">
-            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.017</td>
-            <td colspan="3" style="font-size:11px;color:var(--text-4)">avg $0.003400 per query</td>
-          </tr>
-        </tbody>
-      </table>
-      <div style="margin-top:14px;font-size:11px;color:var(--text-4);line-height:1.6">
-        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.06);padding:2px 8px;border-radius:4px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
-         This check also used 5 EvalView judge calls (1320 tokens).
-      </div>
-    </div>
-    
-  </div>
-
-  <!-- TRACE -->
-  <div id="p-trace" class="panel ">
-    
-      
-      <div class="item glass">
-        <div class="item-head" onclick="tog('tr1',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">refund-flow</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--green-bright);border-color:rgba(16,185,129,.2)">92.5/100</span>
-            <span class="meta-chip">💰 $0.0034</span>
-            <span class="meta-chip">⚡ 1200ms</span>
-            <span class="meta-chip">570 tokens</span>
-            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr1" class="item-body" >
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 450 / out 120 tokens</span><span class="badge b-blue">$0.0034</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:linear-gradient(135deg,rgba(59,130,246,.08),rgba(8,145,178,.04));border:1px solid rgba(59,130,246,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(59,130,246,.5);margin-right:8px">Query</span>Process refund for order 4812
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Refund issued.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item glass">
-        <div class="item-head" onclick="tog('tr2',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">order-lookup</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--green-bright);border-color:rgba(16,185,129,.2)">88.0/100</span>
-            <span class="meta-chip">💰 $0.0021</span>
-            <span class="meta-chip">⚡ 800ms</span>
-            <span class="meta-chip">415 tokens</span>
-            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr2" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 320 / out 95 tokens</span><span class="badge b-blue">$0.0021</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:linear-gradient(135deg,rgba(59,130,246,.08),rgba(8,145,178,.04));border:1px solid rgba(59,130,246,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(59,130,246,.5);margin-right:8px">Query</span>Order status #7291
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Shipped.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item glass">
-        <div class="item-head" onclick="tog('tr3',this)">
-          <span class="badge b-red">✗</span>
-          <span class="item-name">billing-dispute</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--red-bright);border-color:rgba(244,63,94,.2)">45.0/100</span>
-            <span class="meta-chip">💰 $0.0058</span>
-            <span class="meta-chip">⚡ 2400ms</span>
-            <span class="meta-chip">890 tokens</span>
-            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr3" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 680 / out 210 tokens</span><span class="badge b-blue">$0.0058</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:linear-gradient(135deg,rgba(59,130,246,.08),rgba(8,145,178,.04));border:1px solid rgba(59,130,246,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(59,130,246,.5);margin-right:8px">Query</span>Dispute charge
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Not found.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item glass">
-        <div class="item-head" onclick="tog('tr4',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">password-reset</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--green-bright);border-color:rgba(16,185,129,.2)">95.0/100</span>
-            <span class="meta-chip">💰 $0.0012</span>
-            <span class="meta-chip">⚡ 600ms</span>
-            <span class="meta-chip">260 tokens</span>
-            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr4" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 200 / out 60 tokens</span><span class="badge b-blue">$0.0012</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:linear-gradient(135deg,rgba(59,130,246,.08),rgba(8,145,178,.04));border:1px solid rgba(59,130,246,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(59,130,246,.5);margin-right:8px">Query</span>Reset password
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Email sent.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item glass">
-        <div class="item-head" onclick="tog('tr5',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">vip-escalation</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--yellow-bright);border-color:rgba(245,158,11,.2)">78.0/100</span>
-            <span class="meta-chip">💰 $0.0045</span>
-            <span class="meta-chip">⚡ 1800ms</span>
-            <span class="meta-chip">700 tokens</span>
-            <span class="meta-chip">🧠 openai/claude-3.5-sonnet</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr5" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
-            <span class="badge b-blue">Model: openai/claude-3.5-sonnet</span>
-            <span class="badge b-blue">in 520 / out 180 tokens</span><span class="badge b-blue">$0.0045</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:linear-gradient(135deg,rgba(59,130,246,.08),rgba(8,145,178,.04));border:1px solid rgba(59,130,246,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(59,130,246,.5);margin-right:8px">Query</span>VIP leaving
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
-            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Escalated.
-          </div>
-          
-        </div>
-      </div>
-      
-    
-  </div>
-
-  <!-- DIFFS -->
-  <div id="p-diffs" class="panel ">
-    
-      <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
-    
-  </div>
-
-  <!-- TIMELINE -->
-  <div id="p-timeline" class="panel ">
-    
-      <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
-    
-  </div>
-
-  <!-- COMPARE -->
-  
-</main>
-
-<script>
-mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
-  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(59,130,246,.15)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(59,130,246,.3)',lineColor:'rgba(100,116,139,.4)',secondaryColor:'rgba(16,185,129,.1)',tertiaryColor:'rgba(8,145,178,.1)',noteBkgColor:'rgba(59,130,246,.08)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(59,130,246,.2)',actorBkg:'rgba(59,130,246,.12)',actorBorder:'rgba(59,130,246,.3)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
-  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:12,messageFontSize:11,noteFontSize:10,boxTextMargin:8,mirrorActors:false,messageAlign:'center',actorMargin:30,bottomMarginAdj:4}
-});
-function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
-function tog(id,head){const el=document.getElementById(id);const open=el.style.display!=='none';el.style.display=open?'none':'block';head.querySelector('.chevron').style.transform=open?'':'rotate(180deg)'}
-
-
-(function(){
-  const passed=4,failed=1;
-  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
-  const tc='rgba(100,116,139,.8)',gc='rgba(255,255,255,.03)';
-  const ttOpts={backgroundColor:'rgba(3,7,18,.95)',borderColor:'rgba(30,41,59,.8)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:12},bodyFont:{family:'Inter',size:12},padding:12,cornerRadius:10,boxPadding:4};
-  new Chart(document.getElementById('donut'),{type:'doughnut',data:{labels:['Passed','Failed'],datasets:[{data:[passed,failed],backgroundColor:['rgba(16,185,129,.7)','rgba(244,63,94,.7)'],borderColor:['rgba(16,185,129,.15)','rgba(244,63,94,.15)'],borderWidth:2,hoverOffset:8,hoverBackgroundColor:['rgba(16,185,129,.9)','rgba(244,63,94,.9)']}]},options:{responsive:true,maintainAspectRatio:false,cutout:'76%',plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:11,weight:'600'},padding:20,boxWidth:8,boxHeight:8,usePointStyle:true,pointStyle:'circle'}},tooltip:{...ttOpts,callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}});
-  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
-  const barG=sorted.map(s=>{if(s.score>=80)return{bg:'rgba(16,185,129,.45)',b:'rgba(16,185,129,.7)',h:'rgba(16,185,129,.65)'};if(s.score>=60)return{bg:'rgba(245,158,11,.45)',b:'rgba(245,158,11,.7)',h:'rgba(245,158,11,.65)'};return{bg:'rgba(244,63,94,.45)',b:'rgba(244,63,94,.7)',h:'rgba(244,63,94,.65)'}});
-  new Chart(document.getElementById('bars'),{type:'bar',data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),backgroundColor:barG.map(g=>g.bg),borderColor:barG.map(g=>g.b),hoverBackgroundColor:barG.map(g=>g.h),borderWidth:1,borderRadius:6,borderSkipped:false,barPercentage:.65,categoryPercentage:.8}]},options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:10},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.8)',font:{family:'Inter',size:12,weight:'600'},padding:8},border:{display:false}}},plugins:{legend:{display:false},tooltip:{...ttOpts,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
-})();
-
-
-
-
-
-</script>
-
-<!-- Share bar -->
-<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(3,7,18,.9);backdrop-filter:blur(20px);-webkit-backdrop-filter:blur(20px);border-top:1px solid var(--border);padding:10px 28px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:12px;color:var(--text-4)">
-  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:700">EvalView</a> <span style="opacity:.3;margin:0 8px">|</span> Agent testing &amp; regression detection</span>
-  <span style="display:flex;align-items:center;gap:8px">
-    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:5px;padding:6px 14px;border-radius:8px;background:rgba(29,155,240,.1);color:#1d9bf0;text-decoration:none;font-weight:700;font-size:11px;transition:all .2s;border:1px solid rgba(29,155,240,.15)" onmouseover="this.style.background='rgba(29,155,240,.2)';this.style.borderColor='rgba(29,155,240,.3)';this.style.transform='translateY(-1px)'" onmouseout="this.style.background='rgba(29,155,240,.1)';this.style.borderColor='rgba(29,155,240,.15)';this.style.transform='none'">
-      <svg width="13" height="13" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
-    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:5px;padding:6px 14px;border-radius:8px;background:rgba(255,255,255,.04);color:var(--text-2);text-decoration:none;font-weight:700;font-size:11px;transition:all .2s;border:1px solid var(--border)" onmouseover="this.style.background='rgba(255,255,255,.08)';this.style.borderColor='var(--border-light)';this.style.transform='translateY(-1px)'" onmouseout="this.style.background='rgba(255,255,255,.04)';this.style.borderColor='var(--border)';this.style.transform='none'">
-      <svg width="13" height="13" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
-  </span>
-</div>
-<div style="height:44px"></div>
-
-</body>
-</html>
\ No newline at end of file
diff --git a/.evalview/latest-v4.html b/.evalview/latest-v4.html
deleted file mode 100644
index 7084865..0000000
--- a/.evalview/latest-v4.html
+++ /dev/null
@@ -1,708 +0,0 @@
-<!doctype html>
-<html lang="en">
-<head>
-<meta charset="UTF-8">
-<meta name="viewport" content="width=device-width, initial-scale=1.0">
-<title>EvalView Check Report</title>
-<link rel="preconnect" href="https://fonts.googleapis.com">
-<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
-<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
-<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
-<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
-<style>
-*{box-sizing:border-box;margin:0;padding:0}
-:root{
-  --green:#10b981;--green-bright:#34d399;
-  --red:#ef4444;--red-bright:#f87171;
-  --yellow:#f59e0b;--yellow-bright:#fbbf24;
-  --blue:#2563eb;--blue-bright:#3b82f6;
-  --teal:#0d9488;--teal-bright:#14b8a6;
-  --cyan:#06b6d4;
-  --bg:#0a0f1e;--bg-card:rgba(15,23,42,.65);--bg-card-solid:#0f172a;
-  --border:rgba(51,65,85,.5);--border-light:rgba(71,85,105,.5);
-  --text:#f1f5f9;--text-2:#94a3b8;--text-3:#64748b;--text-4:#475569;
-  --r:16px;--r-sm:12px;--r-xs:8px;
-  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
-  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
-}
-html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
-body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;
-  background:var(--bg);
-}
-/* ── Background: visible blobs, not invisible ── */
-.bg-blobs{position:fixed;inset:0;pointer-events:none;z-index:0;overflow:hidden}
-.bg-blobs .b1{position:absolute;width:700px;height:700px;border-radius:50%;top:-250px;left:-100px;background:radial-gradient(circle,rgba(37,99,235,.18),transparent 70%);filter:blur(40px)}
-.bg-blobs .b2{position:absolute;width:500px;height:500px;border-radius:50%;bottom:-150px;right:-80px;background:radial-gradient(circle,rgba(16,185,129,.12),transparent 70%);filter:blur(40px)}
-.bg-blobs .b3{position:absolute;width:400px;height:400px;border-radius:50%;top:40%;left:50%;transform:translateX(-50%);background:radial-gradient(circle,rgba(6,182,212,.06),transparent 70%);filter:blur(50px)}
-
-/* ── Header: minimal chrome ── */
-.header{
-  position:sticky;top:0;z-index:200;
-  background:rgba(10,15,30,.8);
-  border-bottom:1px solid var(--border);
-  backdrop-filter:blur(20px) saturate(150%);-webkit-backdrop-filter:blur(20px) saturate(150%);
-  padding:0 40px;height:56px;display:flex;align-items:center;justify-content:space-between;
-}
-.logo{display:flex;align-items:center;gap:10px}
-.logo-icon{
-  width:32px;height:32px;border-radius:8px;flex-shrink:0;
-  background:linear-gradient(135deg,var(--blue-bright),var(--teal));
-  display:flex;align-items:center;justify-content:center;font-size:14px;
-  box-shadow:0 2px 12px rgba(37,99,235,.25);
-}
-.logo-text{font-size:15px;font-weight:700;letter-spacing:-.02em;color:var(--text)}
-.logo-sub{font-size:11px;color:var(--text-3);font-weight:400}
-.header-right{display:flex;align-items:center;gap:6px}
-
-/* ── Badges ── */
-.badge{display:inline-flex;align-items:center;gap:4px;padding:4px 12px;border-radius:20px;font-size:11px;font-weight:600;letter-spacing:-.01em;white-space:nowrap}
-.b-green{background:rgba(16,185,129,.15);color:var(--green-bright);border:1px solid rgba(16,185,129,.3)}
-.b-red{background:rgba(239,68,68,.15);color:var(--red-bright);border:1px solid rgba(239,68,68,.3)}
-.b-yellow{background:rgba(245,158,11,.15);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.3)}
-.b-blue{background:rgba(37,99,235,.15);color:var(--blue-bright);border:1px solid rgba(37,99,235,.3)}
-.b-purple{background:rgba(13,148,136,.15);color:var(--teal-bright);border:1px solid rgba(13,148,136,.3)}
-
-/* ── Layout ── */
-.main{max-width:1200px;margin:0 auto;padding:32px 40px 80px;position:relative;z-index:1}
-
-/* ── Tabs: full-width bar, more presence ── */
-.tabbar{
-  display:flex;gap:0;
-  background:rgba(15,23,42,.6);border:1px solid var(--border);
-  border-radius:var(--r-sm);padding:3px;margin-bottom:36px;
-  backdrop-filter:blur(12px);
-}
-.tab{
-  flex:1;text-align:center;
-  background:none;border:none;color:var(--text-3);cursor:pointer;
-  font:600 13px/1 var(--font);padding:11px 16px;border-radius:9px;
-  transition:all .15s;letter-spacing:-.01em;
-}
-.tab:hover{color:var(--text-2);background:rgba(255,255,255,.04)}
-.tab.on{color:#fff;background:rgba(37,99,235,.2);border:1px solid rgba(37,99,235,.35);box-shadow:0 1px 8px rgba(37,99,235,.15)}
-.panel{display:none}.panel.on{display:block}
-
-/* ══════════════════════════════════════════
-   HERO SECTION — the scoreboard
-   ══════════════════════════════════════════ */
-.hero{
-  display:grid;grid-template-columns:1fr 1fr;gap:20px;
-  margin-bottom:32px;
-}
-.hero-pass{
-  background:var(--bg-card);border:1px solid var(--border);
-  border-radius:var(--r);padding:36px 40px;
-  position:relative;overflow:hidden;
-}
-/* Colored accent glow behind the card */
-.hero-pass::after{
-  content:'';position:absolute;top:-40px;right:-40px;width:200px;height:200px;border-radius:50%;
-  pointer-events:none;filter:blur(50px);opacity:.5;
-}
-.hero-pass.is-green::after{background:rgba(16,185,129,.2)}
-.hero-pass.is-red::after{background:rgba(239,68,68,.2)}
-.hero-pass .hero-label{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.1em;margin-bottom:12px}
-.hero-pass .hero-num{font-size:72px;font-weight:900;letter-spacing:-.06em;line-height:1}
-.hero-pass .hero-num.green{color:var(--green-bright)}
-.hero-pass .hero-num.red{color:var(--red-bright)}
-.hero-pass .hero-sub{font-size:14px;color:var(--text-3);margin-top:8px;font-weight:500}
-.hero-pass .hero-ring{position:absolute;top:32px;right:36px;width:80px;height:80px}
-.hero-pass .hero-ring svg{transform:rotate(-90deg)}
-.hero-pass .hero-ring-label{position:absolute;inset:0;display:flex;align-items:center;justify-content:center;font-size:14px;font-weight:800;color:var(--text)}
-
-.hero-right{display:grid;grid-template-columns:1fr 1fr;gap:12px}
-.hero-stat{
-  background:var(--bg-card);border:1px solid var(--border);
-  border-radius:var(--r);padding:20px 22px;
-}
-.hero-stat .stat-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.1em;margin-bottom:10px}
-.hero-stat .stat-num{font-size:28px;font-weight:800;letter-spacing:-.04em;line-height:1;color:var(--text)}
-.hero-stat .stat-num.blue{color:var(--blue-bright)}
-.hero-stat .stat-sub{font-size:11px;color:var(--text-4);margin-top:6px;font-weight:500;line-height:1.4}
-
-/* ── Card (for everything else) ── */
-.card{
-  background:var(--bg-card);border:1px solid var(--border);
-  border-radius:var(--r);padding:22px 24px;margin-bottom:16px;
-  position:relative;overflow:hidden;
-}
-.card-title{
-  font-size:11px;font-weight:700;color:var(--text-3);
-  text-transform:uppercase;letter-spacing:.08em;
-  margin-bottom:16px;display:flex;align-items:center;gap:8px;
-}
-.card-title::before{content:'';width:3px;height:12px;border-radius:2px;background:var(--blue-bright)}
-
-/* ── Meta row (compact) ── */
-.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-bottom:16px}
-@media(max-width:900px){.meta-row{grid-template-columns:1fr}}
-.meta-card{
-  background:var(--bg-card);border:1px solid var(--border);
-  border-radius:var(--r-sm);padding:16px 20px;
-}
-.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:6px}
-.meta-value{font-size:15px;font-weight:700;color:var(--text);letter-spacing:-.01em}
-.meta-sub{font-size:12px;color:var(--text-4);margin-top:3px}
-
-/* ── Charts ── */
-.chart-row{display:grid;grid-template-columns:1fr 220px;gap:12px;margin-bottom:16px}
-@media(max-width:900px){.chart-row{grid-template-columns:1fr}}
-.chart-wrap{position:relative}
-
-/* ── Trace items ── */
-.item{
-  background:var(--bg-card);border:1px solid var(--border);
-  border-radius:var(--r);margin-bottom:10px;overflow:hidden;
-  transition:border-color .15s;
-}
-.item:hover{border-color:var(--border-light)}
-.item-head{padding:14px 20px;display:flex;align-items:center;gap:10px;cursor:pointer;transition:background .1s}
-.item-head:hover{background:rgba(255,255,255,.02)}
-.item-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
-.item-meta{display:flex;align-items:center;gap:6px;flex-shrink:0;flex-wrap:wrap}
-.meta-chip{
-  display:inline-flex;align-items:center;gap:3px;
-  padding:2px 8px;border-radius:5px;background:rgba(255,255,255,.04);
-  font-size:11px;font-weight:500;color:var(--text-3);white-space:nowrap;
-}
-.chevron{color:var(--text-4);font-size:10px;transition:transform .2s;flex-shrink:0}
-details[open] .turn-chevron{transform:rotate(90deg)}
-.item-body{padding:20px;border-top:1px solid var(--border);background:rgba(0,0,0,.15)}
-.mermaid-box{background:rgba(0,0,0,.2);border:1px solid rgba(51,65,85,.4);border-radius:var(--r-sm);padding:28px 20px;overflow-x:auto;min-height:200px}
-.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
-.mermaid-box .mermaid{min-width:560px}
-
-/* ── Chat turns ── */
-.chat-container{margin-top:18px;padding:16px;background:rgba(0,0,0,.12);border:1px solid rgba(51,65,85,.3);border-radius:var(--r-sm)}
-.chat-header{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:14px;padding-bottom:10px;border-bottom:1px solid rgba(51,65,85,.3)}
-.chat-messages{display:flex;flex-direction:column;gap:4px}
-.chat-bubble{max-width:80%;padding:10px 14px;font-size:13px;line-height:1.55;border-radius:14px}
-.chat-bubble.user{align-self:flex-end;background:rgba(37,99,235,.12);border:1px solid rgba(37,99,235,.2);color:var(--text);border-bottom-right-radius:4px}
-.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.03);border:1px solid rgba(51,65,85,.4);color:var(--text-2);border-bottom-left-radius:4px}
-.chat-meta{display:flex;align-items:center;gap:8px;padding:5px 2px;font-size:10px;color:var(--text-4);font-weight:500}
-.chat-meta.right{justify-content:flex-end}
-.chat-tool-tag{display:inline-flex;padding:1px 7px;border-radius:4px;background:rgba(37,99,235,.08);border:1px solid rgba(37,99,235,.15);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
-.chat-eval{padding:6px 10px;border-radius:8px;font-size:11px;font-weight:600;max-width:80%}
-.chat-eval.pass{align-self:flex-start;background:rgba(16,185,129,.08);border:1px solid rgba(16,185,129,.2);color:var(--green-bright)}
-.chat-eval.fail{align-self:flex-start;background:rgba(239,68,68,.08);border:1px solid rgba(239,68,68,.2);color:var(--red-bright)}
-
-/* ── Diffs ── */
-.diff-item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:10px;overflow:hidden}
-.diff-head{padding:14px 20px;display:flex;align-items:center;gap:8px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
-.diff-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
-.diff-cols{display:grid;grid-template-columns:1fr 1fr}
-.diff-col{padding:16px 20px}
-.diff-col+.diff-col{border-left:1px solid var(--border)}
-.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;margin-bottom:8px}
-.tags{display:flex;flex-wrap:wrap;gap:4px;margin-bottom:8px}
-.tag{background:rgba(255,255,255,.04);border:1px solid rgba(51,65,85,.5);border-radius:5px;padding:2px 8px;font-size:11px;font-family:var(--mono);font-weight:500}
-.tag.add{border-color:rgba(16,185,129,.3);color:var(--green-bright);background:rgba(16,185,129,.06)}
-.tag.rem{border-color:rgba(239,68,68,.3);color:var(--red-bright);background:rgba(239,68,68,.06);text-decoration:line-through}
-.outbox{background:rgba(0,0,0,.2);border:1px solid rgba(51,65,85,.4);border-radius:var(--r-xs);padding:12px;font:12px/1.6 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:200px;overflow-y:auto}
-.difflines{background:rgba(0,0,0,.2);border:1px solid rgba(51,65,85,.4);border-radius:var(--r-xs);padding:10px;font:11px/1.6 var(--mono);max-height:200px;overflow-y:auto;margin-top:8px}
-.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.05);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
-.difflines .r{color:var(--red-bright);background:rgba(239,68,68,.05);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
-.sim{display:inline-flex;align-items:center;gap:5px;font-size:11px;color:var(--text-3)}
-.sim-track{width:44px;height:4px;background:rgba(255,255,255,.06);border-radius:2px;overflow:hidden;display:inline-block;vertical-align:middle}
-.sim-fill{height:100%;border-radius:2px}
-.sim-fill.hi{background:var(--green)}.sim-fill.mid{background:var(--yellow)}.sim-fill.lo{background:var(--red)}
-
-/* Pipeline */
-.pipeline{display:flex;flex-direction:column;gap:6px;padding:14px 20px;border-top:1px solid var(--border)}
-.pipeline-row{display:flex;align-items:center;gap:4px;flex-wrap:wrap}
-.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;width:64px;flex-shrink:0}
-.pipe-step{display:inline-flex;padding:4px 10px;border-radius:5px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.04);border:1px solid rgba(51,65,85,.5);color:var(--text-2);position:relative}
-.pipe-step+.pipe-step{margin-left:6px}
-.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-13px;color:var(--text-4);font-size:9px;font-family:var(--font)}
-.pipe-step.match{border-color:rgba(37,99,235,.25);background:rgba(37,99,235,.05)}
-.pipe-step.added{border-color:rgba(16,185,129,.3);color:var(--green-bright);background:rgba(16,185,129,.06)}
-.pipe-step.removed{border-color:rgba(239,68,68,.3);color:var(--red-bright);background:rgba(239,68,68,.06);text-decoration:line-through}
-.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-top:14px;padding-top:14px;border-top:1px solid var(--border)}
-.traj-col .col-title{padding-bottom:8px}
-
-/* ── Tables ── */
-.ev-table{width:100%;border-collapse:collapse;font-size:13px}
-.ev-table th{text-align:left;padding:8px 12px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
-.ev-table td{padding:10px 12px;border-bottom:1px solid rgba(51,65,85,.3);transition:background .1s}
-.ev-table tr:hover td{background:rgba(255,255,255,.015)}
-.ev-table .mono{font-family:var(--mono);font-size:12px}
-.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
-.param-table{width:100%;border-collapse:collapse;font-size:12px}
-.param-table th{text-align:left;padding:6px 10px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
-.param-table td{padding:6px 10px;border-bottom:1px solid rgba(51,65,85,.3)}
-table td,table th{transition:background .1s}
-
-/* ── Empty ── */
-.empty{text-align:center;padding:72px 40px;color:var(--text-4)}
-.empty-icon{font-size:36px;margin-bottom:12px;display:block;opacity:.3}
-.empty code{background:rgba(255,255,255,.06);padding:2px 8px;border-radius:5px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
-
-/* ── Scrollbar ── */
-::-webkit-scrollbar{width:4px;height:4px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.08);border-radius:4px}
-
-/* ── Entrance animation (subtle) ── */
-@keyframes fadeUp{from{opacity:0;transform:translateY(10px)}to{opacity:1;transform:none}}
-.hero,.card,.item,.diff-item,.meta-card{animation:fadeUp .35s ease-out both}
-</style>
-</head>
-<body>
-
-<div class="bg-blobs"><div class="b1"></div><div class="b2"></div><div class="b3"></div></div>
-
-<header class="header">
-  <div class="logo">
-    <div class="logo-icon">◈</div>
-    <div>
-      <div class="logo-text">EvalView Check Report</div>
-      <div class="logo-sub">2026-03-17 16:52</div>
-    </div>
-  </div>
-  <div class="header-right">
-    
-      
-        <span class="badge b-red">✗ 1 Failed</span>
-      
-      <span class="badge b-blue">5 Tests</span>
-    
-  </div>
-</header>
-
-<main class="main">
-
-  <div class="tabbar">
-    <button class="tab on" onclick="show('overview',this)">Overview</button>
-    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
-    <button class="tab " onclick="show('diffs',this)">Diffs</button>
-    <button class="tab " onclick="show('timeline',this)">Timeline</button>
-    
-  </div>
-
-  <!-- ═══════════ OVERVIEW ═══════════ -->
-  <div id="p-overview" class="panel on">
-    
-
-    <!-- HERO: The scoreboard -->
-    <div class="hero">
-      <div class="hero-pass is-green">
-        <div class="hero-label">Pass Rate</div>
-        <div class="hero-num green">80.0%</div>
-        <div class="hero-sub">4 of 5 tests passing</div>
-        <div class="hero-ring">
-          <svg width="80" height="80" viewBox="0 0 80 80">
-            <circle cx="40" cy="40" r="34" fill="none" stroke="rgba(255,255,255,.06)" stroke-width="5"/>
-            <circle cx="40" cy="40" r="34" fill="none"
-              stroke="var(--green-bright)"
-              stroke-width="5" stroke-linecap="round"
-              stroke-dasharray="170.9 213.6"/>
-          </svg>
-          <div class="hero-ring-label">4/5</div>
-        </div>
-      </div>
-      <div class="hero-right">
-        <div class="hero-stat">
-          <div class="stat-label">Avg Score</div>
-          <div class="stat-num" style="color:var(--yellow-bright)">79.7<span style="font-size:14px;color:var(--text-4);font-weight:500">/100</span></div>
-        </div>
-        <div class="hero-stat">
-          <div class="stat-label">Total Cost</div>
-          <div class="stat-num blue">$0.017</div>
-          <div class="stat-sub">2,835 tokens</div>
-        </div>
-        <div class="hero-stat">
-          <div class="stat-label">Avg Latency</div>
-          <div class="stat-num">1360<span style="font-size:14px;color:var(--text-4);font-weight:500">ms</span></div>
-          <div class="stat-sub">per test</div>
-        </div>
-        <div class="hero-stat">
-          <div class="stat-label">Model</div>
-          <div style="font-size:13px;font-weight:600;color:var(--text);margin-top:4px;line-height:1.4">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
-          
-          <div style="margin-top:6px;font-size:11px;color:var(--text-4);font-family:var(--mono)">in 2,170 · out 665</div>
-          
-        </div>
-      </div>
-    </div>
-
-    <!-- Agent Model + Token Usage -->
-    <div class="meta-row">
-      <div class="meta-card">
-        <div class="meta-label">Agent Model</div>
-        <div class="meta-value">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
-        <div class="meta-sub">5 tests in this run</div>
-      </div>
-      
-      <div class="meta-card">
-        <div class="meta-label">Token Usage</div>
-        <div class="meta-value">2,835 tokens</div>
-        <div class="meta-sub">in 2,170 / out 665</div>
-      </div>
-      
-    </div>
-    
-
-    
-    <div class="meta-row">
-      <div class="meta-card">
-        <div class="meta-label">EvalView Judge (gpt-4o-mini)</div>
-        <div class="meta-value">$0.006</div>
-        <div class="meta-sub">1,320 tokens across 5 judge calls</div>
-      </div>
-      <div class="meta-card">
-        <div class="meta-label">Judge Token Breakdown</div>
-        <div class="meta-value">in 1,100 / out 220</div>
-        <div class="meta-sub">Separate from agent trace cost</div>
-      </div>
-    </div>
-    
-
-    <!-- Score bars + donut -->
-    <div class="chart-row">
-      <div class="card">
-        <div class="card-title">Score per Test</div>
-        <div class="chart-wrap" style="height:250px"><canvas id="bars"></canvas></div>
-      </div>
-      <div class="card">
-        <div class="card-title">Distribution</div>
-        <div class="chart-wrap" style="height:200px"><canvas id="donut"></canvas></div>
-      </div>
-    </div>
-
-    <!-- Cost table -->
-    <div class="card">
-      <div class="card-title">Execution Cost per Query</div>
-      <table class="ev-table">
-        
-        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Tokens</th><th>Latency</th><th>Score</th></tr></thead>
-        <tbody>
-          
-          <tr>
-            <td style="font-weight:600">refund-flow</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0034</td>
-            <td class="mono" style="color:var(--text-3)">570 tokens</td>
-            <td style="color:var(--text-3)">1200ms</td>
-            <td class="num" style="color:var(--green-bright)">92.5</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">order-lookup</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0021</td>
-            <td class="mono" style="color:var(--text-3)">415 tokens</td>
-            <td style="color:var(--text-3)">800ms</td>
-            <td class="num" style="color:var(--green-bright)">88.0</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">billing-dispute</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0058</td>
-            <td class="mono" style="color:var(--text-3)">890 tokens</td>
-            <td style="color:var(--text-3)">2400ms</td>
-            <td class="num" style="color:var(--red-bright)">45.0</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">password-reset</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0012</td>
-            <td class="mono" style="color:var(--text-3)">260 tokens</td>
-            <td style="color:var(--text-3)">600ms</td>
-            <td class="num" style="color:var(--green-bright)">95.0</td>
-          </tr>
-          
-          <tr>
-            <td style="font-weight:600">vip-escalation</td>
-            <td class="mono" style="color:var(--text-4)">openai/claude-3.5-sonnet</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0045</td>
-            <td class="mono" style="color:var(--text-3)">700 tokens</td>
-            <td style="color:var(--text-3)">1800ms</td>
-            <td class="num" style="color:var(--yellow-bright)">78.0</td>
-          </tr>
-          
-          <tr style="background:rgba(0,0,0,.1)">
-            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.017</td>
-            <td colspan="3" style="font-size:11px;color:var(--text-4)">avg $0.003400 per query</td>
-          </tr>
-        </tbody>
-      </table>
-      <div style="margin-top:12px;font-size:11px;color:var(--text-4);line-height:1.5">
-        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.05);padding:2px 7px;border-radius:4px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
-         This check also used 5 EvalView judge calls (1320 tokens).
-      </div>
-    </div>
-    
-  </div>
-
-  <!-- ═══════════ EXECUTION TRACE ═══════════ -->
-  <div id="p-trace" class="panel ">
-    
-      
-      <div class="item">
-        <div class="item-head" onclick="tog('tr1',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">refund-flow</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--green-bright)">92.5/100</span>
-            <span class="meta-chip">💰 $0.0034</span>
-            <span class="meta-chip">⚡ 1200ms</span>
-            <span class="meta-chip">570 tokens</span>
-            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr1" class="item-body" >
-          <div style="display:flex;flex-wrap:wrap;gap:5px;margin-bottom:14px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 450 / out 120 tokens</span><span class="badge b-blue">$0.0034</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.06);border:1px solid rgba(37,99,235,.15);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Query</span>Process refund for order 4812
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
-            <span style="display:inline-flex;align-items:center;gap:6px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:rgba(16,185,129,.05);border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Response</span>Refund issued.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item">
-        <div class="item-head" onclick="tog('tr2',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">order-lookup</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--green-bright)">88.0/100</span>
-            <span class="meta-chip">💰 $0.0021</span>
-            <span class="meta-chip">⚡ 800ms</span>
-            <span class="meta-chip">415 tokens</span>
-            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr2" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:5px;margin-bottom:14px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 320 / out 95 tokens</span><span class="badge b-blue">$0.0021</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.06);border:1px solid rgba(37,99,235,.15);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Query</span>Order status #7291
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
-            <span style="display:inline-flex;align-items:center;gap:6px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:rgba(16,185,129,.05);border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Response</span>Shipped.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item">
-        <div class="item-head" onclick="tog('tr3',this)">
-          <span class="badge b-red">✗</span>
-          <span class="item-name">billing-dispute</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--red-bright)">45.0/100</span>
-            <span class="meta-chip">💰 $0.0058</span>
-            <span class="meta-chip">⚡ 2400ms</span>
-            <span class="meta-chip">890 tokens</span>
-            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr3" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:5px;margin-bottom:14px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 680 / out 210 tokens</span><span class="badge b-blue">$0.0058</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.06);border:1px solid rgba(37,99,235,.15);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Query</span>Dispute charge
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
-            <span style="display:inline-flex;align-items:center;gap:6px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:rgba(16,185,129,.05);border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Response</span>Not found.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item">
-        <div class="item-head" onclick="tog('tr4',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">password-reset</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--green-bright)">95.0/100</span>
-            <span class="meta-chip">💰 $0.0012</span>
-            <span class="meta-chip">⚡ 600ms</span>
-            <span class="meta-chip">260 tokens</span>
-            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr4" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:5px;margin-bottom:14px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 200 / out 60 tokens</span><span class="badge b-blue">$0.0012</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.06);border:1px solid rgba(37,99,235,.15);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Query</span>Reset password
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
-            <span style="display:inline-flex;align-items:center;gap:6px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:rgba(16,185,129,.05);border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Response</span>Email sent.
-          </div>
-          
-        </div>
-      </div>
-      
-      <div class="item">
-        <div class="item-head" onclick="tog('tr5',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">vip-escalation</span>
-          <div class="item-meta">
-            <span class="meta-chip" style="color:var(--yellow-bright)">78.0/100</span>
-            <span class="meta-chip">💰 $0.0045</span>
-            <span class="meta-chip">⚡ 1800ms</span>
-            <span class="meta-chip">700 tokens</span>
-            <span class="meta-chip">🧠 openai/claude-3.5-sonnet</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr5" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:5px;margin-bottom:14px">
-            <span class="badge b-blue">Model: openai/claude-3.5-sonnet</span>
-            <span class="badge b-blue">in 520 / out 180 tokens</span><span class="badge b-blue">$0.0045</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.06);border:1px solid rgba(37,99,235,.15);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Query</span>VIP leaving
-          </div>
-          
-          
-          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
-            <span style="display:inline-flex;align-items:center;gap:6px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
-          </div>
-          
-          
-          
-          <div style="background:rgba(16,185,129,.05);border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Response</span>Escalated.
-          </div>
-          
-        </div>
-      </div>
-      
-    
-  </div>
-
-  <!-- ═══════════ DIFFS ═══════════ -->
-  <div id="p-diffs" class="panel ">
-    
-      <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
-    
-  </div>
-
-  <!-- ═══════════ TIMELINE ═══════════ -->
-  <div id="p-timeline" class="panel ">
-    
-      <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
-    
-  </div>
-
-  <!-- ═══════════ COMPARE ═══════════ -->
-  
-</main>
-
-<script>
-mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
-  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(37,99,235,.12)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(37,99,235,.3)',lineColor:'rgba(100,116,139,.35)',secondaryColor:'rgba(16,185,129,.08)',tertiaryColor:'rgba(6,182,212,.08)',noteBkgColor:'rgba(37,99,235,.06)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(37,99,235,.2)',actorBkg:'rgba(37,99,235,.1)',actorBorder:'rgba(37,99,235,.25)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
-  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:12,messageFontSize:11,noteFontSize:10,boxTextMargin:8,mirrorActors:false,messageAlign:'center',actorMargin:30,bottomMarginAdj:4}
-});
-function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
-function tog(id,head){const el=document.getElementById(id);const open=el.style.display!=='none';el.style.display=open?'none':'block';head.querySelector('.chevron').style.transform=open?'':'rotate(180deg)'}
-
-
-(function(){
-  const passed=4,failed=1;
-  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
-  const tc='rgba(100,116,139,.7)',gc='rgba(255,255,255,.03)';
-  const tt={backgroundColor:'rgba(10,15,30,.95)',borderColor:'rgba(51,65,85,.6)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:12},bodyFont:{family:'Inter',size:12},padding:10,cornerRadius:8};
-
-  new Chart(document.getElementById('donut'),{type:'doughnut',data:{labels:['Passed','Failed'],datasets:[{data:[passed,failed],backgroundColor:['rgba(16,185,129,.65)','rgba(239,68,68,.65)'],borderColor:['rgba(16,185,129,.1)','rgba(239,68,68,.1)'],borderWidth:2,hoverOffset:6}]},options:{responsive:true,maintainAspectRatio:false,cutout:'76%',plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:11,weight:'500'},padding:16,boxWidth:8,boxHeight:8,usePointStyle:true,pointStyle:'circle'}},tooltip:{...tt,callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}});
-
-  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
-  new Chart(document.getElementById('bars'),{type:'bar',
-    data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),
-      backgroundColor:sorted.map(s=>s.score>=80?'rgba(16,185,129,.4)':s.score>=60?'rgba(245,158,11,.4)':'rgba(239,68,68,.4)'),
-      borderColor:sorted.map(s=>s.score>=80?'rgba(16,185,129,.6)':s.score>=60?'rgba(245,158,11,.6)':'rgba(239,68,68,.6)'),
-      borderWidth:1,borderRadius:4,borderSkipped:false,barPercentage:.6,categoryPercentage:.8}]},
-    options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,
-      scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:10},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.8)',font:{family:'Inter',size:11,weight:'600'},padding:6},border:{display:false}}},
-      plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
-})();
-
-
-
-
-
-</script>
-
-<!-- Share bar -->
-<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(10,15,30,.9);backdrop-filter:blur(16px);-webkit-backdrop-filter:blur(16px);border-top:1px solid var(--border);padding:10px 24px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:12px;color:var(--text-4)">
-  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:600">EvalView</a> <span style="opacity:.3;margin:0 6px">|</span> Agent testing &amp; regression detection</span>
-  <span style="display:flex;align-items:center;gap:6px">
-    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:4px;padding:5px 12px;border-radius:6px;background:rgba(29,155,240,.1);color:#1d9bf0;text-decoration:none;font-weight:600;font-size:11px;border:1px solid rgba(29,155,240,.12)" onmouseover="this.style.background='rgba(29,155,240,.18)'" onmouseout="this.style.background='rgba(29,155,240,.1)'"><svg width="13" height="13" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
-    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:4px;padding:5px 12px;border-radius:6px;background:rgba(255,255,255,.04);color:var(--text-2);text-decoration:none;font-weight:600;font-size:11px;border:1px solid var(--border)" onmouseover="this.style.background='rgba(255,255,255,.07)'" onmouseout="this.style.background='rgba(255,255,255,.04)'"><svg width="13" height="13" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
-  </span>
-</div>
-<div style="height:44px"></div>
-
-</body>
-</html>
\ No newline at end of file
diff --git a/.evalview/latest-v5.html b/.evalview/latest-v5.html
deleted file mode 100644
index 2586400..0000000
--- a/.evalview/latest-v5.html
+++ /dev/null
@@ -1,689 +0,0 @@
-<!doctype html>
-<html lang="en">
-<head>
-<meta charset="UTF-8">
-<meta name="viewport" content="width=device-width, initial-scale=1.0">
-<title>EvalView Check Report</title>
-<link rel="preconnect" href="https://fonts.googleapis.com">
-<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
-<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
-<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
-<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
-<style>
-*{box-sizing:border-box;margin:0;padding:0}
-:root{
-  --green:#10b981;--green-bright:#34d399;
-  --red:#ef4444;--red-bright:#f87171;
-  --yellow:#f59e0b;--yellow-bright:#fbbf24;
-  --blue:#2563eb;--blue-bright:#3b82f6;
-  --teal:#0d9488;--teal-bright:#14b8a6;
-  --cyan:#06b6d4;
-  --bg:#060b18;--bg-card:rgba(12,20,36,.75);
-  --border:rgba(51,65,85,.45);--border-light:rgba(71,85,105,.5);
-  --text:#f1f5f9;--text-2:#94a3b8;--text-3:#64748b;--text-4:#475569;
-  --r:16px;--r-sm:12px;--r-xs:8px;
-  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
-  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
-}
-html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
-body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;background:var(--bg)}
-
-/* ── Header ── */
-.header{
-  position:sticky;top:0;z-index:200;
-  background:rgba(6,11,24,.85);border-bottom:1px solid var(--border);
-  backdrop-filter:blur(20px);-webkit-backdrop-filter:blur(20px);
-  padding:0 40px;height:52px;display:flex;align-items:center;justify-content:space-between;
-}
-.logo{display:flex;align-items:center;gap:10px}
-.logo-icon{width:28px;height:28px;border-radius:7px;flex-shrink:0;background:linear-gradient(135deg,var(--blue-bright),var(--teal));display:flex;align-items:center;justify-content:center;font-size:13px;box-shadow:0 2px 10px rgba(37,99,235,.2)}
-.logo-text{font-size:14px;font-weight:700;letter-spacing:-.02em;color:var(--text)}
-.logo-sub{font-size:10px;color:var(--text-4);font-weight:400}
-.header-right{display:flex;align-items:center;gap:6px}
-
-/* ── Badges ── */
-.badge{display:inline-flex;align-items:center;gap:4px;padding:3px 10px;border-radius:20px;font-size:11px;font-weight:600;white-space:nowrap}
-.b-green{background:rgba(16,185,129,.12);color:var(--green-bright);border:1px solid rgba(16,185,129,.25)}
-.b-red{background:rgba(239,68,68,.12);color:var(--red-bright);border:1px solid rgba(239,68,68,.25)}
-.b-yellow{background:rgba(245,158,11,.12);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.25)}
-.b-blue{background:rgba(37,99,235,.12);color:var(--blue-bright);border:1px solid rgba(37,99,235,.25)}
-.b-purple{background:rgba(13,148,136,.12);color:var(--teal-bright);border:1px solid rgba(13,148,136,.25)}
-
-/* ── Layout ── */
-.main{max-width:1160px;margin:0 auto;padding:28px 36px 80px;position:relative;z-index:1}
-
-/* ── Tabs ── */
-.tabbar{display:flex;gap:0;background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:3px;margin-bottom:28px}
-.tab{flex:1;text-align:center;background:none;border:none;color:var(--text-4);cursor:pointer;font:600 12px/1 var(--font);padding:10px 12px;border-radius:9px;transition:all .15s}
-.tab:hover{color:var(--text-2);background:rgba(255,255,255,.03)}
-.tab.on{color:#fff;background:rgba(37,99,235,.18);border:1px solid rgba(37,99,235,.3)}
-.panel{display:none}.panel.on{display:block}
-
-/* ══════════════════════════════════════════════
-   THE GAUGE — signature element
-   ══════════════════════════════════════════════ */
-.gauge-hero{
-  text-align:center;padding:48px 20px 36px;margin-bottom:28px;
-  position:relative;
-}
-/* Ambient glow behind gauge */
-.gauge-hero::before{
-  content:'';position:absolute;top:50%;left:50%;transform:translate(-50%,-60%);
-  width:320px;height:320px;border-radius:50%;pointer-events:none;
-  filter:blur(80px);opacity:.6;
-}
-.gauge-hero.glow-green::before{background:rgba(16,185,129,.15)}
-.gauge-hero.glow-red::before{background:rgba(239,68,68,.15)}
-.gauge-hero.glow-yellow::before{background:rgba(245,158,11,.12)}
-.gauge-wrap{position:relative;display:inline-block;width:220px;height:220px}
-.gauge-wrap svg{display:block}
-.gauge-center{
-  position:absolute;inset:0;display:flex;flex-direction:column;
-  align-items:center;justify-content:center;
-}
-.gauge-pct{font-size:56px;font-weight:900;letter-spacing:-.06em;line-height:1}
-.gauge-pct.green{color:var(--green-bright)}
-.gauge-pct.red{color:var(--red-bright)}
-.gauge-pct.yellow{color:var(--yellow-bright)}
-.gauge-label{font-size:12px;font-weight:600;color:var(--text-3);margin-top:4px;text-transform:uppercase;letter-spacing:.08em}
-.gauge-sub{font-size:14px;color:var(--text-3);margin-top:16px;font-weight:500}
-.gauge-sub b{color:var(--text);font-weight:700}
-/* Animated stroke */
-.gauge-track{transition:none}
-.gauge-fill{
-  transition:stroke-dasharray 1.2s cubic-bezier(.4,0,.2,1);
-  stroke-dasharray:0 999;
-}
-/* Title row under gauge */
-.gauge-title{font-size:11px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.1em;margin-bottom:20px}
-
-/* ── Stat strip — the 4 KPIs in a row ── */
-.stat-strip{display:grid;grid-template-columns:repeat(4,1fr);gap:1px;background:var(--border);border:1px solid var(--border);border-radius:var(--r);overflow:hidden;margin-bottom:24px}
-.stat-strip .ss{background:var(--bg-card);padding:18px 20px;text-align:center}
-.stat-strip .ss-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:8px}
-.stat-strip .ss-num{font-size:22px;font-weight:800;letter-spacing:-.03em;line-height:1;color:var(--text)}
-.stat-strip .ss-num.blue{color:var(--blue-bright)}
-.stat-strip .ss-sub{font-size:11px;color:var(--text-4);margin-top:5px;font-weight:500}
-@media(max-width:800px){.stat-strip{grid-template-columns:repeat(2,1fr)}}
-
-/* ── Card ── */
-.card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);padding:20px 22px;margin-bottom:14px;position:relative;overflow:hidden}
-.card-title{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:14px;display:flex;align-items:center;gap:7px}
-.card-title::before{content:'';width:3px;height:11px;border-radius:2px;background:var(--blue-bright)}
-.chart-wrap{position:relative}
-
-/* ── Meta row ── */
-.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-bottom:14px}
-@media(max-width:800px){.meta-row{grid-template-columns:1fr}}
-.meta-card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:14px 18px}
-.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:5px}
-.meta-value{font-size:14px;font-weight:700;color:var(--text)}
-.meta-sub{font-size:11px;color:var(--text-4);margin-top:3px}
-
-/* ── Chart row ── */
-.chart-row{display:grid;grid-template-columns:1fr 200px;gap:12px;margin-bottom:14px}
-@media(max-width:800px){.chart-row{grid-template-columns:1fr}}
-
-/* ── Trace items ── */
-.item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden;transition:border-color .15s}
-.item:hover{border-color:var(--border-light)}
-.item-head{padding:12px 18px;display:flex;align-items:center;gap:10px;cursor:pointer;transition:background .1s}
-.item-head:hover{background:rgba(255,255,255,.015)}
-.item-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
-.item-meta{display:flex;align-items:center;gap:5px;flex-shrink:0;flex-wrap:wrap}
-.mc{display:inline-flex;align-items:center;gap:3px;padding:2px 7px;border-radius:4px;background:rgba(255,255,255,.035);font-size:10px;font-weight:500;color:var(--text-3);white-space:nowrap}
-.chevron{color:var(--text-4);font-size:10px;transition:transform .2s;flex-shrink:0}
-details[open] .turn-chevron{transform:rotate(90deg)}
-.item-body{padding:18px;border-top:1px solid var(--border);background:rgba(0,0,0,.12)}
-.mermaid-box{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-sm);padding:24px 18px;overflow-x:auto;min-height:180px}
-.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
-.mermaid-box .mermaid{min-width:560px}
-
-/* ── Chat turns ── */
-.chat-container{margin-top:16px;padding:14px;background:rgba(0,0,0,.1);border:1px solid rgba(51,65,85,.25);border-radius:var(--r-sm)}
-.chat-header{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:12px;padding-bottom:8px;border-bottom:1px solid rgba(51,65,85,.25)}
-.chat-messages{display:flex;flex-direction:column;gap:3px}
-.chat-bubble{max-width:78%;padding:9px 13px;font-size:13px;line-height:1.5;border-radius:12px}
-.chat-bubble.user{align-self:flex-end;background:rgba(37,99,235,.1);border:1px solid rgba(37,99,235,.18);color:var(--text);border-bottom-right-radius:3px}
-.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.025);border:1px solid rgba(51,65,85,.35);color:var(--text-2);border-bottom-left-radius:3px}
-.chat-meta{display:flex;align-items:center;gap:6px;padding:4px 2px;font-size:10px;color:var(--text-4);font-weight:500}
-.chat-meta.right{justify-content:flex-end}
-.chat-tool-tag{display:inline-flex;padding:1px 6px;border-radius:3px;background:rgba(37,99,235,.07);border:1px solid rgba(37,99,235,.12);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
-.chat-eval{padding:5px 9px;border-radius:6px;font-size:11px;font-weight:600;max-width:78%}
-.chat-eval.pass{align-self:flex-start;background:rgba(16,185,129,.07);border:1px solid rgba(16,185,129,.18);color:var(--green-bright)}
-.chat-eval.fail{align-self:flex-start;background:rgba(239,68,68,.07);border:1px solid rgba(239,68,68,.18);color:var(--red-bright)}
-
-/* ── Diffs ── */
-.diff-item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden}
-.diff-head{padding:12px 18px;display:flex;align-items:center;gap:8px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
-.diff-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
-.diff-cols{display:grid;grid-template-columns:1fr 1fr}
-.diff-col{padding:14px 18px}
-.diff-col+.diff-col{border-left:1px solid var(--border)}
-.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;margin-bottom:7px}
-.tags{display:flex;flex-wrap:wrap;gap:3px;margin-bottom:7px}
-.tag{background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);border-radius:4px;padding:2px 7px;font-size:11px;font-family:var(--mono);font-weight:500}
-.tag.add{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
-.tag.rem{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
-.outbox{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:10px;font:12px/1.6 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:180px;overflow-y:auto}
-.difflines{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:8px;font:11px/1.6 var(--mono);max-height:180px;overflow-y:auto;margin-top:7px}
-.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
-.difflines .r{color:var(--red-bright);background:rgba(239,68,68,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
-.sim{display:inline-flex;align-items:center;gap:4px;font-size:11px;color:var(--text-3)}
-.sim-track{width:40px;height:3px;background:rgba(255,255,255,.06);border-radius:2px;overflow:hidden;display:inline-block;vertical-align:middle}
-.sim-fill{height:100%;border-radius:2px}
-.sim-fill.hi{background:var(--green)}.sim-fill.mid{background:var(--yellow)}.sim-fill.lo{background:var(--red)}
-.pipeline{display:flex;flex-direction:column;gap:5px;padding:12px 18px;border-top:1px solid var(--border)}
-.pipeline-row{display:flex;align-items:center;gap:3px;flex-wrap:wrap}
-.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;width:60px;flex-shrink:0}
-.pipe-step{display:inline-flex;padding:3px 9px;border-radius:4px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);color:var(--text-2);position:relative}
-.pipe-step+.pipe-step{margin-left:5px}
-.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-12px;color:var(--text-4);font-size:9px;font-family:var(--font)}
-.pipe-step.match{border-color:rgba(37,99,235,.2);background:rgba(37,99,235,.04)}
-.pipe-step.added{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
-.pipe-step.removed{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
-.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:10px;margin-top:12px;padding-top:12px;border-top:1px solid var(--border)}
-.traj-col .col-title{padding-bottom:6px}
-
-/* ── Tables ── */
-.ev-table{width:100%;border-collapse:collapse;font-size:13px}
-.ev-table th{text-align:left;padding:7px 10px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
-.ev-table td{padding:9px 10px;border-bottom:1px solid rgba(51,65,85,.25)}
-.ev-table tr:hover td{background:rgba(255,255,255,.012)}
-.ev-table .mono{font-family:var(--mono);font-size:12px}
-.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
-.param-table{width:100%;border-collapse:collapse;font-size:12px}
-.param-table th{text-align:left;padding:5px 9px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
-.param-table td{padding:5px 9px;border-bottom:1px solid rgba(51,65,85,.25)}
-table td,table th{transition:background .1s}
-.empty{text-align:center;padding:64px 40px;color:var(--text-4)}
-.empty-icon{font-size:32px;margin-bottom:10px;display:block;opacity:.25}
-.empty code{background:rgba(255,255,255,.05);padding:2px 7px;border-radius:4px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
-::-webkit-scrollbar{width:4px;height:4px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.07);border-radius:3px}
-</style>
-</head>
-<body>
-
-<header class="header">
-  <div class="logo">
-    <div class="logo-icon">◈</div>
-    <div><div class="logo-text">EvalView Check Report</div><div class="logo-sub">2026-03-18 08:00</div></div>
-  </div>
-  <div class="header-right">
-    <span class="badge b-red">✗ 1 Failed</span><span class="badge b-blue">5 Tests</span>
-  </div>
-</header>
-
-<main class="main">
-  <div class="tabbar">
-    <button class="tab on" onclick="show('overview',this)">Overview</button>
-    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
-    <button class="tab " onclick="show('diffs',this)">Diffs</button>
-    <button class="tab " onclick="show('timeline',this)">Timeline</button>
-    
-  </div>
-
-  <!-- ═══════════ OVERVIEW ═══════════ -->
-  <div id="p-overview" class="panel on">
-    
-
-    <!-- THE GAUGE -->
-    <div class="gauge-hero glow-green">
-      <div class="gauge-wrap">
-        <svg width="220" height="220" viewBox="0 0 220 220">
-          <!-- Track -->
-          <circle cx="110" cy="110" r="95" fill="none" stroke="rgba(255,255,255,.04)" stroke-width="12"/>
-          <!-- Tick marks -->
-          
-          <line x1="110.0" y1="22.0" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(0 110 110)"/>
-          
-          <line x1="137.64397905759162" y1="49.28" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(18 110 110)"/>
-          
-          <line x1="165.28795811518324" y1="77.44" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(36 110 110)"/>
-          
-          <line x1="192.9319371727749" y1="104.72" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(54 110 110)"/>
-          
-          <line x1="220.5759162303665" y1="132.88" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(72 110 110)"/>
-          
-          <line x1="248.2198952879581" y1="160.16" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(90 110 110)"/>
-          
-          <line x1="275.8638743455498" y1="187.44" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(108 110 110)"/>
-          
-          <line x1="303.5078534031414" y1="215.6" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(126 110 110)"/>
-          
-          <line x1="331.151832460733" y1="242.88" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(144 110 110)"/>
-          
-          <line x1="358.7958115183246" y1="271.04" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(162 110 110)"/>
-          
-          <line x1="386.4397905759162" y1="298.32000000000005" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(180 110 110)"/>
-          
-          <line x1="414.08376963350787" y1="326.48" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(198 110 110)"/>
-          
-          <line x1="441.7277486910995" y1="353.76" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(216 110 110)"/>
-          
-          <line x1="469.3717277486911" y1="381.04" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(234 110 110)"/>
-          
-          <line x1="497.01570680628276" y1="409.2" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(252 110 110)"/>
-          
-          <line x1="524.6596858638743" y1="436.48" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(270 110 110)"/>
-          
-          <line x1="552.303664921466" y1="464.64000000000004" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(288 110 110)"/>
-          
-          <line x1="579.9476439790576" y1="491.91999999999996" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(306 110 110)"/>
-          
-          <line x1="607.5916230366493" y1="519.2" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(324 110 110)"/>
-          
-          <line x1="635.2356020942409" y1="547.3599999999999" x2="110" y2="110"
-                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(342 110 110)"/>
-          
-          <!-- Fill arc -->
-          <circle class="gauge-fill" cx="110" cy="110" r="95" fill="none"
-            stroke="var(--green)"
-            stroke-width="12" stroke-linecap="round"
-            data-target="478.0"
-            style="stroke-dasharray:0 597;filter:drop-shadow(0 0 8px rgba(16,185,129,.4))"/>
-          <!-- Outer glow ring -->
-          <circle cx="110" cy="110" r="95" fill="none"
-            stroke="rgba(16,185,129,.06)"
-            stroke-width="28"/>
-        </svg>
-        <div class="gauge-center">
-          <div class="gauge-pct green">80.0%</div>
-          <div class="gauge-label">Pass Rate</div>
-        </div>
-      </div>
-      <div class="gauge-sub"><b>4</b> of <b>5</b> tests passing</div>
-    </div>
-
-    <!-- Stat strip -->
-    <div class="stat-strip">
-      <div class="ss">
-        <div class="ss-label">Avg Score</div>
-        <div class="ss-num" style="color:var(--yellow-bright)">79.7</div>
-        <div class="ss-sub">out of 100</div>
-      </div>
-      <div class="ss">
-        <div class="ss-label">Total Cost</div>
-        <div class="ss-num blue">$0.017</div>
-        <div class="ss-sub">2,835 tokens (verified)</div>
-      </div>
-      <div class="ss">
-        <div class="ss-label">Avg Latency</div>
-        <div class="ss-num">1360<span style="font-size:12px;color:var(--text-4);font-weight:500">ms</span></div>
-        <div class="ss-sub">per test</div>
-      </div>
-      <div class="ss">
-        <div class="ss-label">Model</div>
-        <div style="font-size:13px;font-weight:600;color:var(--text);margin-top:2px;line-height:1.3">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
-        
-        <div style="margin-top:4px;font-size:10px;color:var(--text-4);font-family:var(--mono)">in 2,170 · out 665</div>
-        
-      </div>
-    </div>
-
-    <!-- Meta cards -->
-    <div class="meta-row">
-      <div class="meta-card">
-        <div class="meta-label">Agent Model</div>
-        <div class="meta-value">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
-        <div class="meta-sub">5 tests in this run</div>
-      </div>
-      
-      <div class="meta-card">
-        <div class="meta-label">Token Usage</div>
-        <div class="meta-value">2,835 tokens</div>
-        <div class="meta-sub">in 2,170 / out 665</div>
-      </div>
-      
-    </div>
-    
-    
-    <div class="meta-row">
-      <div class="meta-card">
-        <div class="meta-label">EvalView Judge (gpt-4o-mini)</div>
-        <div class="meta-value">$0.006</div>
-        <div class="meta-sub">1,320 tokens across 5 judge calls</div>
-      </div>
-      <div class="meta-card">
-        <div class="meta-label">Judge Token Breakdown</div>
-        <div class="meta-value">in 1,100 / out 220</div>
-        <div class="meta-sub">Separate from agent trace cost</div>
-      </div>
-    </div>
-    
-
-    <!-- Score chart + donut -->
-    <div class="chart-row">
-      <div class="card">
-        <div class="card-title">Score per Test</div>
-        <div class="chart-wrap" style="height:224px"><canvas id="bars"></canvas></div>
-      </div>
-      <div class="card">
-        <div class="card-title">Distribution</div>
-        <div class="chart-wrap" style="height:180px"><canvas id="donut"></canvas></div>
-      </div>
-    </div>
-
-    <!-- Cost table -->
-    <div class="card">
-      <div class="card-title">Execution Cost per Query</div>
-      <table class="ev-table">
-        
-        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Tokens</th><th>Latency</th><th>Score</th></tr></thead>
-        <tbody>
-          <tr>
-            <td style="font-weight:600">refund-flow</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0034</td>
-            <td class="mono" style="color:var(--text-3)">570 tokens</td>
-            <td style="color:var(--text-3)">1200ms</td>
-            <td class="num" style="color:var(--green-bright)">92.5</td>
-          </tr><tr>
-            <td style="font-weight:600">order-lookup</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0021</td>
-            <td class="mono" style="color:var(--text-3)">415 tokens</td>
-            <td style="color:var(--text-3)">800ms</td>
-            <td class="num" style="color:var(--green-bright)">88.0</td>
-          </tr><tr>
-            <td style="font-weight:600">billing-dispute</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0058</td>
-            <td class="mono" style="color:var(--text-3)">890 tokens</td>
-            <td style="color:var(--text-3)">2400ms</td>
-            <td class="num" style="color:var(--red-bright)">45.0</td>
-          </tr><tr>
-            <td style="font-weight:600">password-reset</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0012</td>
-            <td class="mono" style="color:var(--text-3)">260 tokens</td>
-            <td style="color:var(--text-3)">600ms</td>
-            <td class="num" style="color:var(--green-bright)">95.0</td>
-          </tr><tr>
-            <td style="font-weight:600">vip-escalation</td>
-            <td class="mono" style="color:var(--text-4)">openai/claude-3.5-sonnet</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0045</td>
-            <td class="mono" style="color:var(--text-3)">700 tokens</td>
-            <td style="color:var(--text-3)">1800ms</td>
-            <td class="num" style="color:var(--yellow-bright)">78.0</td>
-          </tr>
-          <tr style="background:rgba(0,0,0,.08)">
-            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.017</td>
-            <td colspan="3" style="font-size:11px;color:var(--text-4)">avg $0.003400 per query</td>
-          </tr>
-        </tbody>
-      </table>
-      <div style="margin-top:10px;font-size:11px;color:var(--text-4);line-height:1.5">
-        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.04);padding:2px 6px;border-radius:3px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
-         This check also used 5 EvalView judge calls (1320 tokens).
-      </div>
-    </div>
-    
-  </div>
-
-  <!-- ═══════════ TRACE ═══════════ -->
-  <div id="p-trace" class="panel ">
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr1',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">refund-flow</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--green-bright)">92.5/100</span>
-            <span class="mc">💰 $0.0034</span>
-            <span class="mc">⚡ 1200ms</span>
-            <span class="mc">570 tokens</span>
-            <span class="mc">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr1" class="item-body" >
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 450 / out 120 tokens</span><span class="badge b-blue">$0.0034</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Process refund for order 4812
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Refund issued.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr2',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">order-lookup</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--green-bright)">88.0/100</span>
-            <span class="mc">💰 $0.0021</span>
-            <span class="mc">⚡ 800ms</span>
-            <span class="mc">415 tokens</span>
-            <span class="mc">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr2" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 320 / out 95 tokens</span><span class="badge b-blue">$0.0021</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Order status #7291
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Shipped.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr3',this)">
-          <span class="badge b-red">✗</span>
-          <span class="item-name">billing-dispute</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--red-bright)">45.0/100</span>
-            <span class="mc">💰 $0.0058</span>
-            <span class="mc">⚡ 2400ms</span>
-            <span class="mc">890 tokens</span>
-            <span class="mc">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr3" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 680 / out 210 tokens</span><span class="badge b-blue">$0.0058</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Dispute charge
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Not found.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr4',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">password-reset</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--green-bright)">95.0/100</span>
-            <span class="mc">💰 $0.0012</span>
-            <span class="mc">⚡ 600ms</span>
-            <span class="mc">260 tokens</span>
-            <span class="mc">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr4" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 200 / out 60 tokens</span><span class="badge b-blue">$0.0012</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Reset password
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Email sent.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr5',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">vip-escalation</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--yellow-bright)">78.0/100</span>
-            <span class="mc">💰 $0.0045</span>
-            <span class="mc">⚡ 1800ms</span>
-            <span class="mc">700 tokens</span>
-            <span class="mc">🧠 openai/claude-3.5-sonnet</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr5" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/claude-3.5-sonnet</span>
-            <span class="badge b-blue">in 520 / out 180 tokens</span><span class="badge b-blue">$0.0045</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>VIP leaving
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Escalated.
-          </div>
-        </div>
-      </div>
-    
-  </div>
-
-  <!-- ═══════════ DIFFS ═══════════ -->
-  <div id="p-diffs" class="panel ">
-    <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
-  </div>
-
-  <!-- ═══════════ TIMELINE ═══════════ -->
-  <div id="p-timeline" class="panel ">
-    <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
-  </div>
-
-  <!-- ═══════════ COMPARE ═══════════ -->
-  
-</main>
-
-<script>
-mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
-  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(37,99,235,.1)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(37,99,235,.25)',lineColor:'rgba(100,116,139,.3)',secondaryColor:'rgba(16,185,129,.06)',tertiaryColor:'rgba(6,182,212,.06)',noteBkgColor:'rgba(37,99,235,.05)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(37,99,235,.15)',actorBkg:'rgba(37,99,235,.08)',actorBorder:'rgba(37,99,235,.2)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
-  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:12,messageFontSize:11,noteFontSize:10,boxTextMargin:8,mirrorActors:false,messageAlign:'center',actorMargin:30,bottomMarginAdj:4}
-});
-function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
-function tog(id,head){const el=document.getElementById(id);const o=el.style.display!=='none';el.style.display=o?'none':'block';head.querySelector('.chevron').style.transform=o?'':'rotate(180deg)'}
-
-/* Animate the gauge on load */
-requestAnimationFrame(()=>{setTimeout(()=>{document.querySelectorAll('.gauge-fill').forEach(c=>{const t=c.dataset.target||0;c.style.strokeDasharray=t+' 597'})},100)});
-
-
-(function(){
-  const passed=4,failed=1;
-  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
-  const tc='rgba(100,116,139,.6)',gc='rgba(255,255,255,.025)';
-  const tt={backgroundColor:'rgba(6,11,24,.95)',borderColor:'rgba(51,65,85,.5)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:11},bodyFont:{family:'Inter',size:11},padding:8,cornerRadius:6};
-
-  new Chart(document.getElementById('donut'),{type:'doughnut',data:{labels:['Passed','Failed'],datasets:[{data:[passed,failed],backgroundColor:['rgba(16,185,129,.6)','rgba(239,68,68,.6)'],borderColor:['rgba(16,185,129,.08)','rgba(239,68,68,.08)'],borderWidth:2,hoverOffset:4}]},options:{responsive:true,maintainAspectRatio:false,cutout:'78%',plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:10,weight:'500'},padding:12,boxWidth:7,boxHeight:7,usePointStyle:true,pointStyle:'circle'}},tooltip:{...tt,callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}});
-
-  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
-  /* Warning stripes for low scores */
-  const barBg=sorted.map(s=>{
-    if(s.score>=80) return 'rgba(16,185,129,.35)';
-    if(s.score>=60) return 'rgba(245,158,11,.35)';
-    return 'rgba(239,68,68,.35)';
-  });
-  const barBorder=sorted.map(s=>{
-    if(s.score>=80) return 'rgba(16,185,129,.55)';
-    if(s.score>=60) return 'rgba(245,158,11,.55)';
-    return 'rgba(239,68,68,.55)';
-  });
-  new Chart(document.getElementById('bars'),{type:'bar',
-    data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),backgroundColor:barBg,borderColor:barBorder,borderWidth:1,borderRadius:3,borderSkipped:false,barPercentage:.55,categoryPercentage:.8}]},
-    options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,
-      scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:9},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.7)',font:{family:'Inter',size:11,weight:'600'},padding:4},border:{display:false}}},
-      plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
-})();
-
-
-
-
-
-</script>
-
-<!-- Share bar -->
-<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(6,11,24,.9);backdrop-filter:blur(16px);-webkit-backdrop-filter:blur(16px);border-top:1px solid var(--border);padding:8px 24px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:11px;color:var(--text-4)">
-  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:600">EvalView</a> <span style="opacity:.25;margin:0 5px">|</span> Agent testing &amp; regression detection</span>
-  <span style="display:flex;align-items:center;gap:5px">
-    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(29,155,240,.08);color:#1d9bf0;text-decoration:none;font-weight:600;font-size:10px;border:1px solid rgba(29,155,240,.1)"><svg width="12" height="12" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
-    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(255,255,255,.03);color:var(--text-2);text-decoration:none;font-weight:600;font-size:10px;border:1px solid var(--border)"><svg width="12" height="12" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
-  </span>
-</div>
-<div style="height:40px"></div>
-
-</body>
-</html>
\ No newline at end of file
diff --git a/.evalview/latest-v6.html b/.evalview/latest-v6.html
deleted file mode 100644
index aee40eb..0000000
--- a/.evalview/latest-v6.html
+++ /dev/null
@@ -1,616 +0,0 @@
-<!doctype html>
-<html lang="en">
-<head>
-<meta charset="UTF-8">
-<meta name="viewport" content="width=device-width, initial-scale=1.0">
-<title>EvalView Check Report</title>
-<link rel="preconnect" href="https://fonts.googleapis.com">
-<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
-<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
-<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
-<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
-<style>
-*{box-sizing:border-box;margin:0;padding:0}
-:root{
-  --green:#10b981;--green-bright:#34d399;
-  --red:#ef4444;--red-bright:#f87171;
-  --yellow:#f59e0b;--yellow-bright:#fbbf24;
-  --blue:#2563eb;--blue-bright:#3b82f6;
-  --teal:#0d9488;--teal-bright:#14b8a6;
-  --cyan:#06b6d4;
-  --bg:#060b18;--bg-card:rgba(12,20,36,.75);
-  --border:rgba(51,65,85,.45);--border-light:rgba(71,85,105,.5);
-  --text:#f1f5f9;--text-2:#94a3b8;--text-3:#64748b;--text-4:#475569;
-  --r:16px;--r-sm:12px;--r-xs:8px;
-  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
-  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
-}
-html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
-body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;background:var(--bg)}
-
-/* ── Header ── */
-.header{
-  position:sticky;top:0;z-index:200;
-  background:rgba(6,11,24,.85);border-bottom:1px solid var(--border);
-  backdrop-filter:blur(20px);-webkit-backdrop-filter:blur(20px);
-  padding:0 40px;height:52px;display:flex;align-items:center;justify-content:space-between;
-}
-.logo{display:flex;align-items:center;gap:10px}
-.logo-icon{width:28px;height:28px;border-radius:7px;flex-shrink:0;background:linear-gradient(135deg,var(--blue-bright),var(--teal));display:flex;align-items:center;justify-content:center;font-size:13px;box-shadow:0 2px 10px rgba(37,99,235,.2)}
-.logo-text{font-size:14px;font-weight:700;letter-spacing:-.02em;color:var(--text)}
-.logo-sub{font-size:10px;color:var(--text-4);font-weight:400}
-.header-right{display:flex;align-items:center;gap:6px}
-
-/* ── Badges ── */
-.badge{display:inline-flex;align-items:center;gap:4px;padding:3px 10px;border-radius:20px;font-size:11px;font-weight:600;white-space:nowrap}
-.b-green{background:rgba(16,185,129,.12);color:var(--green-bright);border:1px solid rgba(16,185,129,.25)}
-.b-red{background:rgba(239,68,68,.12);color:var(--red-bright);border:1px solid rgba(239,68,68,.25)}
-.b-yellow{background:rgba(245,158,11,.12);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.25)}
-.b-blue{background:rgba(37,99,235,.12);color:var(--blue-bright);border:1px solid rgba(37,99,235,.25)}
-.b-purple{background:rgba(13,148,136,.12);color:var(--teal-bright);border:1px solid rgba(13,148,136,.25)}
-
-/* ── Layout ── */
-.main{max-width:1160px;margin:0 auto;padding:28px 36px 80px;position:relative;z-index:1}
-
-/* ── Tabs ── */
-.tabbar{display:flex;gap:0;background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:3px;margin-bottom:28px}
-.tab{flex:1;text-align:center;background:none;border:none;color:var(--text-4);cursor:pointer;font:600 12px/1 var(--font);padding:10px 12px;border-radius:9px;transition:all .15s}
-.tab:hover{color:var(--text-2);background:rgba(255,255,255,.03)}
-.tab.on{color:#fff;background:rgba(37,99,235,.18);border:1px solid rgba(37,99,235,.3)}
-.panel{display:none}.panel.on{display:block}
-
-/* ══════════════════════════════════════════════
-   HERO ROW — gauge + stats, all above the fold
-   ══════════════════════════════════════════════ */
-.hero-row{
-  display:grid;grid-template-columns:auto 1fr;gap:0;
-  background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);
-  overflow:hidden;margin-bottom:20px;
-}
-@media(max-width:800px){.hero-row{grid-template-columns:1fr}}
-/* Gauge cell */
-.gauge-cell{
-  padding:24px 32px;display:flex;flex-direction:column;align-items:center;justify-content:center;
-  position:relative;border-right:1px solid var(--border);
-}
-.gauge-cell::before{
-  content:'';position:absolute;top:50%;left:50%;transform:translate(-50%,-50%);
-  width:200px;height:200px;border-radius:50%;pointer-events:none;filter:blur(60px);opacity:.5;
-}
-.gauge-cell.glow-green::before{background:rgba(16,185,129,.12)}
-.gauge-cell.glow-red::before{background:rgba(239,68,68,.12)}
-.gauge-cell.glow-yellow::before{background:rgba(245,158,11,.1)}
-.gauge-wrap{position:relative;width:140px;height:140px}
-.gauge-wrap svg{display:block}
-.gauge-center{position:absolute;inset:0;display:flex;flex-direction:column;align-items:center;justify-content:center}
-.gauge-pct{font-size:36px;font-weight:900;letter-spacing:-.05em;line-height:1}
-.gauge-pct.green{color:var(--green-bright)}
-.gauge-pct.red{color:var(--red-bright)}
-.gauge-pct.yellow{color:var(--yellow-bright)}
-.gauge-label{font-size:9px;font-weight:700;color:var(--text-3);margin-top:3px;text-transform:uppercase;letter-spacing:.08em}
-.gauge-sub{font-size:12px;color:var(--text-3);margin-top:10px;font-weight:500;text-align:center}
-.gauge-sub b{color:var(--text);font-weight:700}
-.gauge-fill{transition:stroke-dasharray 1.2s cubic-bezier(.4,0,.2,1);stroke-dasharray:0 999}
-/* Stats grid — right side */
-.stats-grid{display:grid;grid-template-columns:1fr 1fr;grid-template-rows:1fr 1fr}
-.stats-grid .ss{padding:16px 20px;border-bottom:1px solid var(--border)}
-.stats-grid .ss:nth-child(odd){border-right:1px solid var(--border)}
-.stats-grid .ss:nth-child(n+3){border-bottom:none}
-.ss-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:6px}
-.ss-num{font-size:22px;font-weight:800;letter-spacing:-.03em;line-height:1;color:var(--text)}
-.ss-num.blue{color:var(--blue-bright)}
-.ss-sub{font-size:11px;color:var(--text-4);margin-top:4px;font-weight:500;line-height:1.3}
-
-/* ── Card ── */
-.card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);padding:20px 22px;margin-bottom:14px;position:relative;overflow:hidden}
-.card-title{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:14px;display:flex;align-items:center;gap:7px}
-.card-title::before{content:'';width:3px;height:11px;border-radius:2px;background:var(--blue-bright)}
-.chart-wrap{position:relative}
-
-/* ── Meta row ── */
-.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-bottom:14px}
-@media(max-width:800px){.meta-row{grid-template-columns:1fr}}
-.meta-card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:14px 18px}
-.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:5px}
-.meta-value{font-size:14px;font-weight:700;color:var(--text)}
-.meta-sub{font-size:11px;color:var(--text-4);margin-top:3px}
-
-/* ── Chart row ── */
-.chart-row{display:grid;grid-template-columns:1fr 200px;gap:12px;margin-bottom:14px}
-@media(max-width:800px){.chart-row{grid-template-columns:1fr}}
-
-/* ── Trace items ── */
-.item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden;transition:border-color .15s}
-.item:hover{border-color:var(--border-light)}
-.item-head{padding:12px 18px;display:flex;align-items:center;gap:10px;cursor:pointer;transition:background .1s}
-.item-head:hover{background:rgba(255,255,255,.015)}
-.item-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
-.item-meta{display:flex;align-items:center;gap:5px;flex-shrink:0;flex-wrap:wrap}
-.mc{display:inline-flex;align-items:center;gap:3px;padding:2px 7px;border-radius:4px;background:rgba(255,255,255,.035);font-size:10px;font-weight:500;color:var(--text-3);white-space:nowrap}
-.chevron{color:var(--text-4);font-size:10px;transition:transform .2s;flex-shrink:0}
-details[open] .turn-chevron{transform:rotate(90deg)}
-.item-body{padding:18px;border-top:1px solid var(--border);background:rgba(0,0,0,.12)}
-.mermaid-box{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-sm);padding:24px 18px;overflow-x:auto;min-height:180px}
-.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
-.mermaid-box .mermaid{min-width:560px}
-
-/* ── Chat turns ── */
-.chat-container{margin-top:16px;padding:14px;background:rgba(0,0,0,.1);border:1px solid rgba(51,65,85,.25);border-radius:var(--r-sm)}
-.chat-header{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:12px;padding-bottom:8px;border-bottom:1px solid rgba(51,65,85,.25)}
-.chat-messages{display:flex;flex-direction:column;gap:3px}
-.chat-bubble{max-width:78%;padding:9px 13px;font-size:13px;line-height:1.5;border-radius:12px}
-.chat-bubble.user{align-self:flex-end;background:rgba(37,99,235,.1);border:1px solid rgba(37,99,235,.18);color:var(--text);border-bottom-right-radius:3px}
-.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.025);border:1px solid rgba(51,65,85,.35);color:var(--text-2);border-bottom-left-radius:3px}
-.chat-meta{display:flex;align-items:center;gap:6px;padding:4px 2px;font-size:10px;color:var(--text-4);font-weight:500}
-.chat-meta.right{justify-content:flex-end}
-.chat-tool-tag{display:inline-flex;padding:1px 6px;border-radius:3px;background:rgba(37,99,235,.07);border:1px solid rgba(37,99,235,.12);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
-.chat-eval{padding:5px 9px;border-radius:6px;font-size:11px;font-weight:600;max-width:78%}
-.chat-eval.pass{align-self:flex-start;background:rgba(16,185,129,.07);border:1px solid rgba(16,185,129,.18);color:var(--green-bright)}
-.chat-eval.fail{align-self:flex-start;background:rgba(239,68,68,.07);border:1px solid rgba(239,68,68,.18);color:var(--red-bright)}
-
-/* ── Diffs ── */
-.diff-item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden}
-.diff-head{padding:12px 18px;display:flex;align-items:center;gap:8px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
-.diff-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
-.diff-cols{display:grid;grid-template-columns:1fr 1fr}
-.diff-col{padding:14px 18px}
-.diff-col+.diff-col{border-left:1px solid var(--border)}
-.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;margin-bottom:7px}
-.tags{display:flex;flex-wrap:wrap;gap:3px;margin-bottom:7px}
-.tag{background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);border-radius:4px;padding:2px 7px;font-size:11px;font-family:var(--mono);font-weight:500}
-.tag.add{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
-.tag.rem{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
-.outbox{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:10px;font:12px/1.6 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:180px;overflow-y:auto}
-.difflines{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:8px;font:11px/1.6 var(--mono);max-height:180px;overflow-y:auto;margin-top:7px}
-.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
-.difflines .r{color:var(--red-bright);background:rgba(239,68,68,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
-.sim{display:inline-flex;align-items:center;gap:4px;font-size:11px;color:var(--text-3)}
-.sim-track{width:40px;height:3px;background:rgba(255,255,255,.06);border-radius:2px;overflow:hidden;display:inline-block;vertical-align:middle}
-.sim-fill{height:100%;border-radius:2px}
-.sim-fill.hi{background:var(--green)}.sim-fill.mid{background:var(--yellow)}.sim-fill.lo{background:var(--red)}
-.pipeline{display:flex;flex-direction:column;gap:5px;padding:12px 18px;border-top:1px solid var(--border)}
-.pipeline-row{display:flex;align-items:center;gap:3px;flex-wrap:wrap}
-.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;width:60px;flex-shrink:0}
-.pipe-step{display:inline-flex;padding:3px 9px;border-radius:4px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);color:var(--text-2);position:relative}
-.pipe-step+.pipe-step{margin-left:5px}
-.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-12px;color:var(--text-4);font-size:9px;font-family:var(--font)}
-.pipe-step.match{border-color:rgba(37,99,235,.2);background:rgba(37,99,235,.04)}
-.pipe-step.added{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
-.pipe-step.removed{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
-.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:10px;margin-top:12px;padding-top:12px;border-top:1px solid var(--border)}
-.traj-col .col-title{padding-bottom:6px}
-
-/* ── Tables ── */
-.ev-table{width:100%;border-collapse:collapse;font-size:13px}
-.ev-table th{text-align:left;padding:7px 10px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
-.ev-table td{padding:9px 10px;border-bottom:1px solid rgba(51,65,85,.25)}
-.ev-table tr:hover td{background:rgba(255,255,255,.012)}
-.ev-table .mono{font-family:var(--mono);font-size:12px}
-.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
-.param-table{width:100%;border-collapse:collapse;font-size:12px}
-.param-table th{text-align:left;padding:5px 9px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
-.param-table td{padding:5px 9px;border-bottom:1px solid rgba(51,65,85,.25)}
-table td,table th{transition:background .1s}
-.empty{text-align:center;padding:64px 40px;color:var(--text-4)}
-.empty-icon{font-size:32px;margin-bottom:10px;display:block;opacity:.25}
-.empty code{background:rgba(255,255,255,.05);padding:2px 7px;border-radius:4px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
-::-webkit-scrollbar{width:4px;height:4px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.07);border-radius:3px}
-</style>
-</head>
-<body>
-
-<header class="header">
-  <div class="logo">
-    <div class="logo-icon">◈</div>
-    <div><div class="logo-text">EvalView Check Report</div><div class="logo-sub">2026-03-18 09:25</div></div>
-  </div>
-  <div class="header-right">
-    <span class="badge b-red">✗ 1 Failed</span><span class="badge b-blue">5 Tests</span>
-  </div>
-</header>
-
-<main class="main">
-  <div class="tabbar">
-    <button class="tab on" onclick="show('overview',this)">Overview</button>
-    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
-    <button class="tab " onclick="show('diffs',this)">Diffs</button>
-    <button class="tab " onclick="show('timeline',this)">Timeline</button>
-    
-  </div>
-
-  <!-- ═══════════ OVERVIEW ═══════════ -->
-  <div id="p-overview" class="panel on">
-    
-
-    <!-- HERO: Gauge + Stats in one row -->
-    <div class="hero-row">
-      <div class="gauge-cell glow-green">
-        <div class="gauge-wrap">
-          <svg width="140" height="140" viewBox="0 0 140 140">
-            <circle cx="70" cy="70" r="60" fill="none" stroke="rgba(255,255,255,.04)" stroke-width="8"/>
-            <circle class="gauge-fill" cx="70" cy="70" r="60" fill="none"
-              stroke="var(--green)"
-              stroke-width="8" stroke-linecap="round"
-              data-target="302.0"
-              style="stroke-dasharray:0 377;filter:drop-shadow(0 0 6px rgba(16,185,129,.35))"/>
-          </svg>
-          <div class="gauge-center">
-            <div class="gauge-pct green">80.0%</div>
-            <div class="gauge-label">Pass Rate</div>
-          </div>
-        </div>
-        <div class="gauge-sub"><b>4</b> of <b>5</b> tests</div>
-      </div>
-      <div class="stats-grid">
-        <div class="ss">
-          <div class="ss-label">Avg Score</div>
-          <div class="ss-num" style="color:var(--yellow-bright)">79.7</div>
-          <div class="ss-sub">out of 100</div>
-        </div>
-        <div class="ss">
-          <div class="ss-label">Total Cost</div>
-          <div class="ss-num blue">$0.017</div>
-          <div class="ss-sub">2,835 tokens (verified)</div>
-        </div>
-        <div class="ss">
-          <div class="ss-label">Avg Latency</div>
-          <div class="ss-num">1360<span style="font-size:12px;color:var(--text-4);font-weight:500">ms</span></div>
-          <div class="ss-sub">per test</div>
-        </div>
-        <div class="ss">
-          <div class="ss-label">Model</div>
-          <div style="font-size:13px;font-weight:600;color:var(--text);margin-top:2px;line-height:1.3">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
-          
-          <div style="margin-top:4px;font-size:10px;color:var(--text-4);font-family:var(--mono)">in 2,170 · out 665</div>
-          
-        </div>
-      </div>
-    </div>
-
-    <!-- Meta cards -->
-    <div class="meta-row">
-      <div class="meta-card">
-        <div class="meta-label">Agent Model</div>
-        <div class="meta-value">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
-        <div class="meta-sub">5 tests in this run</div>
-      </div>
-      
-      <div class="meta-card">
-        <div class="meta-label">Token Usage</div>
-        <div class="meta-value">2,835 tokens</div>
-        <div class="meta-sub">in 2,170 / out 665</div>
-      </div>
-      
-    </div>
-    
-    
-    <div class="meta-row">
-      <div class="meta-card">
-        <div class="meta-label">EvalView Judge (gpt-4o-mini)</div>
-        <div class="meta-value">$0.006</div>
-        <div class="meta-sub">1,320 tokens across 5 judge calls</div>
-      </div>
-      <div class="meta-card">
-        <div class="meta-label">Judge Token Breakdown</div>
-        <div class="meta-value">in 1,100 / out 220</div>
-        <div class="meta-sub">Separate from agent trace cost</div>
-      </div>
-    </div>
-    
-
-    <!-- Score chart + donut -->
-    <div class="chart-row">
-      <div class="card">
-        <div class="card-title">Score per Test</div>
-        <div class="chart-wrap" style="height:224px"><canvas id="bars"></canvas></div>
-      </div>
-      <div class="card">
-        <div class="card-title">Distribution</div>
-        <div class="chart-wrap" style="height:180px"><canvas id="donut"></canvas></div>
-      </div>
-    </div>
-
-    <!-- Cost table -->
-    <div class="card">
-      <div class="card-title">Execution Cost per Query</div>
-      <table class="ev-table">
-        
-        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Tokens</th><th>Latency</th><th>Score</th></tr></thead>
-        <tbody>
-          <tr>
-            <td style="font-weight:600">refund-flow</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0034</td>
-            <td class="mono" style="color:var(--text-3)">570 tokens</td>
-            <td style="color:var(--text-3)">1200ms</td>
-            <td class="num" style="color:var(--green-bright)">92.5</td>
-          </tr><tr>
-            <td style="font-weight:600">order-lookup</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0021</td>
-            <td class="mono" style="color:var(--text-3)">415 tokens</td>
-            <td style="color:var(--text-3)">800ms</td>
-            <td class="num" style="color:var(--green-bright)">88.0</td>
-          </tr><tr>
-            <td style="font-weight:600">billing-dispute</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0058</td>
-            <td class="mono" style="color:var(--text-3)">890 tokens</td>
-            <td style="color:var(--text-3)">2400ms</td>
-            <td class="num" style="color:var(--red-bright)">45.0</td>
-          </tr><tr>
-            <td style="font-weight:600">password-reset</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0012</td>
-            <td class="mono" style="color:var(--text-3)">260 tokens</td>
-            <td style="color:var(--text-3)">600ms</td>
-            <td class="num" style="color:var(--green-bright)">95.0</td>
-          </tr><tr>
-            <td style="font-weight:600">vip-escalation</td>
-            <td class="mono" style="color:var(--text-4)">openai/claude-3.5-sonnet</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0045</td>
-            <td class="mono" style="color:var(--text-3)">700 tokens</td>
-            <td style="color:var(--text-3)">1800ms</td>
-            <td class="num" style="color:var(--yellow-bright)">78.0</td>
-          </tr>
-          <tr style="background:rgba(0,0,0,.08)">
-            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.017</td>
-            <td colspan="3" style="font-size:11px;color:var(--text-4)">avg $0.003400 per query</td>
-          </tr>
-        </tbody>
-      </table>
-      <div style="margin-top:10px;font-size:11px;color:var(--text-4);line-height:1.5">
-        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.04);padding:2px 6px;border-radius:3px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
-         This check also used 5 EvalView judge calls (1320 tokens).
-      </div>
-    </div>
-    
-  </div>
-
-  <!-- ═══════════ TRACE ═══════════ -->
-  <div id="p-trace" class="panel ">
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr1',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">refund-flow</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--green-bright)">92.5/100</span>
-            <span class="mc">💰 $0.0034</span>
-            <span class="mc">⚡ 1200ms</span>
-            <span class="mc">570 tokens</span>
-            <span class="mc">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr1" class="item-body" >
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 450 / out 120 tokens</span><span class="badge b-blue">$0.0034</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Process refund
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Done.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr2',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">order-lookup</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--green-bright)">88.0/100</span>
-            <span class="mc">💰 $0.0021</span>
-            <span class="mc">⚡ 800ms</span>
-            <span class="mc">415 tokens</span>
-            <span class="mc">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr2" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 320 / out 95 tokens</span><span class="badge b-blue">$0.0021</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Order status
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Shipped.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr3',this)">
-          <span class="badge b-red">✗</span>
-          <span class="item-name">billing-dispute</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--red-bright)">45.0/100</span>
-            <span class="mc">💰 $0.0058</span>
-            <span class="mc">⚡ 2400ms</span>
-            <span class="mc">890 tokens</span>
-            <span class="mc">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr3" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 680 / out 210 tokens</span><span class="badge b-blue">$0.0058</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Dispute
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Not found.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr4',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">password-reset</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--green-bright)">95.0/100</span>
-            <span class="mc">💰 $0.0012</span>
-            <span class="mc">⚡ 600ms</span>
-            <span class="mc">260 tokens</span>
-            <span class="mc">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr4" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 200 / out 60 tokens</span><span class="badge b-blue">$0.0012</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Reset pw
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Sent.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr5',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">vip-escalation</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--yellow-bright)">78.0/100</span>
-            <span class="mc">💰 $0.0045</span>
-            <span class="mc">⚡ 1800ms</span>
-            <span class="mc">700 tokens</span>
-            <span class="mc">🧠 openai/claude-3.5-sonnet</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr5" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/claude-3.5-sonnet</span>
-            <span class="badge b-blue">in 520 / out 180 tokens</span><span class="badge b-blue">$0.0045</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>VIP
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Escalated.
-          </div>
-        </div>
-      </div>
-    
-  </div>
-
-  <!-- ═══════════ DIFFS ═══════════ -->
-  <div id="p-diffs" class="panel ">
-    <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
-  </div>
-
-  <!-- ═══════════ TIMELINE ═══════════ -->
-  <div id="p-timeline" class="panel ">
-    <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
-  </div>
-
-  <!-- ═══════════ COMPARE ═══════════ -->
-  
-</main>
-
-<script>
-mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
-  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(37,99,235,.1)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(37,99,235,.25)',lineColor:'rgba(100,116,139,.3)',secondaryColor:'rgba(16,185,129,.06)',tertiaryColor:'rgba(6,182,212,.06)',noteBkgColor:'rgba(37,99,235,.05)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(37,99,235,.15)',actorBkg:'rgba(37,99,235,.08)',actorBorder:'rgba(37,99,235,.2)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
-  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:12,messageFontSize:11,noteFontSize:10,boxTextMargin:8,mirrorActors:false,messageAlign:'center',actorMargin:30,bottomMarginAdj:4}
-});
-function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
-function tog(id,head){const el=document.getElementById(id);const o=el.style.display!=='none';el.style.display=o?'none':'block';head.querySelector('.chevron').style.transform=o?'':'rotate(180deg)'}
-
-/* Animate the gauge on load */
-requestAnimationFrame(()=>{setTimeout(()=>{document.querySelectorAll('.gauge-fill').forEach(c=>{const t=c.dataset.target||0;c.style.strokeDasharray=t+' 377'})},100)});
-
-
-(function(){
-  const passed=4,failed=1;
-  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
-  const tc='rgba(100,116,139,.6)',gc='rgba(255,255,255,.025)';
-  const tt={backgroundColor:'rgba(6,11,24,.95)',borderColor:'rgba(51,65,85,.5)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:11},bodyFont:{family:'Inter',size:11},padding:8,cornerRadius:6};
-
-  new Chart(document.getElementById('donut'),{type:'doughnut',data:{labels:['Passed','Failed'],datasets:[{data:[passed,failed],backgroundColor:['rgba(16,185,129,.6)','rgba(239,68,68,.6)'],borderColor:['rgba(16,185,129,.08)','rgba(239,68,68,.08)'],borderWidth:2,hoverOffset:4}]},options:{responsive:true,maintainAspectRatio:false,cutout:'78%',plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:10,weight:'500'},padding:12,boxWidth:7,boxHeight:7,usePointStyle:true,pointStyle:'circle'}},tooltip:{...tt,callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}});
-
-  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
-  /* Warning stripes for low scores */
-  const barBg=sorted.map(s=>{
-    if(s.score>=80) return 'rgba(16,185,129,.35)';
-    if(s.score>=60) return 'rgba(245,158,11,.35)';
-    return 'rgba(239,68,68,.35)';
-  });
-  const barBorder=sorted.map(s=>{
-    if(s.score>=80) return 'rgba(16,185,129,.55)';
-    if(s.score>=60) return 'rgba(245,158,11,.55)';
-    return 'rgba(239,68,68,.55)';
-  });
-  new Chart(document.getElementById('bars'),{type:'bar',
-    data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),backgroundColor:barBg,borderColor:barBorder,borderWidth:1,borderRadius:3,borderSkipped:false,barPercentage:.55,categoryPercentage:.8}]},
-    options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,
-      scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:9},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.7)',font:{family:'Inter',size:11,weight:'600'},padding:4},border:{display:false}}},
-      plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
-})();
-
-
-
-
-
-</script>
-
-<!-- Share bar -->
-<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(6,11,24,.9);backdrop-filter:blur(16px);-webkit-backdrop-filter:blur(16px);border-top:1px solid var(--border);padding:8px 24px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:11px;color:var(--text-4)">
-  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:600">EvalView</a> <span style="opacity:.25;margin:0 5px">|</span> Agent testing &amp; regression detection</span>
-  <span style="display:flex;align-items:center;gap:5px">
-    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(29,155,240,.08);color:#1d9bf0;text-decoration:none;font-weight:600;font-size:10px;border:1px solid rgba(29,155,240,.1)"><svg width="12" height="12" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
-    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(255,255,255,.03);color:var(--text-2);text-decoration:none;font-weight:600;font-size:10px;border:1px solid var(--border)"><svg width="12" height="12" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
-  </span>
-</div>
-<div style="height:40px"></div>
-
-</body>
-</html>
\ No newline at end of file
diff --git a/.evalview/latest-v6b.html b/.evalview/latest-v6b.html
deleted file mode 100644
index e6e050e..0000000
--- a/.evalview/latest-v6b.html
+++ /dev/null
@@ -1,616 +0,0 @@
-<!doctype html>
-<html lang="en">
-<head>
-<meta charset="UTF-8">
-<meta name="viewport" content="width=device-width, initial-scale=1.0">
-<title>EvalView Check Report</title>
-<link rel="preconnect" href="https://fonts.googleapis.com">
-<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
-<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
-<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
-<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
-<style>
-*{box-sizing:border-box;margin:0;padding:0}
-:root{
-  --green:#10b981;--green-bright:#34d399;
-  --red:#ef4444;--red-bright:#f87171;
-  --yellow:#f59e0b;--yellow-bright:#fbbf24;
-  --blue:#2563eb;--blue-bright:#3b82f6;
-  --teal:#0d9488;--teal-bright:#14b8a6;
-  --cyan:#06b6d4;
-  --bg:#060b18;--bg-card:rgba(12,20,36,.75);
-  --border:rgba(51,65,85,.45);--border-light:rgba(71,85,105,.5);
-  --text:#f1f5f9;--text-2:#94a3b8;--text-3:#64748b;--text-4:#475569;
-  --r:16px;--r-sm:12px;--r-xs:8px;
-  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
-  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
-}
-html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
-body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;background:var(--bg)}
-
-/* ── Header ── */
-.header{
-  position:sticky;top:0;z-index:200;
-  background:rgba(6,11,24,.85);border-bottom:1px solid var(--border);
-  backdrop-filter:blur(20px);-webkit-backdrop-filter:blur(20px);
-  padding:0 40px;height:52px;display:flex;align-items:center;justify-content:space-between;
-}
-.logo{display:flex;align-items:center;gap:10px}
-.logo-icon{width:28px;height:28px;border-radius:7px;flex-shrink:0;background:linear-gradient(135deg,var(--blue-bright),var(--teal));display:flex;align-items:center;justify-content:center;font-size:13px;box-shadow:0 2px 10px rgba(37,99,235,.2)}
-.logo-text{font-size:14px;font-weight:700;letter-spacing:-.02em;color:var(--text)}
-.logo-sub{font-size:10px;color:var(--text-4);font-weight:400}
-.header-right{display:flex;align-items:center;gap:6px}
-
-/* ── Badges ── */
-.badge{display:inline-flex;align-items:center;gap:4px;padding:3px 10px;border-radius:20px;font-size:11px;font-weight:600;white-space:nowrap}
-.b-green{background:rgba(16,185,129,.12);color:var(--green-bright);border:1px solid rgba(16,185,129,.25)}
-.b-red{background:rgba(239,68,68,.12);color:var(--red-bright);border:1px solid rgba(239,68,68,.25)}
-.b-yellow{background:rgba(245,158,11,.12);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.25)}
-.b-blue{background:rgba(37,99,235,.12);color:var(--blue-bright);border:1px solid rgba(37,99,235,.25)}
-.b-purple{background:rgba(13,148,136,.12);color:var(--teal-bright);border:1px solid rgba(13,148,136,.25)}
-
-/* ── Layout ── */
-.main{max-width:1160px;margin:0 auto;padding:28px 36px 80px;position:relative;z-index:1}
-
-/* ── Tabs ── */
-.tabbar{display:flex;gap:0;background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:3px;margin-bottom:28px}
-.tab{flex:1;text-align:center;background:none;border:none;color:var(--text-4);cursor:pointer;font:600 12px/1 var(--font);padding:10px 12px;border-radius:9px;transition:all .15s}
-.tab:hover{color:var(--text-2);background:rgba(255,255,255,.03)}
-.tab.on{color:#fff;background:rgba(37,99,235,.18);border:1px solid rgba(37,99,235,.3)}
-.panel{display:none}.panel.on{display:block}
-
-/* ══════════════════════════════════════════════
-   HERO ROW — gauge + stats, all above the fold
-   ══════════════════════════════════════════════ */
-.hero-row{
-  display:grid;grid-template-columns:auto 1fr;gap:0;
-  background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);
-  overflow:hidden;margin-bottom:20px;
-}
-@media(max-width:800px){.hero-row{grid-template-columns:1fr}}
-/* Gauge cell */
-.gauge-cell{
-  padding:24px 32px;display:flex;flex-direction:column;align-items:center;justify-content:center;
-  position:relative;border-right:1px solid var(--border);
-}
-.gauge-cell::before{
-  content:'';position:absolute;top:50%;left:50%;transform:translate(-50%,-50%);
-  width:200px;height:200px;border-radius:50%;pointer-events:none;filter:blur(60px);opacity:.5;
-}
-.gauge-cell.glow-green::before{background:rgba(16,185,129,.12)}
-.gauge-cell.glow-red::before{background:rgba(239,68,68,.12)}
-.gauge-cell.glow-yellow::before{background:rgba(245,158,11,.1)}
-.gauge-wrap{position:relative;width:160px;height:160px}
-.gauge-wrap svg{display:block}
-.gauge-center{position:absolute;inset:0;display:flex;flex-direction:column;align-items:center;justify-content:center}
-.gauge-pct{font-size:40px;font-weight:900;letter-spacing:-.05em;line-height:1}
-.gauge-pct.green{color:var(--green-bright)}
-.gauge-pct.red{color:var(--red-bright)}
-.gauge-pct.yellow{color:var(--yellow-bright)}
-.gauge-label{font-size:9px;font-weight:700;color:var(--text-3);margin-top:3px;text-transform:uppercase;letter-spacing:.08em}
-.gauge-sub{font-size:12px;color:var(--text-3);margin-top:10px;font-weight:500;text-align:center}
-.gauge-sub b{color:var(--text);font-weight:700}
-.gauge-fill{transition:stroke-dasharray 1.2s cubic-bezier(.4,0,.2,1);stroke-dasharray:0 999}
-/* Stats grid — right side */
-.stats-grid{display:grid;grid-template-columns:1fr 1fr;grid-template-rows:1fr 1fr}
-.stats-grid .ss{padding:16px 20px;border-bottom:1px solid var(--border)}
-.stats-grid .ss:nth-child(odd){border-right:1px solid var(--border)}
-.stats-grid .ss:nth-child(n+3){border-bottom:none}
-.ss-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:6px}
-.ss-num{font-size:22px;font-weight:800;letter-spacing:-.03em;line-height:1;color:var(--text)}
-.ss-num.blue{color:var(--blue-bright)}
-.ss-sub{font-size:11px;color:var(--text-4);margin-top:4px;font-weight:500;line-height:1.3}
-
-/* ── Card ── */
-.card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);padding:20px 22px;margin-bottom:14px;position:relative;overflow:hidden}
-.card-title{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:14px;display:flex;align-items:center;gap:7px}
-.card-title::before{content:'';width:3px;height:11px;border-radius:2px;background:var(--blue-bright)}
-.chart-wrap{position:relative}
-
-/* ── Meta row ── */
-.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-bottom:14px}
-@media(max-width:800px){.meta-row{grid-template-columns:1fr}}
-.meta-card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:14px 18px}
-.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:5px}
-.meta-value{font-size:14px;font-weight:700;color:var(--text)}
-.meta-sub{font-size:11px;color:var(--text-4);margin-top:3px}
-
-/* ── Chart row ── */
-.chart-row{display:grid;grid-template-columns:1fr 200px;gap:12px;margin-bottom:14px}
-@media(max-width:800px){.chart-row{grid-template-columns:1fr}}
-
-/* ── Trace items ── */
-.item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden;transition:border-color .15s}
-.item:hover{border-color:var(--border-light)}
-.item-head{padding:12px 18px;display:flex;align-items:center;gap:10px;cursor:pointer;transition:background .1s}
-.item-head:hover{background:rgba(255,255,255,.015)}
-.item-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
-.item-meta{display:flex;align-items:center;gap:5px;flex-shrink:0;flex-wrap:wrap}
-.mc{display:inline-flex;align-items:center;gap:3px;padding:2px 7px;border-radius:4px;background:rgba(255,255,255,.035);font-size:10px;font-weight:500;color:var(--text-3);white-space:nowrap}
-.chevron{color:var(--text-4);font-size:10px;transition:transform .2s;flex-shrink:0}
-details[open] .turn-chevron{transform:rotate(90deg)}
-.item-body{padding:18px;border-top:1px solid var(--border);background:rgba(0,0,0,.12)}
-.mermaid-box{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-sm);padding:24px 18px;overflow-x:auto;min-height:180px}
-.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
-.mermaid-box .mermaid{min-width:560px}
-
-/* ── Chat turns ── */
-.chat-container{margin-top:16px;padding:14px;background:rgba(0,0,0,.1);border:1px solid rgba(51,65,85,.25);border-radius:var(--r-sm)}
-.chat-header{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:12px;padding-bottom:8px;border-bottom:1px solid rgba(51,65,85,.25)}
-.chat-messages{display:flex;flex-direction:column;gap:3px}
-.chat-bubble{max-width:78%;padding:9px 13px;font-size:13px;line-height:1.5;border-radius:12px}
-.chat-bubble.user{align-self:flex-end;background:rgba(37,99,235,.1);border:1px solid rgba(37,99,235,.18);color:var(--text);border-bottom-right-radius:3px}
-.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.025);border:1px solid rgba(51,65,85,.35);color:var(--text-2);border-bottom-left-radius:3px}
-.chat-meta{display:flex;align-items:center;gap:6px;padding:4px 2px;font-size:10px;color:var(--text-4);font-weight:500}
-.chat-meta.right{justify-content:flex-end}
-.chat-tool-tag{display:inline-flex;padding:1px 6px;border-radius:3px;background:rgba(37,99,235,.07);border:1px solid rgba(37,99,235,.12);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
-.chat-eval{padding:5px 9px;border-radius:6px;font-size:11px;font-weight:600;max-width:78%}
-.chat-eval.pass{align-self:flex-start;background:rgba(16,185,129,.07);border:1px solid rgba(16,185,129,.18);color:var(--green-bright)}
-.chat-eval.fail{align-self:flex-start;background:rgba(239,68,68,.07);border:1px solid rgba(239,68,68,.18);color:var(--red-bright)}
-
-/* ── Diffs ── */
-.diff-item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden}
-.diff-head{padding:12px 18px;display:flex;align-items:center;gap:8px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
-.diff-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
-.diff-cols{display:grid;grid-template-columns:1fr 1fr}
-.diff-col{padding:14px 18px}
-.diff-col+.diff-col{border-left:1px solid var(--border)}
-.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;margin-bottom:7px}
-.tags{display:flex;flex-wrap:wrap;gap:3px;margin-bottom:7px}
-.tag{background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);border-radius:4px;padding:2px 7px;font-size:11px;font-family:var(--mono);font-weight:500}
-.tag.add{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
-.tag.rem{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
-.outbox{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:10px;font:12px/1.6 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:180px;overflow-y:auto}
-.difflines{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:8px;font:11px/1.6 var(--mono);max-height:180px;overflow-y:auto;margin-top:7px}
-.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
-.difflines .r{color:var(--red-bright);background:rgba(239,68,68,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
-.sim{display:inline-flex;align-items:center;gap:4px;font-size:11px;color:var(--text-3)}
-.sim-track{width:40px;height:3px;background:rgba(255,255,255,.06);border-radius:2px;overflow:hidden;display:inline-block;vertical-align:middle}
-.sim-fill{height:100%;border-radius:2px}
-.sim-fill.hi{background:var(--green)}.sim-fill.mid{background:var(--yellow)}.sim-fill.lo{background:var(--red)}
-.pipeline{display:flex;flex-direction:column;gap:5px;padding:12px 18px;border-top:1px solid var(--border)}
-.pipeline-row{display:flex;align-items:center;gap:3px;flex-wrap:wrap}
-.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;width:60px;flex-shrink:0}
-.pipe-step{display:inline-flex;padding:3px 9px;border-radius:4px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);color:var(--text-2);position:relative}
-.pipe-step+.pipe-step{margin-left:5px}
-.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-12px;color:var(--text-4);font-size:9px;font-family:var(--font)}
-.pipe-step.match{border-color:rgba(37,99,235,.2);background:rgba(37,99,235,.04)}
-.pipe-step.added{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
-.pipe-step.removed{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
-.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:10px;margin-top:12px;padding-top:12px;border-top:1px solid var(--border)}
-.traj-col .col-title{padding-bottom:6px}
-
-/* ── Tables ── */
-.ev-table{width:100%;border-collapse:collapse;font-size:13px}
-.ev-table th{text-align:left;padding:7px 10px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
-.ev-table td{padding:9px 10px;border-bottom:1px solid rgba(51,65,85,.25)}
-.ev-table tr:hover td{background:rgba(255,255,255,.012)}
-.ev-table .mono{font-family:var(--mono);font-size:12px}
-.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
-.param-table{width:100%;border-collapse:collapse;font-size:12px}
-.param-table th{text-align:left;padding:5px 9px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
-.param-table td{padding:5px 9px;border-bottom:1px solid rgba(51,65,85,.25)}
-table td,table th{transition:background .1s}
-.empty{text-align:center;padding:64px 40px;color:var(--text-4)}
-.empty-icon{font-size:32px;margin-bottom:10px;display:block;opacity:.25}
-.empty code{background:rgba(255,255,255,.05);padding:2px 7px;border-radius:4px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
-::-webkit-scrollbar{width:4px;height:4px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.07);border-radius:3px}
-</style>
-</head>
-<body>
-
-<header class="header">
-  <div class="logo">
-    <div class="logo-icon">◈</div>
-    <div><div class="logo-text">EvalView Check Report</div><div class="logo-sub">2026-03-18 09:34</div></div>
-  </div>
-  <div class="header-right">
-    <span class="badge b-red">✗ 1 Failed</span><span class="badge b-blue">5 Tests</span>
-  </div>
-</header>
-
-<main class="main">
-  <div class="tabbar">
-    <button class="tab on" onclick="show('overview',this)">Overview</button>
-    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
-    <button class="tab " onclick="show('diffs',this)">Diffs</button>
-    <button class="tab " onclick="show('timeline',this)">Timeline</button>
-    
-  </div>
-
-  <!-- ═══════════ OVERVIEW ═══════════ -->
-  <div id="p-overview" class="panel on">
-    
-
-    <!-- HERO: Gauge + Stats in one row -->
-    <div class="hero-row">
-      <div class="gauge-cell glow-green">
-        <div class="gauge-wrap">
-          <svg width="160" height="160" viewBox="0 0 160 160">
-            <circle cx="80" cy="80" r="68" fill="none" stroke="rgba(255,255,255,.04)" stroke-width="9"/>
-            <circle class="gauge-fill" cx="80" cy="80" r="68" fill="none"
-              stroke="var(--green)"
-              stroke-width="9" stroke-linecap="round"
-              data-target="342.0"
-              style="stroke-dasharray:0 427;filter:drop-shadow(0 0 6px rgba(16,185,129,.35))"/>
-          </svg>
-          <div class="gauge-center">
-            <div class="gauge-pct green">80.0%</div>
-            <div class="gauge-label">Pass Rate</div>
-          </div>
-        </div>
-        <div class="gauge-sub"><b>4</b> of <b>5</b> tests</div>
-      </div>
-      <div class="stats-grid">
-        <div class="ss">
-          <div class="ss-label">Avg Score</div>
-          <div class="ss-num" style="color:var(--yellow-bright)">79.7</div>
-          <div class="ss-sub">out of 100</div>
-        </div>
-        <div class="ss">
-          <div class="ss-label">Total Cost</div>
-          <div class="ss-num blue">$0.017</div>
-          <div class="ss-sub">2,835 tokens (verified)</div>
-        </div>
-        <div class="ss">
-          <div class="ss-label">Avg Latency</div>
-          <div class="ss-num">1360<span style="font-size:12px;color:var(--text-4);font-weight:500">ms</span></div>
-          <div class="ss-sub">per test</div>
-        </div>
-        <div class="ss">
-          <div class="ss-label">Model</div>
-          <div style="font-size:13px;font-weight:600;color:var(--text);margin-top:2px;line-height:1.3">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
-          
-          <div style="margin-top:4px;font-size:10px;color:var(--text-4);font-family:var(--mono)">in 2,170 · out 665</div>
-          
-        </div>
-      </div>
-    </div>
-
-    <!-- Meta cards -->
-    <div class="meta-row">
-      <div class="meta-card">
-        <div class="meta-label">Agent Model</div>
-        <div class="meta-value">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
-        <div class="meta-sub">5 tests in this run</div>
-      </div>
-      
-      <div class="meta-card">
-        <div class="meta-label">Token Usage</div>
-        <div class="meta-value">2,835 tokens</div>
-        <div class="meta-sub">in 2,170 / out 665</div>
-      </div>
-      
-    </div>
-    
-    
-    <div class="meta-row">
-      <div class="meta-card">
-        <div class="meta-label">EvalView Judge (gpt-4o-mini)</div>
-        <div class="meta-value">$0.006</div>
-        <div class="meta-sub">1,320 tokens across 5 judge calls</div>
-      </div>
-      <div class="meta-card">
-        <div class="meta-label">Judge Token Breakdown</div>
-        <div class="meta-value">in 1,100 / out 220</div>
-        <div class="meta-sub">Separate from agent trace cost</div>
-      </div>
-    </div>
-    
-
-    <!-- Score chart + donut -->
-    <div class="chart-row">
-      <div class="card">
-        <div class="card-title">Score per Test</div>
-        <div class="chart-wrap" style="height:224px"><canvas id="bars"></canvas></div>
-      </div>
-      <div class="card">
-        <div class="card-title">Distribution</div>
-        <div class="chart-wrap" style="height:180px"><canvas id="donut"></canvas></div>
-      </div>
-    </div>
-
-    <!-- Cost table -->
-    <div class="card">
-      <div class="card-title">Execution Cost per Query</div>
-      <table class="ev-table">
-        
-        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Tokens</th><th>Latency</th><th>Score</th></tr></thead>
-        <tbody>
-          <tr>
-            <td style="font-weight:600">refund-flow</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0034</td>
-            <td class="mono" style="color:var(--text-3)">570 tokens</td>
-            <td style="color:var(--text-3)">1200ms</td>
-            <td class="num" style="color:var(--green-bright)">92.5</td>
-          </tr><tr>
-            <td style="font-weight:600">order-lookup</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0021</td>
-            <td class="mono" style="color:var(--text-3)">415 tokens</td>
-            <td style="color:var(--text-3)">800ms</td>
-            <td class="num" style="color:var(--green-bright)">88.0</td>
-          </tr><tr>
-            <td style="font-weight:600">billing-dispute</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0058</td>
-            <td class="mono" style="color:var(--text-3)">890 tokens</td>
-            <td style="color:var(--text-3)">2400ms</td>
-            <td class="num" style="color:var(--red-bright)">45.0</td>
-          </tr><tr>
-            <td style="font-weight:600">password-reset</td>
-            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0012</td>
-            <td class="mono" style="color:var(--text-3)">260 tokens</td>
-            <td style="color:var(--text-3)">600ms</td>
-            <td class="num" style="color:var(--green-bright)">95.0</td>
-          </tr><tr>
-            <td style="font-weight:600">vip-escalation</td>
-            <td class="mono" style="color:var(--text-4)">openai/claude-3.5-sonnet</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0045</td>
-            <td class="mono" style="color:var(--text-3)">700 tokens</td>
-            <td style="color:var(--text-3)">1800ms</td>
-            <td class="num" style="color:var(--yellow-bright)">78.0</td>
-          </tr>
-          <tr style="background:rgba(0,0,0,.08)">
-            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.017</td>
-            <td colspan="3" style="font-size:11px;color:var(--text-4)">avg $0.003400 per query</td>
-          </tr>
-        </tbody>
-      </table>
-      <div style="margin-top:10px;font-size:11px;color:var(--text-4);line-height:1.5">
-        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.04);padding:2px 6px;border-radius:3px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
-         This check also used 5 EvalView judge calls (1320 tokens).
-      </div>
-    </div>
-    
-  </div>
-
-  <!-- ═══════════ TRACE ═══════════ -->
-  <div id="p-trace" class="panel ">
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr1',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">refund-flow</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--green-bright)">92.5/100</span>
-            <span class="mc">💰 $0.0034</span>
-            <span class="mc">⚡ 1200ms</span>
-            <span class="mc">570 tokens</span>
-            <span class="mc">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr1" class="item-body" >
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 450 / out 120 tokens</span><span class="badge b-blue">$0.0034</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Process refund
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Done.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr2',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">order-lookup</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--green-bright)">88.0/100</span>
-            <span class="mc">💰 $0.0021</span>
-            <span class="mc">⚡ 800ms</span>
-            <span class="mc">415 tokens</span>
-            <span class="mc">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr2" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 320 / out 95 tokens</span><span class="badge b-blue">$0.0021</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Order status
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Shipped.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr3',this)">
-          <span class="badge b-red">✗</span>
-          <span class="item-name">billing-dispute</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--red-bright)">45.0/100</span>
-            <span class="mc">💰 $0.0058</span>
-            <span class="mc">⚡ 2400ms</span>
-            <span class="mc">890 tokens</span>
-            <span class="mc">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr3" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 680 / out 210 tokens</span><span class="badge b-blue">$0.0058</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Dispute
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Not found.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr4',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">password-reset</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--green-bright)">95.0/100</span>
-            <span class="mc">💰 $0.0012</span>
-            <span class="mc">⚡ 600ms</span>
-            <span class="mc">260 tokens</span>
-            <span class="mc">🧠 openai/gpt-4o-mini</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr4" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
-            <span class="badge b-blue">in 200 / out 60 tokens</span><span class="badge b-blue">$0.0012</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Reset pw
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Sent.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr5',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">vip-escalation</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--yellow-bright)">78.0/100</span>
-            <span class="mc">💰 $0.0045</span>
-            <span class="mc">⚡ 1800ms</span>
-            <span class="mc">700 tokens</span>
-            <span class="mc">🧠 openai/claude-3.5-sonnet</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr5" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: openai/claude-3.5-sonnet</span>
-            <span class="badge b-blue">in 520 / out 180 tokens</span><span class="badge b-blue">$0.0045</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>VIP
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Escalated.
-          </div>
-        </div>
-      </div>
-    
-  </div>
-
-  <!-- ═══════════ DIFFS ═══════════ -->
-  <div id="p-diffs" class="panel ">
-    <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
-  </div>
-
-  <!-- ═══════════ TIMELINE ═══════════ -->
-  <div id="p-timeline" class="panel ">
-    <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
-  </div>
-
-  <!-- ═══════════ COMPARE ═══════════ -->
-  
-</main>
-
-<script>
-mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
-  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(37,99,235,.1)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(37,99,235,.25)',lineColor:'rgba(100,116,139,.3)',secondaryColor:'rgba(16,185,129,.06)',tertiaryColor:'rgba(6,182,212,.06)',noteBkgColor:'rgba(37,99,235,.05)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(37,99,235,.15)',actorBkg:'rgba(37,99,235,.08)',actorBorder:'rgba(37,99,235,.2)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
-  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:12,messageFontSize:11,noteFontSize:10,boxTextMargin:8,mirrorActors:false,messageAlign:'center',actorMargin:30,bottomMarginAdj:4}
-});
-function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
-function tog(id,head){const el=document.getElementById(id);const o=el.style.display!=='none';el.style.display=o?'none':'block';head.querySelector('.chevron').style.transform=o?'':'rotate(180deg)'}
-
-/* Animate the gauge on load */
-requestAnimationFrame(()=>{setTimeout(()=>{document.querySelectorAll('.gauge-fill').forEach(c=>{const t=c.dataset.target||0;c.style.strokeDasharray=t+' 427'})},100)});
-
-
-(function(){
-  const passed=4,failed=1;
-  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
-  const tc='rgba(100,116,139,.6)',gc='rgba(255,255,255,.025)';
-  const tt={backgroundColor:'rgba(6,11,24,.95)',borderColor:'rgba(51,65,85,.5)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:11},bodyFont:{family:'Inter',size:11},padding:8,cornerRadius:6};
-
-  new Chart(document.getElementById('donut'),{type:'doughnut',data:{labels:['Passed','Failed'],datasets:[{data:[passed,failed],backgroundColor:['rgba(16,185,129,.6)','rgba(239,68,68,.6)'],borderColor:['rgba(16,185,129,.08)','rgba(239,68,68,.08)'],borderWidth:2,hoverOffset:4}]},options:{responsive:true,maintainAspectRatio:false,cutout:'78%',plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:10,weight:'500'},padding:12,boxWidth:7,boxHeight:7,usePointStyle:true,pointStyle:'circle'}},tooltip:{...tt,callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}});
-
-  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
-  /* Warning stripes for low scores */
-  const barBg=sorted.map(s=>{
-    if(s.score>=80) return 'rgba(16,185,129,.35)';
-    if(s.score>=60) return 'rgba(245,158,11,.35)';
-    return 'rgba(239,68,68,.35)';
-  });
-  const barBorder=sorted.map(s=>{
-    if(s.score>=80) return 'rgba(16,185,129,.55)';
-    if(s.score>=60) return 'rgba(245,158,11,.55)';
-    return 'rgba(239,68,68,.55)';
-  });
-  new Chart(document.getElementById('bars'),{type:'bar',
-    data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),backgroundColor:barBg,borderColor:barBorder,borderWidth:1,borderRadius:3,borderSkipped:false,barPercentage:.55,categoryPercentage:.8}]},
-    options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,
-      scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:9},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.7)',font:{family:'Inter',size:11,weight:'600'},padding:4,mirror:false},border:{display:false},afterFit:function(axis){axis.width=120}}},
-      plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
-})();
-
-
-
-
-
-</script>
-
-<!-- Share bar -->
-<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(6,11,24,.9);backdrop-filter:blur(16px);-webkit-backdrop-filter:blur(16px);border-top:1px solid var(--border);padding:8px 24px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:11px;color:var(--text-4)">
-  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:600">EvalView</a> <span style="opacity:.25;margin:0 5px">|</span> Agent testing &amp; regression detection</span>
-  <span style="display:flex;align-items:center;gap:5px">
-    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(29,155,240,.08);color:#1d9bf0;text-decoration:none;font-weight:600;font-size:10px;border:1px solid rgba(29,155,240,.1)"><svg width="12" height="12" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
-    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(255,255,255,.03);color:var(--text-2);text-decoration:none;font-weight:600;font-size:10px;border:1px solid var(--border)"><svg width="12" height="12" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
-  </span>
-</div>
-<div style="height:40px"></div>
-
-</body>
-</html>
\ No newline at end of file
diff --git a/.evalview/latest-v6c.html b/.evalview/latest-v6c.html
deleted file mode 100644
index 5caff22..0000000
--- a/.evalview/latest-v6c.html
+++ /dev/null
@@ -1,603 +0,0 @@
-<!doctype html>
-<html lang="en">
-<head>
-<meta charset="UTF-8">
-<meta name="viewport" content="width=device-width, initial-scale=1.0">
-<title>EvalView Check Report</title>
-<link rel="preconnect" href="https://fonts.googleapis.com">
-<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
-<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
-<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
-<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
-<style>
-*{box-sizing:border-box;margin:0;padding:0}
-:root{
-  --green:#10b981;--green-bright:#34d399;
-  --red:#ef4444;--red-bright:#f87171;
-  --yellow:#f59e0b;--yellow-bright:#fbbf24;
-  --blue:#2563eb;--blue-bright:#3b82f6;
-  --teal:#0d9488;--teal-bright:#14b8a6;
-  --cyan:#06b6d4;
-  --bg:#060b18;--bg-card:rgba(12,20,36,.75);
-  --border:rgba(51,65,85,.45);--border-light:rgba(71,85,105,.5);
-  --text:#f1f5f9;--text-2:#94a3b8;--text-3:#64748b;--text-4:#475569;
-  --r:16px;--r-sm:12px;--r-xs:8px;
-  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
-  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
-}
-html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
-body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;background:var(--bg)}
-
-/* ── Header ── */
-.header{
-  position:sticky;top:0;z-index:200;
-  background:rgba(6,11,24,.85);border-bottom:1px solid var(--border);
-  backdrop-filter:blur(20px);-webkit-backdrop-filter:blur(20px);
-  padding:0 40px;height:52px;display:flex;align-items:center;justify-content:space-between;
-}
-.logo{display:flex;align-items:center;gap:10px}
-.logo-icon{width:28px;height:28px;border-radius:7px;flex-shrink:0;background:linear-gradient(135deg,var(--blue-bright),var(--teal));display:flex;align-items:center;justify-content:center;font-size:13px;box-shadow:0 2px 10px rgba(37,99,235,.2)}
-.logo-text{font-size:14px;font-weight:700;letter-spacing:-.02em;color:var(--text)}
-.logo-sub{font-size:10px;color:var(--text-4);font-weight:400}
-.header-right{display:flex;align-items:center;gap:6px}
-
-/* ── Badges ── */
-.badge{display:inline-flex;align-items:center;gap:4px;padding:3px 10px;border-radius:20px;font-size:11px;font-weight:600;white-space:nowrap}
-.b-green{background:rgba(16,185,129,.12);color:var(--green-bright);border:1px solid rgba(16,185,129,.25)}
-.b-red{background:rgba(239,68,68,.12);color:var(--red-bright);border:1px solid rgba(239,68,68,.25)}
-.b-yellow{background:rgba(245,158,11,.12);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.25)}
-.b-blue{background:rgba(37,99,235,.12);color:var(--blue-bright);border:1px solid rgba(37,99,235,.25)}
-.b-purple{background:rgba(13,148,136,.12);color:var(--teal-bright);border:1px solid rgba(13,148,136,.25)}
-
-/* ── Layout ── */
-.main{max-width:1160px;margin:0 auto;padding:28px 36px 80px;position:relative;z-index:1}
-
-/* ── Tabs ── */
-.tabbar{display:flex;gap:0;background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:3px;margin-bottom:28px}
-.tab{flex:1;text-align:center;background:none;border:none;color:var(--text-4);cursor:pointer;font:600 12px/1 var(--font);padding:10px 12px;border-radius:9px;transition:all .15s}
-.tab:hover{color:var(--text-2);background:rgba(255,255,255,.03)}
-.tab.on{color:#fff;background:rgba(37,99,235,.18);border:1px solid rgba(37,99,235,.3)}
-.panel{display:none}.panel.on{display:block}
-
-/* ══════════════════════════════════════════════
-   HERO ROW — gauge + stats, all above the fold
-   ══════════════════════════════════════════════ */
-.hero-row{
-  display:grid;grid-template-columns:auto 1fr;gap:0;
-  background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);
-  overflow:hidden;margin-bottom:20px;
-}
-@media(max-width:800px){.hero-row{grid-template-columns:1fr}}
-/* Gauge cell */
-.gauge-cell{
-  padding:24px 32px;display:flex;flex-direction:column;align-items:center;justify-content:center;
-  position:relative;border-right:1px solid var(--border);
-}
-.gauge-cell::before{
-  content:'';position:absolute;top:50%;left:50%;transform:translate(-50%,-50%);
-  width:200px;height:200px;border-radius:50%;pointer-events:none;filter:blur(60px);opacity:.5;
-}
-.gauge-cell.glow-green::before{background:rgba(16,185,129,.12)}
-.gauge-cell.glow-red::before{background:rgba(239,68,68,.12)}
-.gauge-cell.glow-yellow::before{background:rgba(245,158,11,.1)}
-.gauge-wrap{position:relative;width:180px;height:180px}
-.gauge-wrap svg{display:block}
-.gauge-center{position:absolute;inset:0;display:flex;flex-direction:column;align-items:center;justify-content:center}
-.gauge-pct{font-size:44px;font-weight:900;letter-spacing:-.05em;line-height:1}
-.gauge-pct.green{color:var(--green-bright)}
-.gauge-pct.red{color:var(--red-bright)}
-.gauge-pct.yellow{color:var(--yellow-bright)}
-.gauge-label{font-size:9px;font-weight:700;color:var(--text-3);margin-top:3px;text-transform:uppercase;letter-spacing:.08em}
-.gauge-sub{font-size:12px;color:var(--text-3);margin-top:10px;font-weight:500;text-align:center}
-.gauge-sub b{color:var(--text);font-weight:700}
-.gauge-fill{transition:stroke-dasharray 1.2s cubic-bezier(.4,0,.2,1);stroke-dasharray:0 999}
-/* Stats grid — right side */
-.stats-grid{display:grid;grid-template-columns:1fr 1fr;grid-template-rows:1fr 1fr}
-.stats-grid .ss{padding:16px 20px;border-bottom:1px solid var(--border)}
-.stats-grid .ss:nth-child(odd){border-right:1px solid var(--border)}
-.stats-grid .ss:nth-child(n+3){border-bottom:none}
-.ss-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:6px}
-.ss-num{font-size:22px;font-weight:800;letter-spacing:-.03em;line-height:1;color:var(--text)}
-.ss-num.blue{color:var(--blue-bright)}
-.ss-sub{font-size:11px;color:var(--text-4);margin-top:4px;font-weight:500;line-height:1.3}
-
-/* ── Card ── */
-.card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);padding:20px 22px;margin-bottom:14px;position:relative;overflow:hidden}
-.card-title{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:14px;display:flex;align-items:center;gap:7px}
-.card-title::before{content:'';width:3px;height:11px;border-radius:2px;background:var(--blue-bright)}
-.chart-wrap{position:relative}
-
-/* ── Meta row ── */
-.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-bottom:14px}
-@media(max-width:800px){.meta-row{grid-template-columns:1fr}}
-.meta-card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:14px 18px}
-.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:5px}
-.meta-value{font-size:14px;font-weight:700;color:var(--text)}
-.meta-sub{font-size:11px;color:var(--text-4);margin-top:3px}
-
-/* ── Chart row ── */
-.chart-row{display:grid;grid-template-columns:1fr 200px;gap:12px;margin-bottom:14px}
-@media(max-width:800px){.chart-row{grid-template-columns:1fr}}
-
-/* ── Trace items ── */
-.item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden;transition:border-color .15s}
-.item:hover{border-color:var(--border-light)}
-.item-head{padding:12px 18px;display:flex;align-items:center;gap:10px;cursor:pointer;transition:background .1s}
-.item-head:hover{background:rgba(255,255,255,.015)}
-.item-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
-.item-meta{display:flex;align-items:center;gap:5px;flex-shrink:0;flex-wrap:wrap}
-.mc{display:inline-flex;align-items:center;gap:3px;padding:2px 7px;border-radius:4px;background:rgba(255,255,255,.035);font-size:10px;font-weight:500;color:var(--text-3);white-space:nowrap}
-.chevron{color:var(--text-4);font-size:10px;transition:transform .2s;flex-shrink:0}
-details[open] .turn-chevron{transform:rotate(90deg)}
-.item-body{padding:18px;border-top:1px solid var(--border);background:rgba(0,0,0,.12)}
-.mermaid-box{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-sm);padding:24px 18px;overflow-x:auto;min-height:180px}
-.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
-.mermaid-box .mermaid{min-width:560px}
-
-/* ── Chat turns ── */
-.chat-container{margin-top:16px;padding:14px;background:rgba(0,0,0,.1);border:1px solid rgba(51,65,85,.25);border-radius:var(--r-sm)}
-.chat-header{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:12px;padding-bottom:8px;border-bottom:1px solid rgba(51,65,85,.25)}
-.chat-messages{display:flex;flex-direction:column;gap:3px}
-.chat-bubble{max-width:78%;padding:9px 13px;font-size:13px;line-height:1.5;border-radius:12px}
-.chat-bubble.user{align-self:flex-end;background:rgba(37,99,235,.1);border:1px solid rgba(37,99,235,.18);color:var(--text);border-bottom-right-radius:3px}
-.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.025);border:1px solid rgba(51,65,85,.35);color:var(--text-2);border-bottom-left-radius:3px}
-.chat-meta{display:flex;align-items:center;gap:6px;padding:4px 2px;font-size:10px;color:var(--text-4);font-weight:500}
-.chat-meta.right{justify-content:flex-end}
-.chat-tool-tag{display:inline-flex;padding:1px 6px;border-radius:3px;background:rgba(37,99,235,.07);border:1px solid rgba(37,99,235,.12);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
-.chat-eval{padding:5px 9px;border-radius:6px;font-size:11px;font-weight:600;max-width:78%}
-.chat-eval.pass{align-self:flex-start;background:rgba(16,185,129,.07);border:1px solid rgba(16,185,129,.18);color:var(--green-bright)}
-.chat-eval.fail{align-self:flex-start;background:rgba(239,68,68,.07);border:1px solid rgba(239,68,68,.18);color:var(--red-bright)}
-
-/* ── Diffs ── */
-.diff-item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden}
-.diff-head{padding:12px 18px;display:flex;align-items:center;gap:8px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
-.diff-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
-.diff-cols{display:grid;grid-template-columns:1fr 1fr}
-.diff-col{padding:14px 18px}
-.diff-col+.diff-col{border-left:1px solid var(--border)}
-.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;margin-bottom:7px}
-.tags{display:flex;flex-wrap:wrap;gap:3px;margin-bottom:7px}
-.tag{background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);border-radius:4px;padding:2px 7px;font-size:11px;font-family:var(--mono);font-weight:500}
-.tag.add{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
-.tag.rem{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
-.outbox{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:10px;font:12px/1.6 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:180px;overflow-y:auto}
-.difflines{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:8px;font:11px/1.6 var(--mono);max-height:180px;overflow-y:auto;margin-top:7px}
-.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
-.difflines .r{color:var(--red-bright);background:rgba(239,68,68,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
-.sim{display:inline-flex;align-items:center;gap:4px;font-size:11px;color:var(--text-3)}
-.sim-track{width:40px;height:3px;background:rgba(255,255,255,.06);border-radius:2px;overflow:hidden;display:inline-block;vertical-align:middle}
-.sim-fill{height:100%;border-radius:2px}
-.sim-fill.hi{background:var(--green)}.sim-fill.mid{background:var(--yellow)}.sim-fill.lo{background:var(--red)}
-.pipeline{display:flex;flex-direction:column;gap:5px;padding:12px 18px;border-top:1px solid var(--border)}
-.pipeline-row{display:flex;align-items:center;gap:3px;flex-wrap:wrap}
-.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;width:60px;flex-shrink:0}
-.pipe-step{display:inline-flex;padding:3px 9px;border-radius:4px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);color:var(--text-2);position:relative}
-.pipe-step+.pipe-step{margin-left:5px}
-.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-12px;color:var(--text-4);font-size:9px;font-family:var(--font)}
-.pipe-step.match{border-color:rgba(37,99,235,.2);background:rgba(37,99,235,.04)}
-.pipe-step.added{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
-.pipe-step.removed{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
-.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:10px;margin-top:12px;padding-top:12px;border-top:1px solid var(--border)}
-.traj-col .col-title{padding-bottom:6px}
-
-/* ── Tables ── */
-.ev-table{width:100%;border-collapse:collapse;font-size:13px}
-.ev-table th{text-align:left;padding:7px 10px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
-.ev-table td{padding:9px 10px;border-bottom:1px solid rgba(51,65,85,.25)}
-.ev-table tr:hover td{background:rgba(255,255,255,.012)}
-.ev-table .mono{font-family:var(--mono);font-size:12px}
-.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
-.param-table{width:100%;border-collapse:collapse;font-size:12px}
-.param-table th{text-align:left;padding:5px 9px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
-.param-table td{padding:5px 9px;border-bottom:1px solid rgba(51,65,85,.25)}
-table td,table th{transition:background .1s}
-.empty{text-align:center;padding:64px 40px;color:var(--text-4)}
-.empty-icon{font-size:32px;margin-bottom:10px;display:block;opacity:.25}
-.empty code{background:rgba(255,255,255,.05);padding:2px 7px;border-radius:4px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
-::-webkit-scrollbar{width:4px;height:4px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.07);border-radius:3px}
-</style>
-</head>
-<body>
-
-<header class="header">
-  <div class="logo">
-    <div class="logo-icon">◈</div>
-    <div><div class="logo-text">EvalView Check Report</div><div class="logo-sub">2026-03-18 09:37</div></div>
-  </div>
-  <div class="header-right">
-    <span class="badge b-red">✗ 1 Failed</span><span class="badge b-blue">5 Tests</span>
-  </div>
-</header>
-
-<main class="main">
-  <div class="tabbar">
-    <button class="tab on" onclick="show('overview',this)">Overview</button>
-    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
-    <button class="tab " onclick="show('diffs',this)">Diffs</button>
-    <button class="tab " onclick="show('timeline',this)">Timeline</button>
-    
-  </div>
-
-  <!-- ═══════════ OVERVIEW ═══════════ -->
-  <div id="p-overview" class="panel on">
-    
-
-    <!-- HERO: Gauge + Stats in one row -->
-    <div class="hero-row">
-      <div class="gauge-cell glow-green">
-        <div class="gauge-wrap">
-          <svg width="180" height="180" viewBox="0 0 180 180">
-            <circle cx="90" cy="90" r="76" fill="none" stroke="rgba(255,255,255,.04)" stroke-width="10"/>
-            <circle class="gauge-fill" cx="90" cy="90" r="76" fill="none"
-              stroke="var(--green)"
-              stroke-width="10" stroke-linecap="round"
-              data-target="382.0"
-              style="stroke-dasharray:0 478;filter:drop-shadow(0 0 6px rgba(16,185,129,.35))"/>
-          </svg>
-          <div class="gauge-center">
-            <div class="gauge-pct green">80.0%</div>
-            <div class="gauge-label">Pass Rate</div>
-          </div>
-        </div>
-        <div class="gauge-sub"><b>4</b> of <b>5</b> tests</div>
-      </div>
-      <div class="stats-grid">
-        <div class="ss">
-          <div class="ss-label">Avg Score</div>
-          <div class="ss-num" style="color:var(--yellow-bright)">79.7</div>
-          <div class="ss-sub">out of 100</div>
-        </div>
-        <div class="ss">
-          <div class="ss-label">Total Cost</div>
-          <div class="ss-num blue">$0.017</div>
-          <div class="ss-sub">2,835 tokens (verified)</div>
-        </div>
-        <div class="ss">
-          <div class="ss-label">Avg Latency</div>
-          <div class="ss-num">1360<span style="font-size:12px;color:var(--text-4);font-weight:500">ms</span></div>
-          <div class="ss-sub">per test</div>
-        </div>
-        <div class="ss">
-          <div class="ss-label">Model</div>
-          <div style="font-size:13px;font-weight:600;color:var(--text);margin-top:2px;line-height:1.3">anthropic/claude-sonnet-4-6</div>
-          
-          <div style="margin-top:4px;font-size:10px;color:var(--text-4);font-family:var(--mono)">in 2,170 · out 665</div>
-          
-        </div>
-      </div>
-    </div>
-
-    <!-- Meta cards -->
-    <div class="meta-row">
-      <div class="meta-card">
-        <div class="meta-label">Agent Model</div>
-        <div class="meta-value">anthropic/claude-sonnet-4-6</div>
-        <div class="meta-sub">5 tests in this run</div>
-      </div>
-      
-      <div class="meta-card">
-        <div class="meta-label">Token Usage</div>
-        <div class="meta-value">2,835 tokens</div>
-        <div class="meta-sub">in 2,170 / out 665</div>
-      </div>
-      
-    </div>
-    
-    
-
-    <!-- Score chart + donut -->
-    <div class="chart-row">
-      <div class="card">
-        <div class="card-title">Score per Test</div>
-        <div class="chart-wrap" style="height:224px"><canvas id="bars"></canvas></div>
-      </div>
-      <div class="card">
-        <div class="card-title">Distribution</div>
-        <div class="chart-wrap" style="height:180px"><canvas id="donut"></canvas></div>
-      </div>
-    </div>
-
-    <!-- Cost table -->
-    <div class="card">
-      <div class="card-title">Execution Cost per Query</div>
-      <table class="ev-table">
-        
-        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Tokens</th><th>Latency</th><th>Score</th></tr></thead>
-        <tbody>
-          <tr>
-            <td style="font-weight:600">refund-flow</td>
-            <td class="mono" style="color:var(--text-4)">anthropic/claude-sonnet-4-6</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0034</td>
-            <td class="mono" style="color:var(--text-3)">570 tokens</td>
-            <td style="color:var(--text-3)">1200ms</td>
-            <td class="num" style="color:var(--green-bright)">92.5</td>
-          </tr><tr>
-            <td style="font-weight:600">order-lookup</td>
-            <td class="mono" style="color:var(--text-4)">anthropic/claude-sonnet-4-6</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0021</td>
-            <td class="mono" style="color:var(--text-3)">415 tokens</td>
-            <td style="color:var(--text-3)">800ms</td>
-            <td class="num" style="color:var(--green-bright)">88.0</td>
-          </tr><tr>
-            <td style="font-weight:600">billing-dispute</td>
-            <td class="mono" style="color:var(--text-4)">anthropic/claude-sonnet-4-6</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0058</td>
-            <td class="mono" style="color:var(--text-3)">890 tokens</td>
-            <td style="color:var(--text-3)">2400ms</td>
-            <td class="num" style="color:var(--red-bright)">45.0</td>
-          </tr><tr>
-            <td style="font-weight:600">password-reset</td>
-            <td class="mono" style="color:var(--text-4)">anthropic/claude-sonnet-4-6</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0012</td>
-            <td class="mono" style="color:var(--text-3)">260 tokens</td>
-            <td style="color:var(--text-3)">600ms</td>
-            <td class="num" style="color:var(--green-bright)">95.0</td>
-          </tr><tr>
-            <td style="font-weight:600">vip-escalation</td>
-            <td class="mono" style="color:var(--text-4)">anthropic/claude-sonnet-4-6</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.0045</td>
-            <td class="mono" style="color:var(--text-3)">700 tokens</td>
-            <td style="color:var(--text-3)">1800ms</td>
-            <td class="num" style="color:var(--yellow-bright)">78.0</td>
-          </tr>
-          <tr style="background:rgba(0,0,0,.08)">
-            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
-            <td class="mono num" style="color:var(--blue-bright)">$0.017</td>
-            <td colspan="3" style="font-size:11px;color:var(--text-4)">avg $0.003400 per query</td>
-          </tr>
-        </tbody>
-      </table>
-      <div style="margin-top:10px;font-size:11px;color:var(--text-4);line-height:1.5">
-        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.04);padding:2px 6px;border-radius:3px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
-        
-      </div>
-    </div>
-    
-  </div>
-
-  <!-- ═══════════ TRACE ═══════════ -->
-  <div id="p-trace" class="panel ">
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr1',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">refund-flow</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--green-bright)">92.5/100</span>
-            <span class="mc">💰 $0.0034</span>
-            <span class="mc">⚡ 1200ms</span>
-            <span class="mc">570 tokens</span>
-            <span class="mc">🧠 anthropic/claude-sonnet-4-6</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr1" class="item-body" >
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: anthropic/claude-sonnet-4-6</span>
-            <span class="badge b-blue">in 450 / out 120 tokens</span><span class="badge b-blue">$0.0034</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Process refund
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Done.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr2',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">order-lookup</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--green-bright)">88.0/100</span>
-            <span class="mc">💰 $0.0021</span>
-            <span class="mc">⚡ 800ms</span>
-            <span class="mc">415 tokens</span>
-            <span class="mc">🧠 anthropic/claude-sonnet-4-6</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr2" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: anthropic/claude-sonnet-4-6</span>
-            <span class="badge b-blue">in 320 / out 95 tokens</span><span class="badge b-blue">$0.0021</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Order status
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Shipped.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr3',this)">
-          <span class="badge b-red">✗</span>
-          <span class="item-name">billing-dispute</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--red-bright)">45.0/100</span>
-            <span class="mc">💰 $0.0058</span>
-            <span class="mc">⚡ 2400ms</span>
-            <span class="mc">890 tokens</span>
-            <span class="mc">🧠 anthropic/claude-sonnet-4-6</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr3" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: anthropic/claude-sonnet-4-6</span>
-            <span class="badge b-blue">in 680 / out 210 tokens</span><span class="badge b-blue">$0.0058</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Dispute
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Not found.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr4',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">password-reset</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--green-bright)">95.0/100</span>
-            <span class="mc">💰 $0.0012</span>
-            <span class="mc">⚡ 600ms</span>
-            <span class="mc">260 tokens</span>
-            <span class="mc">🧠 anthropic/claude-sonnet-4-6</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr4" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: anthropic/claude-sonnet-4-6</span>
-            <span class="badge b-blue">in 200 / out 60 tokens</span><span class="badge b-blue">$0.0012</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Reset pw
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Sent.
-          </div>
-        </div>
-      </div>
-    
-      <div class="item">
-        <div class="item-head" onclick="tog('tr5',this)">
-          <span class="badge b-green">✓</span>
-          <span class="item-name">vip-escalation</span>
-          <div class="item-meta">
-            <span class="mc" style="color:var(--yellow-bright)">78.0/100</span>
-            <span class="mc">💰 $0.0045</span>
-            <span class="mc">⚡ 1800ms</span>
-            <span class="mc">700 tokens</span>
-            <span class="mc">🧠 anthropic/claude-sonnet-4-6</span>
-          </div>
-          <span class="chevron">▾</span>
-        </div>
-        <div id="tr5" class="item-body" style="display:none">
-          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
-            <span class="badge b-blue">Model: anthropic/claude-sonnet-4-6</span>
-            <span class="badge b-blue">in 520 / out 180 tokens</span><span class="badge b-blue">$0.0045</span>
-            
-            
-            
-          </div>
-          
-          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>VIP
-          </div>
-          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
-          
-          
-          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
-            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Escalated.
-          </div>
-        </div>
-      </div>
-    
-  </div>
-
-  <!-- ═══════════ DIFFS ═══════════ -->
-  <div id="p-diffs" class="panel ">
-    <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
-  </div>
-
-  <!-- ═══════════ TIMELINE ═══════════ -->
-  <div id="p-timeline" class="panel ">
-    <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
-  </div>
-
-  <!-- ═══════════ COMPARE ═══════════ -->
-  
-</main>
-
-<script>
-mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
-  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(37,99,235,.1)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(37,99,235,.25)',lineColor:'rgba(100,116,139,.3)',secondaryColor:'rgba(16,185,129,.06)',tertiaryColor:'rgba(6,182,212,.06)',noteBkgColor:'rgba(37,99,235,.05)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(37,99,235,.15)',actorBkg:'rgba(37,99,235,.08)',actorBorder:'rgba(37,99,235,.2)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
-  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:12,messageFontSize:11,noteFontSize:10,boxTextMargin:8,mirrorActors:false,messageAlign:'center',actorMargin:30,bottomMarginAdj:4}
-});
-function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
-function tog(id,head){const el=document.getElementById(id);const o=el.style.display!=='none';el.style.display=o?'none':'block';head.querySelector('.chevron').style.transform=o?'':'rotate(180deg)'}
-
-/* Animate the gauge on load */
-requestAnimationFrame(()=>{setTimeout(()=>{document.querySelectorAll('.gauge-fill').forEach(c=>{const t=c.dataset.target||0;c.style.strokeDasharray=t+' 478'})},100)});
-
-
-(function(){
-  const passed=4,failed=1;
-  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
-  const tc='rgba(100,116,139,.6)',gc='rgba(255,255,255,.025)';
-  const tt={backgroundColor:'rgba(6,11,24,.95)',borderColor:'rgba(51,65,85,.5)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:11},bodyFont:{family:'Inter',size:11},padding:8,cornerRadius:6};
-
-  new Chart(document.getElementById('donut'),{type:'doughnut',data:{labels:['Passed','Failed'],datasets:[{data:[passed,failed],backgroundColor:['rgba(16,185,129,.6)','rgba(239,68,68,.6)'],borderColor:['rgba(16,185,129,.08)','rgba(239,68,68,.08)'],borderWidth:2,hoverOffset:4}]},options:{responsive:true,maintainAspectRatio:false,cutout:'78%',plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:10,weight:'500'},padding:12,boxWidth:7,boxHeight:7,usePointStyle:true,pointStyle:'circle'}},tooltip:{...tt,callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}});
-
-  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
-  /* Warning stripes for low scores */
-  const barBg=sorted.map(s=>{
-    if(s.score>=80) return 'rgba(16,185,129,.35)';
-    if(s.score>=60) return 'rgba(245,158,11,.35)';
-    return 'rgba(239,68,68,.35)';
-  });
-  const barBorder=sorted.map(s=>{
-    if(s.score>=80) return 'rgba(16,185,129,.55)';
-    if(s.score>=60) return 'rgba(245,158,11,.55)';
-    return 'rgba(239,68,68,.55)';
-  });
-  new Chart(document.getElementById('bars'),{type:'bar',
-    data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),backgroundColor:barBg,borderColor:barBorder,borderWidth:1,borderRadius:3,borderSkipped:false,barPercentage:.55,categoryPercentage:.8}]},
-    options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,
-      scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:9},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.7)',font:{family:'Inter',size:11,weight:'600'},padding:4,mirror:false},border:{display:false},afterFit:function(axis){axis.width=120}}},
-      plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
-})();
-
-
-
-
-
-</script>
-
-<!-- Share bar -->
-<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(6,11,24,.9);backdrop-filter:blur(16px);-webkit-backdrop-filter:blur(16px);border-top:1px solid var(--border);padding:8px 24px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:11px;color:var(--text-4)">
-  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:600">EvalView</a> <span style="opacity:.25;margin:0 5px">|</span> Agent testing &amp; regression detection</span>
-  <span style="display:flex;align-items:center;gap:5px">
-    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(29,155,240,.08);color:#1d9bf0;text-decoration:none;font-weight:600;font-size:10px;border:1px solid rgba(29,155,240,.1)"><svg width="12" height="12" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
-    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(255,255,255,.03);color:var(--text-2);text-decoration:none;font-weight:600;font-size:10px;border:1px solid var(--border)"><svg width="12" height="12" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
-  </span>
-</div>
-<div style="height:40px"></div>
-
-</body>
-</html>
\ No newline at end of file
diff --git a/evalview/commands/check_display.py b/evalview/commands/check_display.py
index c53fb48..f376c89 100644
--- a/evalview/commands/check_display.py
+++ b/evalview/commands/check_display.py
@@ -16,6 +16,96 @@
     from evalview.core.model_runtime_detector import ModelRuntimeChangeSummary
 
 
+def _aggregate_token_summary(
+    results: Optional[List["EvaluationResult"]],
+    golden_traces: Optional[Dict[str, "GoldenTrace"]] = None,
+) -> Optional[Dict[str, Any]]:
+    """Aggregate token usage and cost across test results.
+    
+    Computes total input/output/cached tokens and cost from all results.
+    Optionally calculates baseline comparison if golden traces are provided.
+    
+    Args:
+        results: List of evaluation results with token data
+        golden_traces: Optional baseline traces for comparison
+        
+    Returns:
+        Dict with token_usage, total_cost, baseline_token_usage, and token_delta_pct,
+        or None if no token data is available.
+    """
+    from evalview.core.types import TokenUsage
+
+    if not results:
+        return None
+
+    total_cost = 0.0
+    total_input = 0
+    total_output = 0
+    total_cached = 0
+    has_tokens = False
+
+    for r in results:
+        try:
+            total_cost += float(getattr(r.trace.metrics, "total_cost", 0) or 0)
+        except Exception:
+            pass
+
+        tu = getattr(getattr(r, "trace", None), "metrics", None)
+        tu = getattr(tu, "total_tokens", None)
+        if tu is None:
+            continue
+
+        has_tokens = True
+        total_input += int(getattr(tu, "input_tokens", 0) or 0)
+        total_output += int(getattr(tu, "output_tokens", 0) or 0)
+        total_cached += int(getattr(tu, "cached_tokens", 0) or 0)
+
+    if not has_tokens:
+        return None
+
+    current = TokenUsage(
+        input_tokens=total_input,
+        output_tokens=total_output,
+        cached_tokens=total_cached,
+    )
+
+    baseline_usage: Optional[TokenUsage] = None
+    delta_pct: Optional[float] = None
+    if golden_traces:
+        base_input = 0
+        base_output = 0
+        base_cached = 0
+        base_has_tokens = False
+        for r in results:
+            g = golden_traces.get(r.test_case)
+            if not g:
+                continue
+            gtu = getattr(getattr(g, "trace", None), "metrics", None)
+            gtu = getattr(gtu, "total_tokens", None)
+            if gtu is None:
+                continue
+            base_has_tokens = True
+            base_input += int(getattr(gtu, "input_tokens", 0) or 0)
+            base_output += int(getattr(gtu, "output_tokens", 0) or 0)
+            base_cached += int(getattr(gtu, "cached_tokens", 0) or 0)
+
+        if base_has_tokens:
+            baseline_usage = TokenUsage(
+                input_tokens=base_input,
+                output_tokens=base_output,
+                cached_tokens=base_cached,
+            )
+            if baseline_usage.total_tokens > 0:
+                delta_pct = (current.total_tokens - baseline_usage.total_tokens) / baseline_usage.total_tokens * 100.0
+
+    return {
+        "token_usage": current,
+        "total_cost": float(total_cost),
+        "baseline_token_usage": baseline_usage,
+        "token_delta_pct": delta_pct,
+    }
+
+
 def _print_parameter_diffs(tool_diffs: List["ToolDiff"]) -> None:
     """Print parameter-level differences for tool calls."""
     from rich.table import Table
@@ -400,6 +490,7 @@ def _display_check_results(
     behavior_summary = _build_behavior_summary(diffs, test_metadata, healing_summary)
 
     if json_output:
+        token_summary = _aggregate_token_summary(results, golden_traces)
         output = {
             "summary": {
                 "total_tests": len(diffs),
@@ -466,6 +557,13 @@ def _display_check_results(
                 for name, diff in diffs
             ],
         }
+        if token_summary is not None:
+            output["summary"]["token_usage"] = token_summary["token_usage"].model_dump()
+            output["summary"]["total_cost"] = token_summary["total_cost"]
+            if token_summary.get("baseline_token_usage") is not None:
+                output["summary"]["baseline_token_usage"] = token_summary["baseline_token_usage"].model_dump()  # type: ignore[union-attr]
+            if token_summary.get("token_delta_pct") is not None:
+                output["summary"]["token_delta_pct"] = token_summary["token_delta_pct"]
         if healing_summary:
             output["healing"] = {
                 "total_healed": healing_summary.total_healed,
@@ -547,6 +645,26 @@ def _display_check_results(
                 )
             console.print()
 
+        token_summary = _aggregate_token_summary(results, golden_traces)
+        if token_summary is not None:
+            from rich.table import Table
+
+            tu = token_summary["token_usage"]
+            delta_pct = token_summary.get("token_delta_pct")
+            delta_str = ""
+            if delta_pct is not None:
+                sign = "+" if delta_pct > 0 else ""
+                color = "red" if delta_pct > 10 else "yellow" if delta_pct > 0 else "green"
+                delta_str = f"  [{color}]({sign}{delta_pct:.0f}% tokens vs baseline)[/{color}]"
+
+            table = Table(show_header=False, show_lines=False, padding=(0, 1))
+            table.add_column("k", style="dim", width=12)
+            table.add_column("v")
+            table.add_row("Tokens", f"in {tu.input_tokens:,}  out {tu.output_tokens:,}  cached {tu.cached_tokens:,}  total {tu.total_tokens:,}{delta_str}")
+            table.add_row("Cost", f"${float(token_summary['total_cost']):.4f}")
+            console.print(table)
+            console.print()
+
         # --- Sparkline Trends ---
         if diffs and drift_tracker is not None:
             test_trends: Dict[str, List[float]] = {}
diff --git a/tests/test_check_cmd.py b/tests/test_check_cmd.py
index 2ed5928..1488747 100644
--- a/tests/test_check_cmd.py
+++ b/tests/test_check_cmd.py
@@ -6,6 +6,8 @@
 
 from click.testing import CliRunner
 
+import pytest
+
 
 def test_check_dry_run_handles_golden_metadata_objects(monkeypatch, tmp_path):
     """Dry-run should count baselines by name without hashing metadata models."""
@@ -140,6 +142,228 @@ def test_check_does_not_report_clean_when_execution_failures_occur(monkeypatch,
     assert "execution failure" in result.output
 
 
+def test_check_json_includes_token_usage_and_cost_summary(monkeypatch, tmp_path):
+    from evalview.commands.check_cmd import check
+    from evalview.core.diff import DiffStatus, TraceDiff
+    from evalview.core.golden import GoldenMetadata
+    from evalview.core.project_state import ProjectState
+    from evalview.core.types import (
+        ContainsChecks,
+        CostEvaluation,
+        EvaluationResult,
+        Evaluations,
+        ExecutionMetrics,
+        ExecutionTrace,
+        LatencyEvaluation,
+        OutputEvaluation,
+        SequenceEvaluation,
+        TokenUsage,
+        ToolEvaluation,
+    )
+
+    project = tmp_path
+    monkeypatch.chdir(project)
+
+    tests_dir = project / "tests"
+    tests_dir.mkdir()
+    (tests_dir / "sample.yaml").write_text(
+        "name: sample\ninput:\n  query: hi\nexpected:\n  tools: []\nthresholds:\n  min_score: 0\n",
+        encoding="utf-8",
+    )
+
+    evalview_dir = project / ".evalview"
+    evalview_dir.mkdir()
+    (evalview_dir / "config.yaml").write_text(
+        "adapter: http\nendpoint: http://example.com\n",
+        encoding="utf-8",
+    )
+
+    now = datetime.now()
+    sample_result = EvaluationResult(
+        test_case="sample",
+        passed=True,
+        score=90.0,
+        evaluations=Evaluations(
+            tool_accuracy=ToolEvaluation(accuracy=1.0),
+            sequence_correctness=SequenceEvaluation(correct=True, expected_sequence=[], actual_sequence=[]),
+            output_quality=OutputEvaluation(
+                score=90.0,
+                rationale="ok",
+                contains_checks=ContainsChecks(),
+                not_contains_checks=ContainsChecks(),
+            ),
+            cost=CostEvaluation(total_cost=0.0123, threshold=1.0, passed=True),
+            latency=LatencyEvaluation(total_latency=10.0, threshold=1000.0, passed=True),
+        ),
+        trace=ExecutionTrace(
+            session_id="s1",
+            start_time=now,
+            end_time=now,
+            steps=[],
+            final_output="ok",
+            metrics=ExecutionMetrics(
+                total_cost=0.0123,
+                total_latency=10.0,
+                total_tokens=TokenUsage(input_tokens=100, output_tokens=50, cached_tokens=25),
+            ),
+        ),
+        timestamp=now,
+    )
+
+    diff = TraceDiff(
+        test_name="sample",
+        has_differences=False,
+        tool_diffs=[],
+        output_diff=None,
+        score_diff=0.0,
+        latency_diff=0.0,
+        overall_severity=DiffStatus.PASSED,
+    )
+
+    runner = CliRunner()
+
+    monkeypatch.setattr("evalview.commands.check_cmd._cloud_pull", lambda store: None)
+    monkeypatch.setattr("evalview.commands.check_cmd._load_config_if_exists", lambda: None)
+    monkeypatch.setattr(
+        "evalview.core.golden.GoldenStore.list_golden",
+        lambda self: [GoldenMetadata(test_name="sample", blessed_at="2026-03-13T00:00:00Z", score=95.0)],
+    )
+
+    golden_tokens = TokenUsage(input_tokens=80, output_tokens=40, cached_tokens=20)
+    golden_traces = {
+        "sample": type(
+            "_G",
+            (),
+            {
+                "trace": type("_T", (), {"metrics": ExecutionMetrics(total_cost=0.01, total_latency=1.0, total_tokens=golden_tokens)})()
+            },
+        )()
+    }
+
+    monkeypatch.setattr(
+        "evalview.commands.check_cmd._execute_check_tests",
+        lambda test_cases, config, json_output, semantic_diff=False, timeout=30.0, skip_llm_judge=False, budget_tracker=None: ([
+            ("sample", diff)
+        ], [sample_result], None, golden_traces),
+    )
+    from evalview.core.project_state import ProjectStateStore
+    monkeypatch.setattr(ProjectStateStore, "load", lambda self: ProjectState())
+    monkeypatch.setattr(ProjectStateStore, "update_check", lambda self, has_regressions, status="passed": ProjectState())
+
+    result = runner.invoke(check, ["tests", "--json"])
+    assert result.exit_code == 0
+
+    import json as _json
+    payload = _json.loads(result.output)
+    assert "summary" in payload
+    assert payload["summary"]["token_usage"] == {"input_tokens": 100, "output_tokens": 50, "cached_tokens": 25}
+    assert payload["summary"]["total_cost"] == pytest.approx(0.0123)
+    assert payload["summary"]["baseline_token_usage"] == {"input_tokens": 80, "output_tokens": 40, "cached_tokens": 20}
+    assert payload["summary"]["token_delta_pct"] == pytest.approx(25.0)
+
+
+def test_check_json_omits_token_usage_when_unavailable(monkeypatch, tmp_path):
+    from evalview.commands.check_cmd import check
+    from evalview.core.diff import DiffStatus, TraceDiff
+    from evalview.core.golden import GoldenMetadata
+    from evalview.core.project_state import ProjectState
+    from evalview.core.types import (
+        ContainsChecks,
+        CostEvaluation,
+        EvaluationResult,
+        Evaluations,
+        ExecutionMetrics,
+        ExecutionTrace,
+        LatencyEvaluation,
+        OutputEvaluation,
+        SequenceEvaluation,
+        ToolEvaluation,
+    )
+
+    project = tmp_path
+    monkeypatch.chdir(project)
+
+    tests_dir = project / "tests"
+    tests_dir.mkdir()
+    (tests_dir / "sample.yaml").write_text(
+        "name: sample\ninput:\n  query: hi\nexpected:\n  tools: []\nthresholds:\n  min_score: 0\n",
+        encoding="utf-8",
+    )
+
+    evalview_dir = project / ".evalview"
+    evalview_dir.mkdir()
+    (evalview_dir / "config.yaml").write_text(
+        "adapter: http\nendpoint: http://example.com\n",
+        encoding="utf-8",
+    )
+
+    now = datetime.now()
+    sample_result = EvaluationResult(
+        test_case="sample",
+        passed=True,
+        score=90.0,
+        evaluations=Evaluations(
+            tool_accuracy=ToolEvaluation(accuracy=1.0),
+            sequence_correctness=SequenceEvaluation(correct=True, expected_sequence=[], actual_sequence=[]),
+            output_quality=OutputEvaluation(
+                score=90.0,
+                rationale="ok",
+                contains_checks=ContainsChecks(),
+                not_contains_checks=ContainsChecks(),
+            ),
+            cost=CostEvaluation(total_cost=0.0, threshold=1.0, passed=True),
+            latency=LatencyEvaluation(total_latency=10.0, threshold=1000.0, passed=True),
+        ),
+        trace=ExecutionTrace(
+            session_id="s1",
+            start_time=now,
+            end_time=now,
+            steps=[],
+            final_output="ok",
+            metrics=ExecutionMetrics(total_cost=0.0, total_latency=10.0, total_tokens=None),
+        ),
+        timestamp=now,
+    )
+
+    diff = TraceDiff(
+        test_name="sample",
+        has_differences=False,
+        tool_diffs=[],
+        output_diff=None,
+        score_diff=0.0,
+        latency_diff=0.0,
+        overall_severity=DiffStatus.PASSED,
+    )
+
+    runner = CliRunner()
+
+    monkeypatch.setattr("evalview.commands.check_cmd._cloud_pull", lambda store: None)
+    monkeypatch.setattr("evalview.commands.check_cmd._load_config_if_exists", lambda: None)
+    monkeypatch.setattr(
+        "evalview.core.golden.GoldenStore.list_golden",
+        lambda self: [GoldenMetadata(test_name="sample", blessed_at="2026-03-13T00:00:00Z", score=95.0)],
+    )
+    monkeypatch.setattr(
+        "evalview.commands.check_cmd._execute_check_tests",
+        lambda test_cases, config, json_output, semantic_diff=False, timeout=30.0, skip_llm_judge=False, budget_tracker=None: ([
+            ("sample", diff)
+        ], [sample_result], None, {}),
+    )
+    from evalview.core.project_state import ProjectStateStore
+    monkeypatch.setattr(ProjectStateStore, "load", lambda self: ProjectState())
+    monkeypatch.setattr(ProjectStateStore, "update_check", lambda self, has_regressions, status="passed": ProjectState())
+
+    result = runner.invoke(check, ["tests", "--json"])
+    assert result.exit_code == 0
+
+    import json as _json
+    payload = _json.loads(result.output)
+    assert "summary" in payload
+    assert "token_usage" not in payload["summary"]
+    assert "baseline_token_usage" not in payload["summary"]
+    assert "token_delta_pct" not in payload["summary"]
+
+
 def test_check_uses_active_test_path_when_no_path_is_given(monkeypatch, tmp_path):
     """Plain `check` should follow the remembered active suite instead of raw tests/."""
     from evalview.commands.check_cmd import check

From d9782603446e4a06bf3ac4f595c53fa2e3f946e5 Mon Sep 17 00:00:00 2001
From: gxt <gauravkthakur2002@gmail.com>
Date: Sun, 19 Apr 2026 15:22:05 +0530
Subject: [PATCH 2/5] Fix type check error

---
 evalview/commands/check_display.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/evalview/commands/check_display.py b/evalview/commands/check_display.py
index f376c89..aa8fb44 100644
--- a/evalview/commands/check_display.py
+++ b/evalview/commands/check_display.py
@@ -649,7 +649,7 @@ def _display_check_results(
         if token_summary is not None:
             from rich.table import Table
 
-            tu = token_summary["token_usage"]
+            tu = token_summary["token_usage"]  # type: ignore[assignment]
             delta_pct = token_summary.get("token_delta_pct")
             delta_str = ""
             if delta_pct is not None:

From f5e87cc36f77cfa0ee41d6be37036501ccde50f0 Mon Sep 17 00:00:00 2001
From: gxt <gauravkthakur2002@gmail.com>
Date: Sun, 19 Apr 2026 15:22:05 +0530
Subject: [PATCH 3/5] Fix type check error

---
 evalview/commands/check_display.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/evalview/commands/check_display.py b/evalview/commands/check_display.py
index f376c89..1be9f4b 100644
--- a/evalview/commands/check_display.py
+++ b/evalview/commands/check_display.py
@@ -98,7 +98,7 @@ def _aggregate_token_summary(
             if baseline_usage.total_tokens > 0:
                 delta_pct = (current.total_tokens - baseline_usage.total_tokens) / baseline_usage.total_tokens * 100.0
 
-    return {
+    return {  # type: ignore[return-value]
         "token_usage": current,
         "total_cost": float(total_cost),
         "baseline_token_usage": baseline_usage,
@@ -649,7 +649,7 @@ def _display_check_results(
         if token_summary is not None:
             from rich.table import Table
 
-            tu = token_summary["token_usage"]
+            tu = token_summary["token_usage"]  # type: ignore[assignment]
             delta_pct = token_summary.get("token_delta_pct")
             delta_str = ""
             if delta_pct is not None:

From 75342fbd761dd1decb5a6c4f81ce9c505a893245 Mon Sep 17 00:00:00 2001
From: gxt <gauravkthakur2002@gmail.com>
Date: Mon, 20 Apr 2026 20:24:15 +0530
Subject: [PATCH 4/5] Restore accidentally deleted files

---
 .env.example                               |   23 +
 .evalview/badge.json                       |    6 +
 .evalview/healing/2026-03-25T11-12-54.json |   72 ++
 .evalview/healing/2026-03-25T11-13-40.json |   72 ++
 .evalview/healing/2026-03-25T11-23-25.json |   45 +
 .evalview/healing/2026-03-28T22-06-19.json |   47 +
 .evalview/latest-check.html                | 1002 ++++++++++++++++++++
 .evalview/latest-redesign-v2.html          |  681 +++++++++++++
 .evalview/latest-redesign.html             |  956 +++++++++++++++++++
 .evalview/latest-v3.html                   |  681 +++++++++++++
 .evalview/latest-v4.html                   |  708 ++++++++++++++
 .evalview/latest-v5.html                   |  689 ++++++++++++++
 .evalview/latest-v6.html                   |  616 ++++++++++++
 .evalview/latest-v6b.html                  |  616 ++++++++++++
 .evalview/latest-v6c.html                  |  603 ++++++++++++
 15 files changed, 6817 insertions(+)
 create mode 100644 .env.example
 create mode 100644 .evalview/badge.json
 create mode 100644 .evalview/healing/2026-03-25T11-12-54.json
 create mode 100644 .evalview/healing/2026-03-25T11-13-40.json
 create mode 100644 .evalview/healing/2026-03-25T11-23-25.json
 create mode 100644 .evalview/healing/2026-03-28T22-06-19.json
 create mode 100644 .evalview/latest-check.html
 create mode 100644 .evalview/latest-redesign-v2.html
 create mode 100644 .evalview/latest-redesign.html
 create mode 100644 .evalview/latest-v3.html
 create mode 100644 .evalview/latest-v4.html
 create mode 100644 .evalview/latest-v5.html
 create mode 100644 .evalview/latest-v6.html
 create mode 100644 .evalview/latest-v6b.html
 create mode 100644 .evalview/latest-v6c.html

diff --git a/.env.example b/.env.example
new file mode 100644
index 0000000..0752640
--- /dev/null
+++ b/.env.example
@@ -0,0 +1,23 @@
+# EvalView Environment Configuration
+# Copy this file to .env and fill in your values:
+#   cp .env.example .env
+
+# OpenAI API Key (required for LLM-as-judge evaluation)
+# Get yours at: https://platform.openai.com/api-keys
+OPENAI_API_KEY=your-openai-api-key-here
+
+# Optional: Anthropic API Key (for Claude-based evaluation)
+# ANTHROPIC_API_KEY=your-anthropic-api-key-here
+
+# Optional: Custom model for LLM-as-judge (default: gpt-4o-mini)
+# EVALVIEW_JUDGE_MODEL=gpt-4o
+
+# Optional: Enable debug logging
+# DEBUG=1
+
+# ============================================
+# Telemetry
+# ============================================
+
+# Disable anonymous usage analytics (enabled by default)
+# EVALVIEW_TELEMETRY_DISABLED=1
diff --git a/.evalview/badge.json b/.evalview/badge.json
new file mode 100644
index 0000000..07ad528
--- /dev/null
+++ b/.evalview/badge.json
@@ -0,0 +1,6 @@
+{
+  "label": "evalview",
+  "message": "3 regressions",
+  "color": "red",
+  "schemaVersion": 1
+}
diff --git a/.evalview/healing/2026-03-25T11-12-54.json b/.evalview/healing/2026-03-25T11-12-54.json
new file mode 100644
index 0000000..3fdc9b9
--- /dev/null
+++ b/.evalview/healing/2026-03-25T11-12-54.json
@@ -0,0 +1,72 @@
+{
+  "results": [
+    {
+      "test_name": "Service Outage Login Issue",
+      "original_status": "tools_changed",
+      "diagnosis": {
+        "action": "flag_review",
+        "trigger": "structural_change",
+        "reason": "tool change detected — review needed",
+        "root_cause_category": null,
+        "details": {
+          "tool_changes": [
+            "added: ? -> escalate_to_human"
+          ]
+        }
+      },
+      "attempted": false,
+      "healed": false,
+      "proposed": false,
+      "final_status": "tools_changed",
+      "original_score": 98.0,
+      "baseline_score": 96.5,
+      "retry_score": null,
+      "retry_status": null,
+      "baseline_model": "gpt-4o-mini",
+      "actual_model": "gpt-4o-mini",
+      "variant_saved": null,
+      "variant_path": null
+    },
+    {
+      "test_name": "Refund for Damaged Blender",
+      "original_status": "tools_changed",
+      "diagnosis": {
+        "action": "flag_review",
+        "trigger": "param_change",
+        "reason": "parameter changes detected — review needed",
+        "root_cause_category": null,
+        "details": {
+          "param_diffs": 3
+        }
+      },
+      "attempted": false,
+      "healed": false,
+      "proposed": false,
+      "final_status": "tools_changed",
+      "original_score": 86.7,
+      "baseline_score": 89.55,
+      "retry_score": null,
+      "retry_status": null,
+      "baseline_model": "gpt-4o-mini",
+      "actual_model": "gpt-4o-mini",
+      "variant_saved": null,
+      "variant_path": null
+    }
+  ],
+  "total_healed": 0,
+  "total_proposed": 0,
+  "total_review": 2,
+  "total_blocked": 0,
+  "attempted_count": 0,
+  "unresolved_count": 2,
+  "failed_count": 2,
+  "policy_version": "v1",
+  "thresholds": {
+    "min_variant_score": 70.0,
+    "max_cost_multiplier": 2.0,
+    "max_latency_multiplier": 3.0,
+    "max_auto_variants": 3.0
+  },
+  "model_update": null,
+  "audit_path": null
+}
\ No newline at end of file
diff --git a/.evalview/healing/2026-03-25T11-13-40.json b/.evalview/healing/2026-03-25T11-13-40.json
new file mode 100644
index 0000000..9a400ee
--- /dev/null
+++ b/.evalview/healing/2026-03-25T11-13-40.json
@@ -0,0 +1,72 @@
+{
+  "results": [
+    {
+      "test_name": "Service Outage Login Issue",
+      "original_status": "tools_changed",
+      "diagnosis": {
+        "action": "flag_review",
+        "trigger": "structural_change",
+        "reason": "tool change detected — review needed",
+        "root_cause_category": null,
+        "details": {
+          "tool_changes": [
+            "added: ? -> escalate_to_human"
+          ]
+        }
+      },
+      "attempted": false,
+      "healed": false,
+      "proposed": false,
+      "final_status": "tools_changed",
+      "original_score": 98.5,
+      "baseline_score": 96.5,
+      "retry_score": null,
+      "retry_status": null,
+      "baseline_model": "gpt-4o-mini",
+      "actual_model": "gpt-4o-mini",
+      "variant_saved": null,
+      "variant_path": null
+    },
+    {
+      "test_name": "Refund for Damaged Blender",
+      "original_status": "regression",
+      "diagnosis": {
+        "action": "flag_review",
+        "trigger": "param_change",
+        "reason": "parameter changes detected — review needed",
+        "root_cause_category": null,
+        "details": {
+          "param_diffs": 3
+        }
+      },
+      "attempted": false,
+      "healed": false,
+      "proposed": false,
+      "final_status": "regression",
+      "original_score": 83.6,
+      "baseline_score": 89.55,
+      "retry_score": null,
+      "retry_status": null,
+      "baseline_model": "gpt-4o-mini",
+      "actual_model": "gpt-4o-mini",
+      "variant_saved": null,
+      "variant_path": null
+    }
+  ],
+  "total_healed": 0,
+  "total_proposed": 0,
+  "total_review": 2,
+  "total_blocked": 0,
+  "attempted_count": 0,
+  "unresolved_count": 2,
+  "failed_count": 2,
+  "policy_version": "v1",
+  "thresholds": {
+    "min_variant_score": 70.0,
+    "max_cost_multiplier": 2.0,
+    "max_latency_multiplier": 3.0,
+    "max_auto_variants": 3.0
+  },
+  "model_update": null,
+  "audit_path": null
+}
\ No newline at end of file
diff --git a/.evalview/healing/2026-03-25T11-23-25.json b/.evalview/healing/2026-03-25T11-23-25.json
new file mode 100644
index 0000000..915780b
--- /dev/null
+++ b/.evalview/healing/2026-03-25T11-23-25.json
@@ -0,0 +1,45 @@
+{
+  "results": [
+    {
+      "test_name": "Refund for Damaged Blender",
+      "original_status": "regression",
+      "diagnosis": {
+        "action": "flag_review",
+        "trigger": "param_change",
+        "reason": "parameter changes detected — review needed",
+        "root_cause_category": null,
+        "details": {
+          "param_diffs": 3
+        }
+      },
+      "attempted": false,
+      "healed": false,
+      "proposed": false,
+      "final_status": "regression",
+      "original_score": 82.35,
+      "baseline_score": 89.55,
+      "retry_score": null,
+      "retry_status": null,
+      "baseline_model": "gpt-4o-mini",
+      "actual_model": "gpt-4o-mini",
+      "variant_saved": null,
+      "variant_path": null
+    }
+  ],
+  "total_healed": 0,
+  "total_proposed": 0,
+  "total_review": 1,
+  "total_blocked": 0,
+  "attempted_count": 0,
+  "unresolved_count": 1,
+  "failed_count": 1,
+  "policy_version": "v1",
+  "thresholds": {
+    "min_variant_score": 70.0,
+    "max_cost_multiplier": 2.0,
+    "max_latency_multiplier": 3.0,
+    "max_auto_variants": 3.0
+  },
+  "model_update": null,
+  "audit_path": null
+}
\ No newline at end of file
diff --git a/.evalview/healing/2026-03-28T22-06-19.json b/.evalview/healing/2026-03-28T22-06-19.json
new file mode 100644
index 0000000..b189b8a
--- /dev/null
+++ b/.evalview/healing/2026-03-28T22-06-19.json
@@ -0,0 +1,47 @@
+{
+  "results": [
+    {
+      "test_name": "Office Sign-In Outage Check",
+      "original_status": "output_changed",
+      "diagnosis": {
+        "action": "propose_variant",
+        "trigger": "nondeterminism",
+        "reason": "saved candidate variant auto_heal_a3c6 (score 86.0)",
+        "root_cause_category": null,
+        "details": {
+          "retry_status": "regression",
+          "named_variant_count_before": 0,
+          "max_auto_variants": 3
+        }
+      },
+      "attempted": true,
+      "healed": false,
+      "proposed": true,
+      "final_status": "regression",
+      "original_score": 92.0,
+      "baseline_score": 93.5,
+      "retry_score": 86.0,
+      "retry_status": "regression",
+      "baseline_model": "gpt-4o-mini",
+      "actual_model": "gpt-4o-mini",
+      "variant_saved": "auto_heal_a3c6",
+      "variant_path": ".evalview/golden/Office_Sign-In_Outage_Check.variant_auto_heal_a3c6.golden.json"
+    }
+  ],
+  "total_healed": 0,
+  "total_proposed": 1,
+  "total_review": 0,
+  "total_blocked": 0,
+  "attempted_count": 1,
+  "unresolved_count": 1,
+  "failed_count": 1,
+  "policy_version": "v1",
+  "thresholds": {
+    "min_variant_score": 70.0,
+    "max_cost_multiplier": 2.0,
+    "max_latency_multiplier": 3.0,
+    "max_auto_variants": 3.0
+  },
+  "model_update": null,
+  "audit_path": null
+}
\ No newline at end of file
diff --git a/.evalview/latest-check.html b/.evalview/latest-check.html
new file mode 100644
index 0000000..47d4b9d
--- /dev/null
+++ b/.evalview/latest-check.html
@@ -0,0 +1,1002 @@
+<!doctype html>
+<html lang="en">
+<head>
+<meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1.0">
+<title>EvalView Check Report</title>
+<link rel="preconnect" href="https://fonts.googleapis.com">
+<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
+<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
+<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
+<style>
+*{box-sizing:border-box;margin:0;padding:0}
+:root{
+  --green:#10b981;--green-bright:#34d399;
+  --red:#ef4444;--red-bright:#f87171;
+  --yellow:#f59e0b;--yellow-bright:#fbbf24;
+  --blue:#2563eb;--blue-bright:#3b82f6;
+  --teal:#0d9488;--teal-bright:#14b8a6;
+  --cyan:#06b6d4;
+  --bg:#060b18;--bg-card:rgba(12,20,36,.75);
+  --border:rgba(51,65,85,.45);--border-light:rgba(71,85,105,.5);
+  --text:#f1f5f9;--text-2:#94a3b8;--text-3:#64748b;--text-4:#475569;
+  --r:16px;--r-sm:12px;--r-xs:8px;
+  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
+  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
+}
+html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
+body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;background:var(--bg)}
+
+/* ── Header ── */
+.header{
+  position:sticky;top:0;z-index:200;
+  background:rgba(6,11,24,.85);border-bottom:1px solid var(--border);
+  backdrop-filter:blur(20px);-webkit-backdrop-filter:blur(20px);
+  padding:0 40px;height:52px;display:flex;align-items:center;justify-content:space-between;
+}
+.logo{display:flex;align-items:center;gap:10px}
+.logo-icon{width:28px;height:28px;border-radius:7px;flex-shrink:0;background:linear-gradient(135deg,var(--blue-bright),var(--teal));display:flex;align-items:center;justify-content:center;font-size:13px;box-shadow:0 2px 10px rgba(37,99,235,.2)}
+.logo-text{font-size:14px;font-weight:700;letter-spacing:-.02em;color:var(--text)}
+.logo-sub{font-size:10px;color:var(--text-4);font-weight:400}
+.header-right{display:flex;align-items:center;gap:6px}
+
+/* ── Badges ── */
+.badge{display:inline-flex;align-items:center;gap:4px;padding:3px 10px;border-radius:20px;font-size:11px;font-weight:600;white-space:nowrap}
+.b-green{background:rgba(16,185,129,.12);color:var(--green-bright);border:1px solid rgba(16,185,129,.25)}
+.b-red{background:rgba(239,68,68,.12);color:var(--red-bright);border:1px solid rgba(239,68,68,.25)}
+.b-yellow{background:rgba(245,158,11,.12);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.25)}
+.b-cyan{background:rgba(6,182,212,.12);color:#67e8f9;border:1px solid rgba(6,182,212,.25)}
+
+/* ── Dashboard Gauge ── */
+.health-gauge{display:flex;align-items:center;gap:16px;padding:16px 20px}
+.gauge-ring{position:relative;width:80px;height:80px;flex-shrink:0}
+.gauge-ring svg{transform:rotate(-90deg)}
+.gauge-ring .gauge-text{position:absolute;inset:0;display:flex;align-items:center;justify-content:center;font-size:18px;font-weight:800;letter-spacing:-.02em}
+.gauge-stats{display:flex;flex-direction:column;gap:4px}
+.gauge-stat{font-size:12px;display:flex;align-items:center;gap:6px}
+.gauge-dot{width:8px;height:8px;border-radius:50%;flex-shrink:0}
+.confidence-badge{display:inline-flex;align-items:center;gap:4px;padding:2px 8px;border-radius:12px;font-size:10px;font-weight:600;margin-left:8px}
+.conf-high{background:rgba(239,68,68,.15);color:var(--red-bright);border:1px solid rgba(239,68,68,.2)}
+.conf-medium{background:rgba(245,158,11,.15);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.2)}
+.conf-low{background:rgba(100,116,139,.15);color:var(--text-3);border:1px solid rgba(100,116,139,.2)}
+.conf-insufficient{background:rgba(100,116,139,.08);color:var(--text-4);border:1px solid rgba(100,116,139,.15)}
+.accept-box{margin:8px 18px 12px;padding:12px 16px;border-radius:var(--r-xs);border:1px solid rgba(16,185,129,.25);background:rgba(16,185,129,.06)}
+.accept-box.neutral{border-color:rgba(245,158,11,.25);background:rgba(245,158,11,.06)}
+.accept-box code{background:rgba(255,255,255,.06);padding:3px 8px;border-radius:4px;font-family:var(--mono);font-size:11px;border:1px solid var(--border);user-select:all}
+.b-blue{background:rgba(37,99,235,.12);color:var(--blue-bright);border:1px solid rgba(37,99,235,.25)}
+.b-purple{background:rgba(13,148,136,.12);color:var(--teal-bright);border:1px solid rgba(13,148,136,.25)}
+
+/* ── Layout ── */
+.main{max-width:1160px;margin:0 auto;padding:28px 36px 80px;position:relative;z-index:1}
+
+/* ── Tabs ── */
+.tabbar{display:flex;gap:0;background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:3px;margin-bottom:28px}
+.tab{flex:1;text-align:center;background:none;border:none;color:var(--text-4);cursor:pointer;font:600 12px/1 var(--font);padding:10px 12px;border-radius:9px;transition:all .15s}
+.tab:hover{color:var(--text-2);background:rgba(255,255,255,.03)}
+.tab.on{color:#fff;background:rgba(37,99,235,.18);border:1px solid rgba(37,99,235,.3)}
+.panel{display:none}.panel.on{display:block}
+
+/* ══════════════════════════════════════════════
+   KPI STRIP — compact horizontal bar
+   ══════════════════════════════════════════════ */
+.kpi-strip{
+  display:flex;align-items:center;gap:0;
+  background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);
+  overflow:hidden;margin-bottom:14px;padding:10px 0;flex-wrap:wrap;
+}
+.kpi-item{
+  display:flex;align-items:center;gap:8px;padding:4px 20px;
+  border-right:1px solid var(--border);white-space:nowrap;
+}
+.kpi-item:last-child{border-right:none}
+.kpi-dot{width:8px;height:8px;border-radius:50%;flex-shrink:0}
+.kpi-dot.green{background:var(--green);box-shadow:0 0 6px rgba(16,185,129,.4)}
+.kpi-dot.yellow{background:var(--yellow);box-shadow:0 0 6px rgba(245,158,11,.4)}
+.kpi-dot.red{background:var(--red);box-shadow:0 0 6px rgba(239,68,68,.4)}
+.kpi-val{font-size:13px;font-weight:700;color:var(--text)}
+.kpi-label{font-size:11px;color:var(--text-3);font-weight:500}
+
+/* ── Card ── */
+.card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);padding:20px 22px;margin-bottom:14px;position:relative;overflow:hidden}
+.card-title{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:14px;display:flex;align-items:center;gap:7px}
+.card-title::before{content:'';width:3px;height:11px;border-radius:2px;background:var(--blue-bright)}
+.chart-wrap{position:relative}
+
+/* ── Meta row ── */
+.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-bottom:14px}
+@media(max-width:800px){.meta-row{grid-template-columns:1fr}}
+.meta-card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:14px 18px}
+.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:5px}
+.meta-value{font-size:14px;font-weight:700;color:var(--text)}
+.meta-sub{font-size:11px;color:var(--text-4);margin-top:3px}
+.healing-grid{display:grid;grid-template-columns:1.2fr .8fr;gap:12px;margin-bottom:14px}
+@media(max-width:800px){.healing-grid{grid-template-columns:1fr}}
+.healing-list{display:flex;flex-direction:column;gap:8px}
+.healing-row{display:flex;align-items:flex-start;justify-content:space-between;gap:10px;padding:10px 12px;border:1px solid var(--border);border-radius:var(--r-xs);background:rgba(255,255,255,.02)}
+.healing-name{font-weight:700;font-size:13px;color:var(--text)}
+.healing-reason{font-size:11px;color:var(--text-3);margin-top:3px}
+
+/* ── Chart row ── */
+
+/* ── Trace items ── */
+.item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden;transition:border-color .15s}
+.item:hover{border-color:var(--border-light)}
+.item-head{padding:12px 18px;display:flex;align-items:center;gap:10px;cursor:pointer;transition:background .1s}
+.item-head:hover{background:rgba(255,255,255,.015)}
+.item-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
+.item-meta{display:flex;align-items:center;gap:5px;flex-shrink:0;flex-wrap:wrap}
+.mc{display:inline-flex;align-items:center;gap:3px;padding:2px 7px;border-radius:4px;background:rgba(255,255,255,.035);font-size:10px;font-weight:500;color:var(--text-3);white-space:nowrap}
+.chevron{color:var(--text);font-size:18px;transition:transform .2s;flex-shrink:0;width:24px;height:24px;display:inline-flex;align-items:center;justify-content:center;border-radius:6px;background:rgba(255,255,255,.05);border:1px solid var(--border)}
+.item-head:hover .chevron{background:rgba(255,255,255,.08);border-color:var(--border-light)}
+details[open] .turn-chevron{transform:rotate(90deg)}
+.item-body{padding:18px;border-top:1px solid var(--border);background:rgba(0,0,0,.12)}
+.mermaid-box{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-sm);padding:14px 14px;overflow-x:auto;min-height:120px}
+.mermaid-box svg{min-width:400px;max-width:100%;height:auto;display:block;margin:0 auto}
+.mermaid-box .mermaid{min-width:500px}
+.mermaid-box line.actor-line{stroke-dasharray:4 4;stroke:rgba(100,116,139,.15) !important}
+
+/* ── Chat turns ── */
+.chat-container{margin-top:16px;padding:14px;background:rgba(0,0,0,.1);border:1px solid rgba(51,65,85,.25);border-radius:var(--r-sm)}
+.chat-header{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:12px;padding-bottom:8px;border-bottom:1px solid rgba(51,65,85,.25)}
+.chat-messages{display:flex;flex-direction:column;gap:3px}
+.chat-bubble{max-width:78%;padding:9px 13px;font-size:13px;line-height:1.5;border-radius:12px}
+.chat-bubble.user{align-self:flex-end;background:rgba(37,99,235,.1);border:1px solid rgba(37,99,235,.18);color:var(--text);border-bottom-right-radius:3px}
+.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.025);border:1px solid rgba(51,65,85,.35);color:var(--text-2);border-bottom-left-radius:3px}
+.chat-meta{display:flex;align-items:center;gap:6px;padding:4px 2px;font-size:10px;color:var(--text-4);font-weight:500}
+.chat-meta.right{justify-content:flex-end}
+.chat-tool-tag{display:inline-flex;padding:1px 6px;border-radius:3px;background:rgba(37,99,235,.07);border:1px solid rgba(37,99,235,.12);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
+.chat-eval{padding:5px 9px;border-radius:6px;font-size:11px;font-weight:600;max-width:78%}
+.chat-eval.pass{align-self:flex-start;background:rgba(16,185,129,.07);border:1px solid rgba(16,185,129,.18);color:var(--green-bright)}
+.chat-eval.fail{align-self:flex-start;background:rgba(239,68,68,.07);border:1px solid rgba(239,68,68,.18);color:var(--red-bright)}
+
+/* ── Diffs ── */
+.diff-item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden}
+.diff-head{padding:12px 18px;display:flex;align-items:center;gap:8px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
+.diff-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
+.diff-cols{display:grid;grid-template-columns:1fr 1fr}
+.diff-col{padding:14px 18px}
+.diff-col+.diff-col{border-left:1px solid var(--border)}
+.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;margin-bottom:7px}
+.tags{display:flex;flex-wrap:wrap;gap:3px;margin-bottom:7px}
+.tag{background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);border-radius:4px;padding:2px 7px;font-size:11px;font-family:var(--mono);font-weight:500}
+.tag.add{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
+.tag.rem{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
+.outbox{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:10px;font:12px/1.6 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:180px;overflow-y:auto}
+.difflines{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:8px;font:11px/1.6 var(--mono);max-height:180px;overflow-y:auto;margin-top:7px}
+.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
+.difflines .r{color:var(--red-bright);background:rgba(239,68,68,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
+.sim{display:inline-flex;align-items:center;gap:4px;font-size:11px;color:var(--text-3)}
+.sim-track{width:40px;height:3px;background:rgba(255,255,255,.06);border-radius:2px;overflow:hidden;display:inline-block;vertical-align:middle}
+.sim-fill{height:100%;border-radius:2px}
+.sim-fill.hi{background:var(--green)}.sim-fill.mid{background:var(--yellow)}.sim-fill.lo{background:var(--red)}
+.pipeline{display:flex;flex-direction:column;gap:5px;padding:12px 18px;border-top:1px solid var(--border)}
+.pipeline-row{display:flex;align-items:center;gap:3px;flex-wrap:wrap}
+.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;width:60px;flex-shrink:0}
+.pipe-step{display:inline-flex;padding:3px 9px;border-radius:4px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);color:var(--text-2);position:relative}
+.pipe-step+.pipe-step{margin-left:5px}
+.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-12px;color:var(--text-4);font-size:9px;font-family:var(--font)}
+.pipe-step.match{border-color:rgba(37,99,235,.2);background:rgba(37,99,235,.04)}
+.pipe-step.added{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
+.pipe-step.removed{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
+.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:10px;margin-top:12px;padding-top:12px;border-top:1px solid var(--border)}
+.traj-col .col-title{padding-bottom:6px}
+
+/* ── Tables ── */
+.ev-table{width:100%;border-collapse:collapse;font-size:13px}
+.ev-table th{text-align:left;padding:7px 10px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
+.ev-table td{padding:9px 10px;border-bottom:1px solid rgba(51,65,85,.25)}
+.ev-table tr:hover td{background:rgba(255,255,255,.012)}
+.ev-table .mono{font-family:var(--mono);font-size:12px}
+.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
+.param-table{width:100%;border-collapse:collapse;font-size:12px}
+.param-table th{text-align:left;padding:5px 9px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
+.param-table td{padding:5px 9px;border-bottom:1px solid rgba(51,65,85,.25)}
+table td,table th{transition:background .1s}
+.empty{text-align:center;padding:64px 40px;color:var(--text-4)}
+.empty-icon{font-size:32px;margin-bottom:10px;display:block;opacity:.25}
+.empty code{background:rgba(255,255,255,.05);padding:2px 7px;border-radius:4px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
+::-webkit-scrollbar{width:4px;height:4px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.07);border-radius:3px}
+</style>
+</head>
+<body>
+
+<header class="header">
+  <div class="logo">
+    <div class="logo-icon">◈</div>
+    <div><div class="logo-text">EvalView Check Report</div><div class="logo-sub">2026-04-06 19:57</div></div>
+  </div>
+  <div class="header-right">
+    <span class="badge b-red">✗ Final Outcome Failing</span>
+    <span class="badge b-red">✗ 3 Failed</span><span class="badge b-blue">3 Tests</span>
+  </div>
+</header>
+
+<main class="main">
+  <div class="tabbar">
+    <button class="tab " onclick="show('overview',this)">Overview</button>
+    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
+    <button class="tab on" onclick="show('diffs',this)">Diffs</button>
+    <button class="tab " onclick="show('timeline',this)">Timeline</button>
+    
+  </div>
+
+  <!-- ═══════════ OVERVIEW ═══════════ -->
+  <div id="p-overview" class="panel ">
+    
+
+    <!-- KPI Strip -->
+    <div class="kpi-strip">
+      <div class="kpi-item">
+        <span class="kpi-dot red"></span>
+        <span class="kpi-val" style="color:var(--red-bright)">0.0% passed</span>
+        <span class="kpi-label">(0/3)</span>
+      </div>
+      <div class="kpi-item">
+        <span class="kpi-val" style="color:var(--red-bright)">Avg 24.2/100</span>
+      </div>
+      <div class="kpi-item">
+        <span class="kpi-val" style="color:var(--blue-bright)">$0</span>
+        <span class="kpi-label">total</span>
+      </div>
+      <div class="kpi-item">
+        <span class="kpi-val">281135ms</span>
+        <span class="kpi-label">avg</span>
+      </div>
+      <div class="kpi-item">
+        <span class="kpi-val">Unknown</span>
+        
+      </div>
+    </div>
+    
+    <!-- Health Gauge + Trend Sparklines (or Score Per Test if no trends) -->
+    <div class="meta-row">
+      <div class="card" style="margin-bottom:0">
+        <div class="card-title">Health Gauge</div>
+        <div class="health-gauge">
+          <div class="gauge-ring">
+            <svg viewBox="0 0 36 36">
+              <path d="M18 2.0845 a 15.9155 15.9155 0 0 1 0 31.831 a 15.9155 15.9155 0 0 1 0 -31.831" fill="none" stroke="rgba(255,255,255,.06)" stroke-width="3"/>
+              <path d="M18 2.0845 a 15.9155 15.9155 0 0 1 0 31.831 a 15.9155 15.9155 0 0 1 0 -31.831" fill="none" stroke="var(--red-bright)" stroke-width="3" stroke-dasharray="0, 100" stroke-linecap="round"/>
+            </svg>
+            <span class="gauge-text" style="color:var(--red-bright)">0%</span>
+          </div>
+          <div class="gauge-stats">
+            
+            <div class="gauge-stat"><span class="gauge-dot" style="background:var(--red)"></span> 3 failed</div>
+            <div class="gauge-stat"><span class="gauge-dot" style="background:var(--red)"></span> 3 regressions</div>
+            
+          </div>
+        </div>
+      </div>
+      
+      <div class="card" style="margin-bottom:0">
+        <div class="card-title">Score Trends</div>
+        <div style="height:134px;position:relative"><canvas id="trendChart"></canvas></div>
+      </div>
+      
+    </div>
+    
+    
+    
+    
+    
+    <div class="card">
+      <div class="card-title">Behavior Summary</div>
+      <table class="ev-table">
+        <thead><tr><th>Behavior</th><th>Total</th><th>Passed</th><th>Changed</th><th>Regressions</th><th>Healed</th></tr></thead>
+        <tbody>
+          
+          <tr>
+            <td style="font-weight:700">untagged</td>
+            <td class="mono num">3</td>
+            <td class="mono num" style="color:var(--green-bright)">0</td>
+            <td class="mono num" style="color:var(--yellow-bright)">0</td>
+            <td class="mono num" style="color:var(--red-bright)">3</td>
+            <td class="mono num" style="color:var(--blue-bright)">0</td>
+          </tr>
+          
+        </tbody>
+      </table>
+    </div>
+    
+    
+    
+    <div class="meta-row" style="grid-template-columns:1fr 1fr 1fr">
+      
+      <div class="meta-card">
+        <div class="meta-label">Baseline Snapshot</div>
+        <div class="meta-value">2026-04-06 13:26</div>
+        <div class="meta-sub">Model: Not recorded in snapshot</div>
+      </div>
+      
+      
+      <div class="meta-card">
+        <div class="meta-label">EvalView Judge (openai/gpt-5.4-mini)</div>
+        <div class="meta-value">$0.000305</div>
+        <div class="meta-sub">2,489 tokens across 6 judge calls</div>
+      </div>
+      <div class="meta-card">
+        <div class="meta-label">Token Breakdown</div>
+        <div class="meta-value">in 2,301 / out 188</div>
+        <div class="meta-sub">$0.1/M input, $0.4/M output</div>
+      </div>
+      
+    </div>
+    
+
+    <!-- Score chart (full width) — only show separately when trends exist (otherwise it's already in the meta-row above) -->
+    
+    <div class="card">
+      <div class="card-title">Score per Test</div>
+      <div class="chart-wrap" style="height:144px"><canvas id="bars"></canvas></div>
+    </div>
+    
+
+    <!-- Cost table -->
+    <div class="card">
+      <div class="card-title">Execution Cost per Query</div>
+      <table class="ev-table">
+        
+        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Latency</th><th>Score</th></tr></thead>
+        <tbody>
+          <tr>
+            <td style="font-weight:600">implement</td>
+            <td class="mono" style="color:var(--text-4)">Unknown</td>
+            <td class="mono num" style="color:var(--text-4)">$0</td>
+            
+            <td style="color:var(--text-3)">360030ms</td>
+            <td class="num" style="color:var(--red-bright)">20.0</td>
+          </tr><tr>
+            <td style="font-weight:600">bug-fix</td>
+            <td class="mono" style="color:var(--text-4)">Unknown</td>
+            <td class="mono num" style="color:var(--text-4)">$0</td>
+            
+            <td style="color:var(--text-3)">324936ms</td>
+            <td class="num" style="color:var(--red-bright)">32.5</td>
+          </tr><tr>
+            <td style="font-weight:600">refactor</td>
+            <td class="mono" style="color:var(--text-4)">Unknown</td>
+            <td class="mono num" style="color:var(--text-4)">$0</td>
+            
+            <td style="color:var(--text-3)">158438ms</td>
+            <td class="num" style="color:var(--red-bright)">20.0</td>
+          </tr>
+          <tr style="background:rgba(0,0,0,.08)">
+            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0</td>
+            <td colspan="2" style="font-size:11px;color:var(--text-4)">avg $0.000000 per query</td>
+          </tr>
+        </tbody>
+      </table>
+      <div style="margin-top:10px;font-size:11px;color:var(--text-4);line-height:1.5">
+        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.04);padding:2px 6px;border-radius:3px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
+         This check also used 6 EvalView judge calls (2489 tokens).
+      </div>
+    </div>
+    
+  </div>
+
+  <!-- ═══════════ TRACE ═══════════ -->
+  <div id="p-trace" class="panel ">
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr1',this)">
+          <span class="badge b-red">✗</span>
+          <span class="item-name">implement</span>
+          <div class="item-meta">
+            
+            <span class="mc" style="color:var(--red-bright)">20.0/100</span>
+            
+            <span class="mc">⚡ 360030ms</span>
+            
+            <span class="mc">🧠 Unknown</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr1" class="item-body" >
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: Unknown</span>
+            
+            
+            <span class="badge b-purple">Baseline: 2026-04-06 13:26</span>
+            <span class="badge b-yellow">Baseline model: Not recorded in snapshot</span>
+          </div>
+          
+          <div style="background:rgba(255,255,255,.02);border:1px solid var(--border);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:12px;font-size:12px">
+            <div style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-bottom:8px">Score Breakdown</div>
+            <div style="display:flex;gap:16px;flex-wrap:wrap;align-items:center">
+              <div><span style="color:var(--text-4)">Tools</span> <span style="font-weight:700;color:var(--red-bright)">0.0%</span> <span style="color:var(--text-4);font-size:10px">× 30%</span></div>
+              <div><span style="color:var(--text-4)">Output</span> <span style="font-weight:700;color:var(--red-bright)">0.0/100</span> <span style="color:var(--text-4);font-size:10px">× 50%</span></div>
+              <div><span style="color:var(--text-4)">Sequence</span> <span style="font-weight:700;color:var(--green-bright)">Correct</span> <span style="color:var(--text-4);font-size:10px">× 20%</span></div>
+              <div style="border-left:1px solid var(--border);padding-left:16px"><span style="color:var(--text-4)">=</span> <span style="font-weight:800;font-size:14px;color:var(--red-bright)">20.0/100</span></div>
+            </div>
+            <div style="margin-top:8px;font-size:11px;color:var(--text-3);border-top:1px solid var(--border);padding-top:8px">The response does not implement group_by_key(), does not run the __main__ block, and simply repeats the timeout error. It fails to address the user’s request entirely.</div>
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Implement the group_by_key() function in stub.py. The docstring and type signature are already there — the body is just pass. Implement it, then run the __main__ block to verify it prints the correctly grouped output.
+
+          </div>
+          
+          <div style="background:rgba(239,68,68,.06);border:1px solid rgba(239,68,68,.18);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:12px">
+            <div style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--red-bright);margin-bottom:6px">Why it failed</div>
+            <ul style="margin:0;padding-left:18px;font-size:12px;color:var(--text-2)"><li style="margin-bottom:3px">Score 20.0 below minimum 70.0</li><li style="margin-bottom:3px">Output quality: 0.0/100</li><li style="margin-bottom:3px">Hallucination detected (70% confidence)</li><li style="margin-bottom:3px">Tool accuracy: 0.0%</li></ul>
+          </div>
+          <div class="mermaid-box"><div class="mermaid">sequenceDiagram
+    participant User
+    participant Agent
+    participant T0 as error
+    User->>Agent: Implement the group_by_key f...
+    Agent-xT0: error
+    T0-->Agent: OpenCode timed out after 360...
+    Agent-->>User: OpenCode timed out after 360...</div></div>
+          
+          
+          <div class="chat-container">
+            <div class="chat-header">Conversation Turns</div>
+            <div class="chat-messages">
+            
+              <div class="chat-meta right">Turn 1 · <span class="chat-tool-tag">error</span>  · ⚡ 360030.9ms · 💰 $0</div>
+              <div class="chat-bubble user">Implement the group_by_key() function in stub.py. The docstring and type signature are already there — the body is just pass. Implement it, then run the __main__ block to verify it prints the correctly grouped output.
+</div>
+              <div class="chat-bubble agent">OpenCode timed out after 360s</div>
+              
+            </div>
+          </div>
+          
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-top:10px">
+            <span class="badge b-red" title="Extracts factual claims from the agent response, then verifies each claim against tool outputs. Score = supported claims / total claims.">🔮 Hallucination detected · 70% · [Warning] - Tool &#39;error&#39; failed/returned error, but agent did not acknowledge the failure · openai/gpt-5.4-mini</span>
+            <span class="badge b-green">🛡 Safe</span>
+            
+            
+          </div>
+          <div style="background:rgba(168,85,247,.06);border:1px solid rgba(168,85,247,.15);border-radius:var(--r-xs);padding:9px 12px;margin-top:8px;font-size:11px;color:var(--text-3)"><span style="font-weight:600;color:var(--text-2)">Unsupported claims:</span> [Warning] - Tool &#39;error&#39; failed/returned error, but agent did not acknowledge the failure
+(Confidence 70% below threshold 98% - not blocking)</div>
+          
+          
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr2',this)">
+          <span class="badge b-red">✗</span>
+          <span class="item-name">bug-fix</span>
+          <div class="item-meta">
+            
+            <span class="mc" style="color:var(--red-bright)">32.5/100</span>
+            
+            <span class="mc">⚡ 324936ms</span>
+            
+            <span class="mc">🧠 Unknown</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr2" class="item-body" >
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: Unknown</span>
+            
+            
+            <span class="badge b-purple">Baseline: 2026-04-06 13:26</span>
+            <span class="badge b-yellow">Baseline model: Not recorded in snapshot</span>
+          </div>
+          
+          <div style="background:rgba(255,255,255,.02);border:1px solid var(--border);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:12px;font-size:12px">
+            <div style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-bottom:8px">Score Breakdown</div>
+            <div style="display:flex;gap:16px;flex-wrap:wrap;align-items:center">
+              <div><span style="color:var(--text-4)">Tools</span> <span style="font-weight:700;color:var(--red-bright)">33.3%</span> <span style="color:var(--text-4);font-size:10px">× 30%</span></div>
+              <div><span style="color:var(--text-4)">Output</span> <span style="font-weight:700;color:var(--red-bright)">5.0/100</span> <span style="color:var(--text-4);font-size:10px">× 50%</span></div>
+              <div><span style="color:var(--text-4)">Sequence</span> <span style="font-weight:700;color:var(--green-bright)">Correct</span> <span style="color:var(--text-4);font-size:10px">× 20%</span></div>
+              <div style="border-left:1px solid var(--border);padding-left:16px"><span style="color:var(--text-4)">=</span> <span style="font-weight:800;font-size:14px;color:var(--red-bright)">32.5/100</span></div>
+            </div>
+            <div style="margin-top:8px;font-size:11px;color:var(--text-3);border-top:1px solid var(--border);padding-top:8px">The response is relevant and acknowledges the bug, but it does not actually fix the code or run the file to confirm the output. It only states an intention to inspect the file, so it fails to satisfy the requested task and provides no concrete correction.</div>
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>There is a bug in buggy.py. The find_max function uses range(1, len(numbers) - 1) which means it never checks the last element. Fix the bug so the function correctly returns the maximum value including the last element. After fixing, run the file to confirm it prints 9.
+
+          </div>
+          
+          <div style="background:rgba(239,68,68,.06);border:1px solid rgba(239,68,68,.18);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:12px">
+            <div style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--red-bright);margin-bottom:6px">Why it failed</div>
+            <ul style="margin:0;padding-left:18px;font-size:12px;color:var(--text-2)"><li style="margin-bottom:3px">Score 32.5 below minimum 70.0</li><li style="margin-bottom:3px">Output quality: 5.0/100</li><li style="margin-bottom:3px">Tool accuracy: 33.3%</li></ul>
+          </div>
+          <div class="mermaid-box"><div class="mermaid">sequenceDiagram
+    participant User
+    participant Agent
+    participant T0 as read_file
+    User->>Agent: There is a bug in buggy.py.
+    Agent->>T0: filePath=/Users/hidaibar-mor...
+    T0-->Agent: path/Users/hidaibar-mor/Down...
+    Agent-->>User: Ill fix the bug in the find_...</div></div>
+          
+          
+          <div class="chat-container">
+            <div class="chat-header">Conversation Turns</div>
+            <div class="chat-messages">
+            
+              <div class="chat-meta right">Turn 1 · <span class="chat-tool-tag">read_file</span>  · ⚡ 324936.4ms · 💰 $0</div>
+              <div class="chat-bubble user">There is a bug in buggy.py. The find_max function uses range(1, len(numbers) - 1) which means it never checks the last element. Fix the bug so the function correctly returns the maximum value including the last element. After fixing, run the file to confirm it prints 9.
+</div>
+              <div class="chat-bubble agent">I&#39;ll fix the bug in the find_max function in buggy.py. Let me first examine the file to understand the current implementation.</div>
+              
+            </div>
+          </div>
+          
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-top:10px">
+            <span class="badge b-green" title="Extracts factual claims from the agent response, then verifies each claim against tool outputs. Score = supported claims / total claims.">🔮 No hallucination · No verifiable factual claims found in output. · openai/gpt-5.4-mini</span>
+            <span class="badge b-green">🛡 Safe</span>
+            
+            
+          </div>
+          
+          
+          
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr3',this)">
+          <span class="badge b-red">✗</span>
+          <span class="item-name">refactor</span>
+          <div class="item-meta">
+            
+            <span class="mc" style="color:var(--red-bright)">20.0/100</span>
+            
+            <span class="mc">⚡ 158438ms</span>
+            
+            <span class="mc">🧠 Unknown</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr3" class="item-body" >
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: Unknown</span>
+            
+            
+            <span class="badge b-purple">Baseline: 2026-04-06 13:26</span>
+            <span class="badge b-yellow">Baseline model: Not recorded in snapshot</span>
+          </div>
+          
+          <div style="background:rgba(255,255,255,.02);border:1px solid var(--border);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:12px;font-size:12px">
+            <div style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-bottom:8px">Score Breakdown</div>
+            <div style="display:flex;gap:16px;flex-wrap:wrap;align-items:center">
+              <div><span style="color:var(--text-4)">Tools</span> <span style="font-weight:700;color:var(--red-bright)">0.0%</span> <span style="color:var(--text-4);font-size:10px">× 30%</span></div>
+              <div><span style="color:var(--text-4)">Output</span> <span style="font-weight:700;color:var(--red-bright)">0.0/100</span> <span style="color:var(--text-4);font-size:10px">× 50%</span></div>
+              <div><span style="color:var(--text-4)">Sequence</span> <span style="font-weight:700;color:var(--green-bright)">Correct</span> <span style="color:var(--text-4);font-size:10px">× 20%</span></div>
+              <div style="border-left:1px solid var(--border);padding-left:16px"><span style="color:var(--text-4)">=</span> <span style="font-weight:800;font-size:14px;color:var(--red-bright)">20.0/100</span></div>
+            </div>
+            <div style="margin-top:8px;font-size:11px;color:var(--text-3);border-top:1px solid var(--border);padding-top:8px">The response does not answer the query, provide a refactoring, or confirm execution. It only contains a context-size error message and no code, so it fails completeness and relevance entirely.</div>
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Refactor the function p() in messy.py. It has poor naming, deeply nested conditionals, and uses type() instead of isinstance(). Rewrite it to be clean and readable while preserving the exact same behaviour: filter out None values, strip whitespace from non-empty strings, and pass through all other types unchanged. Then run the file to confirm it still prints {&#39;name&#39;: &#39;Alice&#39;, &#39;age&#39;: 30}.
+
+          </div>
+          
+          <div style="background:rgba(239,68,68,.06);border:1px solid rgba(239,68,68,.18);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:12px">
+            <div style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--red-bright);margin-bottom:6px">Why it failed</div>
+            <ul style="margin:0;padding-left:18px;font-size:12px;color:var(--text-2)"><li style="margin-bottom:3px">Score 20.0 below minimum 70.0</li><li style="margin-bottom:3px">Output quality: 0.0/100</li><li style="margin-bottom:3px">Tool accuracy: 0.0%</li></ul>
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-top:10px">
+            <span class="badge b-green" title="Extracts factual claims from the agent response, then verifies each claim against tool outputs. Score = supported claims / total claims.">🔮 No hallucination · No verifiable factual claims found in output. · openai/gpt-5.4-mini</span>
+            <span class="badge b-green">🛡 Safe</span>
+            
+            
+          </div>
+          
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>&#34;Context size has been exceeded.&#34;
+          </div>
+        </div>
+      </div>
+    
+  </div>
+
+  <!-- ═══════════ DIFFS ═══════════ -->
+  
+  <div id="p-diffs" class="panel on">
+    
+      <div class="diff-item">
+        <div class="diff-head" style="cursor:pointer" onclick="tog('df1',this)">
+          <span class="badge b-red">⬇ Regression</span>
+          
+          
+          
+          <span class="diff-name">implement</span>
+          <span class="mc" title="Weighted score: tool accuracy (30%) + output quality (50%) + sequence correctness (20%). Baseline → Current." style="color:var(--red-bright)">96.0 → 20.0</span>
+          <span class="badge b-red" title="Score change from baseline snapshot">-76.0</span>
+          <span class="sim" title="Exact word-for-word match between baseline and current output">lexical <span class="sim-track"><span class="sim-fill lo" style="width:2.9%"></span></span> <b style="color:var(--red-bright)">2.9%</b></span>
+          <span class="sim" title="Meaning similarity — high means same intent even if wording changed">semantic <span class="sim-track"><span class="sim-fill lo" style="width:0.4%"></span></span> <b style="color:var(--red-bright)">0.4%</b></span>
+          <span class="confidence-badge conf-low" title="Statistical confidence that this change is a real signal vs. normal LLM variance">70% confidence</span>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="df1" >
+        
+        <div class="pipeline">
+          <div class="pipeline-row"><span class="pipeline-label">Baseline</span><span class="pipe-step removed">glob</span><span class="pipe-step removed">read_file</span><span class="pipe-step removed">edit_file</span><span class="pipe-step removed">bash</span></div>
+          <div class="pipeline-row"><span class="pipeline-label">Current</span><span class="pipe-step added">error</span></div>
+        </div>
+        
+        
+        <div style="padding:12px 18px;border-top:1px solid var(--border);font-size:12px;color:var(--text-2)">
+          <div class="col-title" style="margin-bottom:6px">Why This Changed</div>
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:8px">
+            <span class="badge b-yellow">tool_reordered</span>
+          </div>
+          <div>Tool sequence changed: &#39;glob&#39; at step 1 was replaced by &#39;error&#39;</div>
+          <div style="margin-top:6px;color:var(--text-3)">Suggested fix: The agent is calling the right tools but in a different order. If the new order is valid, run `evalview snapshot --variant &lt;name&gt;` to accept it as an alternative.</div>
+        </div>
+        
+        <div class="diff-cols">
+          <div class="diff-col"><div class="col-title">Baseline Output</div><div class="outbox">Output matches expected behavior:
+
+- `&#34;fruit&#34;` → `[apple, banana]`
+- `&#34;veggie&#34;` → `[carrot]`
+
+The implementation iterates over each item, skips any missing the key, and appends to the appropriate grou...</div></div>
+          <div class="diff-col"><div class="col-title">Current Output</div><div class="outbox">OpenCode timed out after 360s</div><div class="difflines"><div class="r">--- golden</div><div class="a">+++ actual</div><div>@@ -1,6 +1 @@</div><div class="r">-Output matches expected behavior:
+</div><div class="r">-
+</div><div class="r">-- `&#34;fruit&#34;` → `[apple, banana]`
+</div><div class="r">-- `&#34;veggie&#34;` → `[carrot]`
+</div><div class="r">-
+</div><div class="r">-The implementation iterates over each item, skips any missing the key, and appends to the appropriate group in the result dict.</div><div class="a">+OpenCode timed out after 360s</div></div></div>
+        </div>
+        
+        
+        <div style="padding:10px 18px;border-top:1px solid var(--border)">
+          <div style="cursor:pointer;display:flex;align-items:center;gap:8px;padding:4px 0" onclick="togTraj(this)">
+            <span class="chevron">▾</span>
+            <span style="font-size:12px;font-weight:700;color:var(--text-2);text-transform:uppercase;letter-spacing:.06em">Trajectory Comparison</span>
+          </div>
+          <div class="traj-grid" style="display:none" data-golden="sequenceDiagram
+    participant User
+    participant Agent
+    participant T0 as glob
+    participant T1 as read_file
+    participant T2 as edit_file
+    participant T3 as bash
+    User->>Agent: ...
+    Agent->>T0: pattern=/stub.py
+    T0-->Agent: /Users/hidaibar-mor/Download...
+    Agent->>T1: filePath=/Users/hidaibar-mor...
+    T1-->Agent: path/Users/hidaibar-mor/Down...
+    Agent->>T2: filePath=/Users/hidaibar-mor...
+    T2-->Agent: Index: /Users/hidaibar-mor/D...
+    Agent->>T3: command=python stub.py, desc...
+    T3-->Agent: fruit: type: fruit,
+    Agent-->>User: ..." data-actual="sequenceDiagram
+    participant User
+    participant Agent
+    participant T0 as error
+    User->>Agent: Implement the group_by_key f...
+    Agent-xT0: error
+    T0-->Agent: OpenCode timed out after 360...
+    Agent-->>User: OpenCode timed out after 360...">
+            <div class="traj-col"><div class="col-title">Baseline</div><div class="mermaid-box" style="min-height:100px"><div class="mermaid-lazy"></div></div></div>
+            <div class="traj-col"><div class="col-title">Current</div><div class="mermaid-box" style="min-height:100px"><div class="mermaid-lazy"></div></div></div>
+          </div>
+        </div>
+        
+        
+        </div>
+      </div>
+    
+      <div class="diff-item">
+        <div class="diff-head" style="cursor:pointer" onclick="tog('df2',this)">
+          <span class="badge b-red">⬇ Regression</span>
+          
+          
+          
+          <span class="diff-name">bug-fix</span>
+          <span class="mc" title="Weighted score: tool accuracy (30%) + output quality (50%) + sequence correctness (20%). Baseline → Current." style="color:var(--red-bright)">100.0 → 32.5</span>
+          <span class="badge b-red" title="Score change from baseline snapshot">-67.5</span>
+          <span class="sim" title="Exact word-for-word match between baseline and current output">lexical <span class="sim-track"><span class="sim-fill lo" style="width:33.7%"></span></span> <b style="color:var(--red-bright)">33.7%</b></span>
+          <span class="sim" title="Meaning similarity — high means same intent even if wording changed">semantic <span class="sim-track"><span class="sim-fill lo" style="width:35.2%"></span></span> <b style="color:var(--red-bright)">35.2%</b></span>
+          <span class="confidence-badge conf-medium" title="Statistical confidence that this change is a real signal vs. normal LLM variance">99% confidence</span>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="df2" >
+        
+        <div class="pipeline">
+          <div class="pipeline-row"><span class="pipeline-label">Baseline</span><span class="pipe-step match">read_file</span><span class="pipe-step removed">edit_file</span><span class="pipe-step removed">bash</span></div>
+          <div class="pipeline-row"><span class="pipeline-label">Current</span><span class="pipe-step match">read_file</span></div>
+        </div>
+        
+        
+        <div style="padding:12px 18px;border-top:1px solid var(--border);font-size:12px;color:var(--text-2)">
+          <div class="col-title" style="margin-bottom:6px">Why This Changed</div>
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:8px">
+            <span class="badge b-yellow">tool_removed</span>
+          </div>
+          <div>Tools &#39;edit_file&#39;, &#39;bash&#39; were expected but not called</div>
+          <div style="margin-top:6px;color:var(--text-3)">Suggested fix: Check if your agent&#39;s prompt or logic still triggers &#39;edit_file&#39;. If the tool was intentionally removed, run `evalview snapshot` to update the baseline.</div>
+        </div>
+        
+        <div class="diff-cols">
+          <div class="diff-col"><div class="col-title">Baseline Output</div><div class="outbox">Fixed. The bug was `range(1, len(numbers) - 1)` which excluded the last index. Changed to `range(1, len(numbers))` so all elements are checked. Output confirms `9`.</div></div>
+          <div class="diff-col"><div class="col-title">Current Output</div><div class="outbox">I&#39;ll fix the bug in the find_max function in buggy.py. Let me first examine the file to understand the current implementation.</div><div class="difflines"><div class="r">--- golden</div><div class="a">+++ actual</div><div>@@ -1 +1 @@</div><div class="r">-Fixed. The bug was `range(1, len(numbers) - 1)` which excluded the last index. Changed to `range(1, len(numbers))` so all elements are checked. Output confirms `9`.</div><div class="a">+I&#39;ll fix the bug in the find_max function in buggy.py. Let me first examine the file to understand the current implementation.</div></div></div>
+        </div>
+        
+        
+        <div style="padding:10px 18px;border-top:1px solid var(--border)">
+          <div style="cursor:pointer;display:flex;align-items:center;gap:8px;padding:4px 0" onclick="togTraj(this)">
+            <span class="chevron">▾</span>
+            <span style="font-size:12px;font-weight:700;color:var(--text-2);text-transform:uppercase;letter-spacing:.06em">Trajectory Comparison</span>
+          </div>
+          <div class="traj-grid" style="display:none" data-golden="sequenceDiagram
+    participant User
+    participant Agent
+    participant T0 as read_file
+    participant T1 as edit_file
+    participant T2 as bash
+    User->>Agent: ...
+    Agent->>T0: filePath=/Users/hidaibar-mor...
+    T0-->Agent: path/Users/hidaibar-mor/Down...
+    Agent->>T1: filePath=/Users/hidaibar-mor...
+    T1-->Agent: Index: /Users/hidaibar-mor/D...
+    Agent->>T2: command=python3 buggy.py, de...
+    T2-->Agent: 9
+    Agent-->>User: ..." data-actual="sequenceDiagram
+    participant User
+    participant Agent
+    participant T0 as read_file
+    User->>Agent: There is a bug in buggy.py.
+    Agent->>T0: filePath=/Users/hidaibar-mor...
+    T0-->Agent: path/Users/hidaibar-mor/Down...
+    Agent-->>User: Ill fix the bug in the find_...">
+            <div class="traj-col"><div class="col-title">Baseline</div><div class="mermaid-box" style="min-height:100px"><div class="mermaid-lazy"></div></div></div>
+            <div class="traj-col"><div class="col-title">Current</div><div class="mermaid-box" style="min-height:100px"><div class="mermaid-lazy"></div></div></div>
+          </div>
+        </div>
+        
+        
+        </div>
+      </div>
+    
+      <div class="diff-item">
+        <div class="diff-head" style="cursor:pointer" onclick="tog('df3',this)">
+          <span class="badge b-red">⬇ Regression</span>
+          
+          
+          
+          <span class="diff-name">refactor</span>
+          <span class="mc" title="Weighted score: tool accuracy (30%) + output quality (50%) + sequence correctness (20%). Baseline → Current." style="color:var(--red-bright)">96.5 → 20.0</span>
+          <span class="badge b-red" title="Score change from baseline snapshot">-76.5</span>
+          <span class="sim" title="Exact word-for-word match between baseline and current output">lexical <span class="sim-track"><span class="sim-fill lo" style="width:9.9%"></span></span> <b style="color:var(--red-bright)">9.9%</b></span>
+          <span class="sim" title="Meaning similarity — high means same intent even if wording changed">semantic <span class="sim-track"><span class="sim-fill lo" style="width:12.0%"></span></span> <b style="color:var(--red-bright)">12.0%</b></span>
+          <span class="confidence-badge conf-low" title="Statistical confidence that this change is a real signal vs. normal LLM variance">58% confidence</span>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="df3" >
+        
+        <div class="pipeline">
+          <div class="pipeline-row"><span class="pipeline-label">Baseline</span><span class="pipe-step removed">read_file</span><span class="pipe-step removed">todowrite</span><span class="pipe-step removed">edit_file</span><span class="pipe-step removed">edit_file</span><span class="pipe-step removed">todowrite</span><span class="pipe-step removed">bash</span><span class="pipe-step removed">todowrite</span></div>
+          <div class="pipeline-row"><span class="pipeline-label">Current</span><span style="font-size:11px;color:var(--text-4);font-style:italic">No tools</span></div>
+        </div>
+        
+        
+        <div style="padding:12px 18px;border-top:1px solid var(--border);font-size:12px;color:var(--text-2)">
+          <div class="col-title" style="margin-bottom:6px">Why This Changed</div>
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:8px">
+            <span class="badge b-yellow">tool_removed</span>
+          </div>
+          <div>Tools &#39;read_file&#39;, &#39;todowrite&#39;, &#39;edit_file&#39;, &#39;edit_file&#39;, &#39;todowrite&#39;, &#39;bash&#39;, &#39;todowrite&#39; were expected but not called</div>
+          <div style="margin-top:6px;color:var(--text-3)">Suggested fix: Check if your agent&#39;s prompt or logic still triggers &#39;read_file&#39;. If the tool was intentionally removed, run `evalview snapshot` to update the baseline.</div>
+        </div>
+        
+        <div class="diff-cols">
+          <div class="diff-col"><div class="col-title">Baseline Output</div><div class="outbox">Output confirmed: `{&#39;name&#39;: &#39;Alice&#39;, &#39;age&#39;: 30}`
+
+Here&#39;s a summary of what changed in `messy.py`:
+
+| Before | After | Reason |
+|--------|-------|--------|
+| `p(d)` | `process_dict(data)` | Descriptive...</div></div>
+          <div class="diff-col"><div class="col-title">Current Output</div><div class="outbox">&#34;Context size has been exceeded.&#34;</div><div class="difflines"><div class="r">--- golden</div><div class="a">+++ actual</div><div>@@ -1,11 +1 @@</div><div class="r">-Output confirmed: `{&#39;name&#39;: &#39;Alice&#39;, &#39;age&#39;: 30}`
+</div><div class="r">-
+</div><div class="r">-Here&#39;s a summary of what changed in `messy.py`:
+</div><div class="r">-
+</div><div class="r">-| Before | After | Reason |
+</div><div class="r">-|--------|-------|--------|
+</div><div class="r">-| `p(d)` | `process_dict(data)` | Descriptive names |
+</div><div class="r">-| `for k in d` | `for key, value in data.items()` | Unpack key/value directly |
+</div><div class="r">-| `if d[k] != None` | `if value is None: continue` | `is None` is idiomatic; early-continue flattens nesting |
+</div><div class="r">-| `type(d[k]) == str` | `isinstance(value, str)` | `isinstance` is correct (handles subclasses) |
+</div><div class="r">-| `if len(d[k]) &gt; 0` / `else: pass` | `if stripped:` | Truthiness check on the already-stripped string; `pass` branch eliminated |</div><div class="a">+&#34;Context size has been exceeded.&#34;</div></div></div>
+        </div>
+        
+        
+        <div style="padding:10px 18px;border-top:1px solid var(--border)">
+          <div style="cursor:pointer;display:flex;align-items:center;gap:8px;padding:4px 0" onclick="togTraj(this)">
+            <span class="chevron">▾</span>
+            <span style="font-size:12px;font-weight:700;color:var(--text-2);text-transform:uppercase;letter-spacing:.06em">Trajectory Comparison</span>
+          </div>
+          <div class="traj-grid" style="display:none" data-golden="sequenceDiagram
+    participant User
+    participant Agent
+    participant T0 as read_file
+    participant T1 as todowrite
+    participant T2 as edit_file
+    participant T3 as bash
+    User->>Agent: ...
+    Agent->>T0: filePath=/Users/hidaibar-mor...
+    T0-->Agent: path/Users/hidaibar-mor/Down...
+    Agent->>T1: todos=content: Refact
+    T1-->Agent: content: Refactor
+    Agent->>T2: filePath=/Users/hidaibar-mor...
+    T2-->Agent: Index: /Users/hidaibar-mor/D...
+    Agent->>T2: filePath=/Users/hidaibar-mor...
+    T2-->Agent: Index: /Users/hidaibar-mor/D...
+    Agent->>T1: todos=content: Refact
+    T1-->Agent: content: Refactor
+    Agent->>T3: command=python3 messy.py, de...
+    T3-->Agent: name: Alice, age: 30
+    Agent->>T1: todos=content: Refact
+    T1-->Agent: content: Refactor
+    Agent-->>User: ..." data-actual="sequenceDiagram
+    Note over Agent: Direct response — no tools used">
+            <div class="traj-col"><div class="col-title">Baseline</div><div class="mermaid-box" style="min-height:100px"><div class="mermaid-lazy"></div></div></div>
+            <div class="traj-col"><div class="col-title">Current</div><div class="mermaid-box" style="min-height:100px"><div class="mermaid-lazy"></div></div></div>
+          </div>
+        </div>
+        
+        
+        </div>
+      </div>
+    
+  </div>
+  
+
+  <!-- ═══════════ TIMELINE ═══════════ -->
+  <div id="p-timeline" class="panel ">
+    
+    <!-- Timeline KPI strip -->
+    <div class="kpi-strip" style="margin-bottom:12px">
+      <div class="kpi-item">
+        <span class="kpi-val">2</span>
+        <span class="kpi-label">steps</span>
+      </div>
+      <div class="kpi-item">
+        <span class="kpi-val" style="color:var(--blue-bright)">281135ms</span>
+        <span class="kpi-label">avg latency</span>
+      </div>
+      <div class="kpi-item">
+        <span class="kpi-val" style="color:var(--blue-bright)">$0</span>
+        <span class="kpi-label">total cost</span>
+      </div>
+      <div class="kpi-item">
+        <span class="kpi-val">3</span>
+        <span class="kpi-label">tests</span>
+      </div>
+    </div>
+    <div style="display:grid;grid-template-columns:1fr 1fr;gap:12px">
+      <div class="card" style="margin-bottom:0">
+        <div class="card-title">Step Latencies</div>
+        <div style="position:relative;height:160px"><canvas id="tlChart"></canvas></div>
+      </div>
+      <div class="card" style="margin-bottom:0">
+        <div class="card-title">Step Cost</div>
+        <div style="position:relative;height:160px"><canvas id="tlCostChart"></canvas></div>
+      </div>
+    </div>
+    
+  </div>
+
+  <!-- ═══════════ COMPARE ═══════════ -->
+  
+</main>
+
+<script>
+mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
+  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(37,99,235,.1)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(37,99,235,.25)',lineColor:'rgba(100,116,139,.3)',secondaryColor:'rgba(16,185,129,.06)',tertiaryColor:'rgba(6,182,212,.06)',noteBkgColor:'rgba(37,99,235,.05)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(37,99,235,.15)',actorBkg:'rgba(37,99,235,.08)',actorBorder:'rgba(37,99,235,.2)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
+  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:15,messageFontSize:14,noteFontSize:13,boxTextMargin:12,mirrorActors:false,messageAlign:'center',actorMargin:50,bottomMarginAdj:4,diagramMarginX:20,diagramMarginY:16}
+});
+function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
+function tog(id,head){const el=document.getElementById(id);const o=el.style.display!=='none';el.style.display=o?'none':'block';head.querySelector('.chevron').style.transform=o?'':'rotate(180deg)'}
+function togTraj(trigger){const grid=trigger.nextElementSibling;const open=grid.style.display!=='none';grid.style.display=open?'none':'grid';trigger.querySelector('.chevron').style.transform=open?'':'rotate(180deg)';if(!open&&!grid.dataset.rendered){grid.dataset.rendered='1';const divs=grid.querySelectorAll('.mermaid-lazy');const src=[grid.dataset.golden,grid.dataset.actual];divs.forEach(function(d,i){if(src[i]){d.classList.add('mermaid');d.textContent=src[i];mermaid.init(undefined,d)}})}}
+
+
+(function(){
+  const scores=[20.0, 32.5, 20.0],names=["implement", "bug-fix", "refactor"];
+  const tc='rgba(100,116,139,.6)',gc='rgba(255,255,255,.025)';
+  const tt={backgroundColor:'rgba(6,11,24,.95)',borderColor:'rgba(51,65,85,.5)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:11},bodyFont:{family:'Inter',size:11},padding:8,cornerRadius:6};
+
+  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
+  /* Warning stripes for low scores */
+  const barBg=sorted.map(s=>{
+    if(s.score>=80) return 'rgba(16,185,129,.35)';
+    if(s.score>=60) return 'rgba(245,158,11,.35)';
+    return 'rgba(239,68,68,.35)';
+  });
+  const barBorder=sorted.map(s=>{
+    if(s.score>=80) return 'rgba(16,185,129,.55)';
+    if(s.score>=60) return 'rgba(245,158,11,.55)';
+    return 'rgba(239,68,68,.55)';
+  });
+  new Chart(document.getElementById('bars'),{type:'bar',
+    data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),backgroundColor:barBg,borderColor:barBorder,borderWidth:1,borderRadius:3,borderSkipped:false,barPercentage:.55,categoryPercentage:.8}]},
+    options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,
+      scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:9},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.7)',font:{family:'Inter',size:11,weight:'600'},padding:4,mirror:false},border:{display:false},afterFit:function(axis){var maxLen=0;sorted.forEach(function(s){var w=s.name.length*7;if(w>maxLen)maxLen=w});axis.width=Math.min(Math.max(maxLen,140),280)}}},
+      plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
+})();
+
+
+
+(function(){
+  const tl=[{"cost": 0.0, "label": "implement \u203a error", "latency": 360030.9, "success": false, "test": "implement", "tool": "error"}, {"cost": 0.0, "label": "bug-fix \u203a read_file", "latency": 19.0, "success": true, "test": "bug-fix", "tool": "read_file"}];if(!tl.length)return;
+  const labels=tl.map(r=>r.label||(r.test+' \u203a '+r.tool));const vals=tl.map(r=>r.latency||0);const costs=tl.map(r=>r.cost||0);
+  const maxLat=Math.max(...vals,0);
+  const tt={backgroundColor:'rgba(6,11,24,.95)',borderColor:'rgba(51,65,85,.5)',borderWidth:1,titleFont:{family:'Inter',weight:'700'},bodyFont:{family:'Inter'},padding:8,cornerRadius:6};
+  /* Color palette per test — distinct hues */
+  const palette=[
+    {bg:'rgba(37,99,235,.4)',border:'rgba(37,99,235,.65)'},
+    {bg:'rgba(16,185,129,.4)',border:'rgba(16,185,129,.65)'},
+    {bg:'rgba(245,158,11,.4)',border:'rgba(245,158,11,.65)'},
+    {bg:'rgba(168,85,247,.4)',border:'rgba(168,85,247,.65)'},
+    {bg:'rgba(6,182,212,.4)',border:'rgba(6,182,212,.65)'},
+    {bg:'rgba(239,68,68,.4)',border:'rgba(239,68,68,.65)'},
+    {bg:'rgba(236,72,153,.4)',border:'rgba(236,72,153,.65)'},
+    {bg:'rgba(132,204,22,.4)',border:'rgba(132,204,22,.65)'},
+  ];
+  const tests=[...new Set(tl.map(r=>r.test))];
+  const testIdx=Object.fromEntries(tests.map((t,i)=>[t,i%palette.length]));
+  const colors=tl.map(r=>r.success?palette[testIdx[r.test]].bg:'rgba(239,68,68,.45)');
+  const borders=tl.map(r=>r.success?palette[testIdx[r.test]].border:'rgba(239,68,68,.65)');
+  const chartOpts={indexAxis:'y',responsive:true,maintainAspectRatio:false,scales:{x:{suggestedMax:maxLat>0?maxLat*1.15:1,grid:{color:'rgba(255,255,255,.025)'},ticks:{color:'rgba(100,116,139,.5)',font:{family:'Inter',size:9},callback:v=>v+'ms'},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.6)',font:{family:'Inter',size:10,weight:'500'}},border:{display:false}}},plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` ${ctx.raw}ms`,afterLabel:ctx=>` Cost: $${(costs[ctx.dataIndex]||0).toFixed(6)}`,title:ctx=>ctx[0].label}}}};
+  new Chart(document.getElementById('tlChart'),{type:'bar',data:{labels,datasets:[{label:'ms',data:vals,backgroundColor:colors,borderColor:borders,borderWidth:1,borderRadius:3,borderSkipped:false,barPercentage:.6}]},options:chartOpts});
+  /* Cost chart */
+  const maxCost=Math.max(...costs,0.000001);
+  new Chart(document.getElementById('tlCostChart'),{type:'bar',data:{labels,datasets:[{label:'$',data:costs,backgroundColor:colors,borderColor:borders,borderWidth:1,borderRadius:3,borderSkipped:false,barPercentage:.6}]},options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,scales:{x:{suggestedMax:maxCost>0?maxCost*1.15:0.001,grid:{color:'rgba(255,255,255,.025)'},ticks:{color:'rgba(100,116,139,.5)',font:{family:'Inter',size:9},callback:v=>'$'+v.toFixed(4)},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.6)',font:{family:'Inter',size:10,weight:'500'}},border:{display:false}}},plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` $${ctx.raw.toFixed(6)}`,title:ctx=>ctx[0].label}}}}});
+})();
+
+
+
+(function(){
+  const canvas=document.getElementById('trendChart');
+  if(!canvas)return;
+  const sparklines=[{"name": "implement", "values": [3.7, 4.1, 2.5, 4.7, 2.9]}, {"name": "bug-fix", "values": [15.4, 15.1, 12.5, 13.6, 33.7]}, {"name": "refactor", "values": [7.9, 7.6, 2.0, 55.1, 9.9]}];
+  const passTrend=[0.0, 0.0, 50.0, 50.0, 50.0, 0.0, 0.0, 0.0, 0.0, 0.0];
+  const palette=[
+    {bg:'rgba(37,99,235,.15)',border:'rgba(37,99,235,.7)'},
+    {bg:'rgba(16,185,129,.15)',border:'rgba(16,185,129,.7)'},
+    {bg:'rgba(245,158,11,.15)',border:'rgba(245,158,11,.7)'},
+    {bg:'rgba(168,85,247,.15)',border:'rgba(168,85,247,.7)'},
+    {bg:'rgba(6,182,212,.15)',border:'rgba(6,182,212,.7)'},
+    {bg:'rgba(239,68,68,.15)',border:'rgba(239,68,68,.7)'},
+  ];
+  const maxLen=Math.max(...sparklines.map(s=>s.values.length),passTrend.length);
+  const labels=Array.from({length:maxLen},(_,i)=>''+(i+1));
+  const datasets=sparklines.map(function(s,i){
+    const c=palette[i%palette.length];
+    return {label:s.name,data:s.values,borderColor:c.border,backgroundColor:c.bg,borderWidth:2,pointRadius:3,pointHoverRadius:5,tension:.3,fill:false};
+  });
+  if(passTrend.length>1){
+    datasets.push({label:'Overall pass rate',data:passTrend,borderColor:'rgba(255,255,255,.4)',backgroundColor:'rgba(255,255,255,.05)',borderWidth:2,borderDash:[4,4],pointRadius:2,tension:.3,fill:false});
+  }
+  new Chart(canvas,{type:'line',data:{labels,datasets},options:{responsive:true,maintainAspectRatio:false,
+    scales:{x:{display:true,grid:{color:'rgba(255,255,255,.025)'},ticks:{color:'rgba(100,116,139,.5)',font:{family:'Inter',size:9}},title:{display:true,text:'Check #',color:'rgba(100,116,139,.5)',font:{family:'Inter',size:10}},border:{display:false}},y:{min:0,max:100,grid:{color:'rgba(255,255,255,.025)'},ticks:{color:'rgba(100,116,139,.5)',font:{family:'Inter',size:9},callback:function(v){return v+'%'}},border:{display:false}}},
+    plugins:{legend:{display:true,position:'bottom',labels:{color:'rgba(203,213,225,.7)',font:{family:'Inter',size:10},boxWidth:12,padding:10}},tooltip:{backgroundColor:'rgba(6,11,24,.95)',borderColor:'rgba(51,65,85,.5)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:11},bodyFont:{family:'Inter',size:11},padding:8,cornerRadius:6,callbacks:{label:function(ctx){return ' '+ctx.dataset.label+': '+ctx.raw+'%'}}}}}});
+})();
+
+
+
+</script>
+
+<!-- Share bar -->
+<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(6,11,24,.9);backdrop-filter:blur(16px);-webkit-backdrop-filter:blur(16px);border-top:1px solid var(--border);padding:8px 24px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:11px;color:var(--text-4)">
+  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:600">EvalView</a> <span style="opacity:.25;margin:0 5px">|</span> Agent testing &amp; regression detection</span>
+  <span style="display:flex;align-items:center;gap:5px">
+    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(29,155,240,.08);color:#1d9bf0;text-decoration:none;font-weight:600;font-size:10px;border:1px solid rgba(29,155,240,.1)"><svg width="12" height="12" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
+    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(255,255,255,.03);color:var(--text-2);text-decoration:none;font-weight:600;font-size:10px;border:1px solid var(--border)"><svg width="12" height="12" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
+  </span>
+</div>
+<div style="height:40px"></div>
+
+</body>
+</html>
\ No newline at end of file
diff --git a/.evalview/latest-redesign-v2.html b/.evalview/latest-redesign-v2.html
new file mode 100644
index 0000000..6e51fb0
--- /dev/null
+++ b/.evalview/latest-redesign-v2.html
@@ -0,0 +1,681 @@
+<!doctype html>
+<html lang="en">
+<head>
+<meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1.0">
+<title>EvalView Check Report</title>
+<link rel="preconnect" href="https://fonts.googleapis.com">
+<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
+<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
+<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
+<style>
+*{box-sizing:border-box;margin:0;padding:0}
+:root{
+  --green:#10b981;--green-bright:#34d399;--green-glow:rgba(16,185,129,.5);
+  --red:#f43f5e;--red-bright:#fb7185;--red-glow:rgba(244,63,94,.5);
+  --yellow:#f59e0b;--yellow-bright:#fbbf24;
+  --blue:#6366f1;--blue-bright:#818cf8;--blue-glow:rgba(99,102,241,.5);
+  --purple:#a855f7;--purple-bright:#c084fc;--cyan:#06b6d4;
+  --bg:#030712;--bg-card:#0d1117;--bg-elevated:#161b22;--bg-hover:#1c2333;
+  --border:#1e293b;--border-light:#334155;
+  --text:#f8fafc;--text-2:#cbd5e1;--text-3:#64748b;--text-4:#475569;
+  --r:20px;--r-sm:12px;--r-xs:8px;
+  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
+  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
+}
+html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
+body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;background:var(--bg)}
+/* Animated gradient mesh */
+body::before{
+  content:'';position:fixed;inset:0;pointer-events:none;z-index:0;
+  background:
+    radial-gradient(ellipse 120% 80% at 20% -20%,rgba(99,102,241,.22),transparent 55%),
+    radial-gradient(ellipse 100% 60% at 80% 110%,rgba(16,185,129,.14),transparent 55%),
+    radial-gradient(ellipse 60% 50% at 60% 30%,rgba(168,85,247,.1),transparent 50%);
+  animation:meshShift 20s ease-in-out infinite alternate;
+}
+@keyframes meshShift{0%{opacity:1;filter:hue-rotate(0deg)}100%{opacity:.85;filter:hue-rotate(15deg)}}
+body::after{
+  content:'';position:fixed;width:600px;height:600px;border-radius:50%;
+  top:-200px;right:-150px;pointer-events:none;z-index:0;
+  background:radial-gradient(circle,rgba(99,102,241,.18),transparent 70%);
+  filter:blur(60px);animation:orbFloat 15s ease-in-out infinite;
+}
+@keyframes orbFloat{0%,100%{transform:translate(0,0) scale(1)}50%{transform:translate(-40px,30px) scale(1.1)}}
+
+/* Header */
+.header{
+  position:sticky;top:0;z-index:200;
+  background:rgba(3,7,18,.75);border-bottom:1px solid var(--border);
+  backdrop-filter:blur(24px) saturate(180%);-webkit-backdrop-filter:blur(24px) saturate(180%);
+  padding:0 40px;height:60px;display:flex;align-items:center;justify-content:space-between;
+}
+.logo{display:flex;align-items:center;gap:12px}
+.logo-icon{
+  width:36px;height:36px;border-radius:10px;flex-shrink:0;
+  background:linear-gradient(135deg,#6366f1,#a855f7,#ec4899);
+  display:flex;align-items:center;justify-content:center;font-size:16px;
+  box-shadow:0 0 0 1px rgba(99,102,241,.4),0 4px 24px rgba(99,102,241,.35),0 0 60px rgba(99,102,241,.15);
+  animation:logoPulse 3s ease-in-out infinite;
+}
+@keyframes logoPulse{0%,100%{box-shadow:0 0 0 1px rgba(99,102,241,.4),0 4px 24px rgba(99,102,241,.35)}50%{box-shadow:0 0 0 1px rgba(99,102,241,.6),0 4px 32px rgba(99,102,241,.5),0 0 80px rgba(99,102,241,.2)}}
+.logo-text{font-size:16px;font-weight:800;letter-spacing:-.03em;background:linear-gradient(135deg,#f8fafc,#cbd5e1);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text}
+.logo-sub{font-size:11px;color:var(--text-3);font-weight:500}
+.header-right{display:flex;align-items:center;gap:8px}
+
+/* Badges */
+.badge{display:inline-flex;align-items:center;gap:4px;padding:5px 14px;border-radius:20px;font-size:11px;font-weight:600;letter-spacing:-.01em;white-space:nowrap;transition:all .2s}
+.b-green{background:rgba(16,185,129,.12);color:var(--green-bright);border:1px solid rgba(16,185,129,.25);box-shadow:0 0 12px rgba(16,185,129,.08)}
+.b-red{background:rgba(244,63,94,.12);color:var(--red-bright);border:1px solid rgba(244,63,94,.25);box-shadow:0 0 12px rgba(244,63,94,.08)}
+.b-yellow{background:rgba(245,158,11,.12);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.25)}
+.b-blue{background:rgba(99,102,241,.12);color:var(--blue-bright);border:1px solid rgba(99,102,241,.25);box-shadow:0 0 12px rgba(99,102,241,.08)}
+.b-purple{background:rgba(168,85,247,.12);color:var(--purple-bright);border:1px solid rgba(168,85,247,.25)}
+.badge:hover{transform:translateY(-1px);filter:brightness(1.15)}
+
+/* Layout */
+.main{max-width:1320px;margin:0 auto;padding:32px 40px 80px;position:relative;z-index:1}
+
+/* Tab bar */
+.tabbar{display:flex;gap:2px;background:rgba(13,17,23,.8);border:1px solid var(--border);border-radius:14px;padding:4px;margin-bottom:32px;width:fit-content;backdrop-filter:blur(12px)}
+.tab{background:none;border:none;color:var(--text-3);cursor:pointer;font:600 13px/1 var(--font);padding:10px 22px;border-radius:10px;transition:all .2s;letter-spacing:-.01em}
+.tab:hover{color:var(--text-2);background:rgba(255,255,255,.04)}
+.tab.on{color:#fff;background:linear-gradient(135deg,rgba(99,102,241,.25),rgba(168,85,247,.15));border:1px solid rgba(99,102,241,.3);box-shadow:0 2px 16px rgba(99,102,241,.2),inset 0 1px 0 rgba(255,255,255,.08)}
+.panel{display:none}.panel.on{display:block}
+
+/* Glass card base */
+.glass{
+  background:linear-gradient(145deg,rgba(13,17,23,.9),rgba(22,27,34,.7));
+  border:1px solid var(--border);border-radius:var(--r);
+  backdrop-filter:blur(20px);position:relative;overflow:hidden;
+  transition:all .25s cubic-bezier(.4,0,.2,1);
+}
+.glass::before{content:'';position:absolute;inset:0;border-radius:var(--r);pointer-events:none;background:linear-gradient(135deg,rgba(255,255,255,.05) 0%,transparent 40%,transparent 60%,rgba(255,255,255,.02) 100%)}
+.glass:hover{border-color:var(--border-light);transform:translateY(-2px);box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 0 1px rgba(99,102,241,.1)}
+
+/* KPI Cards */
+.kpi-row{display:grid;grid-template-columns:repeat(4,1fr);gap:16px;margin-bottom:24px}
+@media(max-width:1100px){.kpi-row{grid-template-columns:repeat(2,1fr)}}
+.kpi{padding:24px;cursor:default}
+.kpi.glow-green:hover{box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 60px rgba(16,185,129,.12),0 0 0 1px rgba(16,185,129,.2)}
+.kpi.glow-red:hover{box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 60px rgba(244,63,94,.12),0 0 0 1px rgba(244,63,94,.2)}
+.kpi.glow-blue:hover{box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 60px rgba(99,102,241,.12),0 0 0 1px rgba(99,102,241,.2)}
+.kpi-top{display:flex;align-items:flex-start;justify-content:space-between;margin-bottom:16px}
+.kpi-label{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.08em}
+.kpi-ring{position:relative;width:52px;height:52px;flex-shrink:0}
+.kpi-ring svg{transform:rotate(-90deg);filter:drop-shadow(0 0 8px var(--ring-glow,rgba(99,102,241,.3)))}
+.kpi-ring-label{position:absolute;inset:0;display:flex;align-items:center;justify-content:center;font-size:11px;font-weight:800;color:var(--text-2)}
+.kpi-num{font-size:42px;font-weight:900;letter-spacing:-.05em;line-height:1}
+.kpi-num.c-green{background:linear-gradient(135deg,#10b981,#34d399);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text;filter:drop-shadow(0 0 24px rgba(16,185,129,.35))}
+.kpi-num.c-red{background:linear-gradient(135deg,#f43f5e,#fb7185);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text;filter:drop-shadow(0 0 24px rgba(244,63,94,.35))}
+.kpi-num.c-yellow{background:linear-gradient(135deg,#f59e0b,#fbbf24);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text}
+.kpi-num.c-blue{background:linear-gradient(135deg,#6366f1,#818cf8);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text;filter:drop-shadow(0 0 24px rgba(99,102,241,.35))}
+.kpi-sub{font-size:12px;color:var(--text-4);margin-top:6px;font-weight:500}
+.token-bar{display:flex;align-items:center;gap:10px;margin-top:12px;font-size:11px;font-weight:600}
+.token-bar span{font-family:var(--mono);letter-spacing:-.02em}
+
+/* Meta cards */
+.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:16px;margin-bottom:20px}
+@media(max-width:900px){.meta-row{grid-template-columns:1fr}}
+.meta-card{padding:18px 22px}
+.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.1em;margin-bottom:8px}
+.meta-value{font-size:16px;font-weight:700;color:var(--text);letter-spacing:-.02em}
+.meta-sub{font-size:12px;color:var(--text-4);margin-top:4px;font-weight:500}
+
+/* Card */
+.card{padding:22px;margin-bottom:20px}
+.card-title{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.08em;margin-bottom:18px;display:flex;align-items:center;gap:8px}
+.card-title::before{content:'';width:3px;height:14px;border-radius:2px;background:linear-gradient(to bottom,#6366f1,#a855f7);box-shadow:0 0 8px rgba(99,102,241,.4)}
+.chart-wrap{position:relative}
+.chart-row{display:grid;grid-template-columns:1fr 260px;gap:16px;margin-bottom:20px}
+@media(max-width:900px){.chart-row{grid-template-columns:1fr}}
+
+/* Trace items */
+.item{margin-bottom:12px}
+.item-head{padding:16px 24px;display:flex;align-items:center;gap:12px;cursor:pointer;transition:background .15s}
+.item-head:hover{background:rgba(255,255,255,.02)}
+.item-name{font-weight:700;font-size:15px;flex:1;letter-spacing:-.02em}
+.item-meta{display:flex;align-items:center;gap:8px;flex-shrink:0;flex-wrap:wrap}
+.meta-chip{display:inline-flex;align-items:center;gap:4px;padding:3px 10px;border-radius:6px;background:rgba(255,255,255,.04);border:1px solid var(--border);font-size:11px;font-weight:600;color:var(--text-3);white-space:nowrap;transition:all .15s}
+.meta-chip:hover{background:rgba(255,255,255,.06);border-color:var(--border-light)}
+.chevron{color:var(--text-4);font-size:10px;transition:transform .25s;flex-shrink:0}
+details[open] .turn-chevron{transform:rotate(90deg)}
+.item-body{padding:24px;border-top:1px solid var(--border);background:linear-gradient(180deg,rgba(0,0,0,.2),rgba(0,0,0,.1))}
+.mermaid-box{background:rgba(0,0,0,.3);border:1px solid rgba(30,41,59,.8);border-radius:var(--r-sm);padding:32px 24px;overflow-x:auto;min-height:220px}
+.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
+.mermaid-box .mermaid{min-width:560px}
+
+/* Chat turns */
+.chat-container{margin-top:20px;padding:20px;background:rgba(0,0,0,.15);border:1px solid var(--border);border-radius:var(--r-sm)}
+.chat-header{font-size:12px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:16px;padding-bottom:12px;border-bottom:1px solid var(--border)}
+.chat-messages{display:flex;flex-direction:column;gap:4px}
+.chat-bubble{max-width:80%;padding:12px 16px;font-size:13px;line-height:1.6;letter-spacing:-.01em;border-radius:16px;animation:chatIn .3s cubic-bezier(.4,0,.2,1)}
+@keyframes chatIn{from{opacity:0;transform:translateY(6px)}to{opacity:1;transform:none}}
+.chat-bubble.user{align-self:flex-end;background:linear-gradient(135deg,rgba(99,102,241,.2),rgba(168,85,247,.1));border:1px solid rgba(99,102,241,.2);color:var(--text);border-bottom-right-radius:4px}
+.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.03);border:1px solid var(--border);color:var(--text-2);border-bottom-left-radius:4px}
+.chat-meta{display:flex;align-items:center;gap:8px;padding:6px 4px;font-size:10px;color:var(--text-4);font-weight:500}
+.chat-meta.right{justify-content:flex-end}
+.chat-tool-tag{display:inline-flex;align-items:center;gap:3px;padding:2px 8px;border-radius:4px;background:rgba(99,102,241,.1);border:1px solid rgba(99,102,241,.15);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
+.chat-eval{padding:8px 12px;border-radius:10px;font-size:11px;font-weight:600;max-width:80%;animation:chatIn .3s}
+.chat-eval.pass{align-self:flex-start;background:linear-gradient(135deg,rgba(16,185,129,.08),rgba(16,185,129,.04));border:1px solid rgba(16,185,129,.2);color:var(--green-bright)}
+.chat-eval.fail{align-self:flex-start;background:linear-gradient(135deg,rgba(244,63,94,.08),rgba(244,63,94,.04));border:1px solid rgba(244,63,94,.2);color:var(--red-bright)}
+
+/* Diffs */
+.diff-item{margin-bottom:12px}
+.diff-head{padding:16px 24px;display:flex;align-items:center;gap:10px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
+.diff-name{font-weight:700;font-size:15px;flex:1;letter-spacing:-.02em}
+.diff-cols{display:grid;grid-template-columns:1fr 1fr}
+.diff-col{padding:18px 22px}
+.diff-col+.diff-col{border-left:1px solid var(--border)}
+.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:10px}
+.tags{display:flex;flex-wrap:wrap;gap:4px;margin-bottom:10px}
+.tag{background:rgba(255,255,255,.04);border:1px solid var(--border);border-radius:6px;padding:3px 10px;font-size:11px;font-family:var(--mono);font-weight:500;transition:all .15s}
+.tag.add{border-color:rgba(16,185,129,.3);color:var(--green-bright);background:rgba(16,185,129,.08)}
+.tag.rem{border-color:rgba(244,63,94,.3);color:var(--red-bright);background:rgba(244,63,94,.08);text-decoration:line-through}
+.outbox{background:rgba(0,0,0,.25);border:1px solid rgba(30,41,59,.6);border-radius:var(--r-xs);padding:14px;font:12px/1.7 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:200px;overflow-y:auto}
+.difflines{background:rgba(0,0,0,.25);border:1px solid rgba(30,41,59,.6);border-radius:var(--r-xs);padding:12px;font:11px/1.7 var(--mono);max-height:200px;overflow-y:auto;margin-top:10px}
+.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.06);display:block;padding:1px 6px;margin:0 -6px;border-radius:3px}
+.difflines .r{color:var(--red-bright);background:rgba(244,63,94,.06);display:block;padding:1px 6px;margin:0 -6px;border-radius:3px}
+.sim{display:inline-flex;align-items:center;gap:6px;font-size:12px;color:var(--text-3)}
+.sim-track{width:52px;height:5px;background:rgba(255,255,255,.06);border-radius:3px;overflow:hidden;display:inline-block;vertical-align:middle}
+.sim-fill{height:100%;border-radius:3px;transition:width .8s cubic-bezier(.4,0,.2,1)}
+.sim-fill.hi{background:linear-gradient(90deg,var(--green),var(--green-bright))}.sim-fill.mid{background:linear-gradient(90deg,var(--yellow),var(--yellow-bright))}.sim-fill.lo{background:linear-gradient(90deg,var(--red),var(--red-bright))}
+
+/* Pipeline */
+.pipeline{display:flex;flex-direction:column;gap:8px;padding:18px 24px;border-top:1px solid var(--border)}
+.pipeline-row{display:flex;align-items:center;gap:4px;flex-wrap:wrap}
+.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;width:70px;flex-shrink:0}
+.pipe-step{display:inline-flex;align-items:center;padding:5px 12px;border-radius:6px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.04);border:1px solid var(--border);color:var(--text-2);position:relative;transition:all .15s}
+.pipe-step+.pipe-step{margin-left:6px}
+.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-14px;color:var(--text-4);font-size:10px;font-family:var(--font)}
+.pipe-step.match{border-color:rgba(99,102,241,.2);background:rgba(99,102,241,.06)}
+.pipe-step.added{border-color:rgba(16,185,129,.3);color:var(--green-bright);background:rgba(16,185,129,.08);box-shadow:0 0 8px rgba(16,185,129,.1)}
+.pipe-step.removed{border-color:rgba(244,63,94,.3);color:var(--red-bright);background:rgba(244,63,94,.08);text-decoration:line-through}
+.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-top:16px;padding-top:16px;border-top:1px solid var(--border)}
+.traj-col .col-title{padding-bottom:10px}
+
+/* Tables */
+.ev-table{width:100%;border-collapse:separate;border-spacing:0;font-size:13px}
+.ev-table th{text-align:left;padding:10px 14px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.08em;border-bottom:1px solid var(--border);background:rgba(0,0,0,.2)}
+.ev-table th:first-child{border-radius:var(--r-xs) 0 0 0}.ev-table th:last-child{border-radius:0 var(--r-xs) 0 0}
+.ev-table td{padding:12px 14px;border-bottom:1px solid rgba(30,41,59,.5);transition:background .15s}
+.ev-table tr:hover td{background:rgba(255,255,255,.02)}
+.ev-table .mono{font-family:var(--mono);font-size:12px;letter-spacing:-.02em}
+.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
+.param-table{width:100%;border-collapse:collapse;font-size:12px}
+.param-table th{text-align:left;padding:8px 12px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
+.param-table td{padding:8px 12px;border-bottom:1px solid rgba(30,41,59,.5)}
+table td,table th{transition:background .15s}
+
+/* Empty */
+.empty{text-align:center;padding:80px 40px;color:var(--text-4)}
+.empty-icon{font-size:40px;margin-bottom:14px;display:block;opacity:.3}
+.empty code{background:rgba(255,255,255,.06);padding:3px 10px;border-radius:6px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
+
+/* Scrollbar */
+::-webkit-scrollbar{width:5px;height:5px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.08);border-radius:4px}::-webkit-scrollbar-thumb:hover{background:rgba(255,255,255,.15)}
+
+/* Entrance animations */
+@keyframes slideUp{from{opacity:0;transform:translateY(16px)}to{opacity:1;transform:none}}
+.kpi,.meta-card,.card,.item,.diff-item{animation:slideUp .4s cubic-bezier(.4,0,.2,1) both}
+.kpi:nth-child(2),.meta-card:nth-child(2){animation-delay:.05s}
+.kpi:nth-child(3){animation-delay:.1s}
+.kpi:nth-child(4){animation-delay:.15s}
+.item:nth-child(2),.diff-item:nth-child(2){animation-delay:.05s}
+.item:nth-child(3),.diff-item:nth-child(3){animation-delay:.1s}
+</style>
+</head>
+<body>
+
+<header class="header">
+  <div class="logo">
+    <div class="logo-icon">◈</div>
+    <div>
+      <div class="logo-text">EvalView Check Report</div>
+      <div class="logo-sub">2026-03-17 15:46</div>
+    </div>
+  </div>
+  <div class="header-right">
+    
+      
+        <span class="badge b-red">✗ 1 Failed</span>
+      
+      <span class="badge b-blue">5 Tests</span>
+    
+  </div>
+</header>
+
+<main class="main">
+
+  <div class="tabbar">
+    <button class="tab on" onclick="show('overview',this)">Overview</button>
+    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
+    <button class="tab " onclick="show('diffs',this)">Diffs</button>
+    <button class="tab " onclick="show('timeline',this)">Timeline</button>
+    
+  </div>
+
+  <!-- OVERVIEW -->
+  <div id="p-overview" class="panel on">
+    
+    <div class="kpi-row">
+      <div class="kpi glass glow-green">
+        <div class="kpi-top">
+          <div class="kpi-label">Pass Rate</div>
+          <div class="kpi-ring" style="--ring-glow:var(--green-glow)">
+            <svg width="52" height="52" viewBox="0 0 52 52">
+              <circle cx="26" cy="26" r="22" fill="none" stroke="rgba(255,255,255,.05)" stroke-width="3.5"/>
+              <circle cx="26" cy="26" r="22" fill="none" stroke="var(--green-bright)" stroke-width="3.5" stroke-linecap="round" stroke-dasharray="110.6 138.2"/>
+            </svg>
+            <div class="kpi-ring-label">4/5</div>
+          </div>
+        </div>
+        <div class="kpi-num c-green">80.0%</div>
+        <div class="kpi-sub">4 of 5 tests</div>
+      </div>
+      <div class="kpi glass glow-blue">
+        <div class="kpi-top">
+          <div class="kpi-label">Avg Score</div>
+          <div class="kpi-ring" style="--ring-glow:var(--blue-glow)">
+            <svg width="52" height="52" viewBox="0 0 52 52">
+              <circle cx="26" cy="26" r="22" fill="none" stroke="rgba(255,255,255,.05)" stroke-width="3.5"/>
+              <circle cx="26" cy="26" r="22" fill="none" stroke="var(--yellow-bright)" stroke-width="3.5" stroke-linecap="round" stroke-dasharray="110.1 138.2"/>
+            </svg>
+            <div class="kpi-ring-label">79</div>
+          </div>
+        </div>
+        <div class="kpi-num c-yellow">79.7</div>
+        <div class="kpi-sub">out of 100</div>
+      </div>
+      <div class="kpi glass glow-blue">
+        <div class="kpi-top"><div class="kpi-label">Total Cost</div></div>
+        <div class="kpi-num c-blue">$0.017</div>
+        <div class="kpi-sub">2,835 tokens (verified)</div>
+        
+        <div class="token-bar"><span style="color:var(--blue-bright)">in 2,170</span><span style="color:var(--purple-bright)">out 665</span></div>
+        
+        
+        <div style="margin-top:8px;font-size:11px;color:var(--text-4);font-weight:500">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
+        
+      </div>
+      <div class="kpi glass glow-blue">
+        <div class="kpi-top"><div class="kpi-label">Avg Latency</div></div>
+        <div class="kpi-num c-blue">1360<span style="font-size:16px;font-weight:600;opacity:.5;margin-left:2px">ms</span></div>
+        <div class="kpi-sub">per test</div>
+      </div>
+    </div>
+
+    <div class="meta-row">
+      <div class="meta-card glass">
+        <div class="meta-label">Agent Model</div>
+        <div class="meta-value">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
+        <div class="meta-sub">5 tests in this run</div>
+      </div>
+      
+      <div class="meta-card glass">
+        <div class="meta-label">Token Usage</div>
+        <div class="meta-value">2,835 tokens</div>
+        <div class="meta-sub">in 2,170 / out 665</div>
+      </div>
+      
+    </div>
+    
+
+    
+    <div class="meta-row">
+      <div class="meta-card glass">
+        <div class="meta-label">EvalView Judge (gpt-4o-mini)</div>
+        <div class="meta-value">$0.006</div>
+        <div class="meta-sub">1,320 tokens across 5 judge calls</div>
+      </div>
+      <div class="meta-card glass">
+        <div class="meta-label">Judge Token Breakdown</div>
+        <div class="meta-value">in 1,100 / out 220</div>
+        <div class="meta-sub">Separate from agent trace cost</div>
+      </div>
+    </div>
+    
+
+    <div class="chart-row">
+      <div class="card glass">
+        <div class="card-title">Score per Test</div>
+        <div class="chart-wrap" style="height:260px"><canvas id="bars"></canvas></div>
+      </div>
+      <div class="card glass">
+        <div class="card-title">Distribution</div>
+        <div class="chart-wrap" style="height:220px"><canvas id="donut"></canvas></div>
+      </div>
+    </div>
+
+    <div class="card glass">
+      <div class="card-title">Execution Cost per Query</div>
+      <table class="ev-table">
+        
+        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Tokens</th><th>Latency</th><th>Score</th></tr></thead>
+        <tbody>
+          
+          <tr>
+            <td style="font-weight:600">refund-flow</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0034</td>
+            <td class="mono" style="color:var(--text-3)">570 tokens</td>
+            <td style="color:var(--text-3)">1200ms</td>
+            <td class="num" style="color:var(--green-bright)">92.5</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">order-lookup</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0021</td>
+            <td class="mono" style="color:var(--text-3)">415 tokens</td>
+            <td style="color:var(--text-3)">800ms</td>
+            <td class="num" style="color:var(--green-bright)">88.0</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">billing-dispute</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0058</td>
+            <td class="mono" style="color:var(--text-3)">890 tokens</td>
+            <td style="color:var(--text-3)">2400ms</td>
+            <td class="num" style="color:var(--red-bright)">45.0</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">password-reset</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0012</td>
+            <td class="mono" style="color:var(--text-3)">260 tokens</td>
+            <td style="color:var(--text-3)">600ms</td>
+            <td class="num" style="color:var(--green-bright)">95.0</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">vip-escalation</td>
+            <td class="mono" style="color:var(--text-4)">openai/claude-3.5-sonnet</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0045</td>
+            <td class="mono" style="color:var(--text-3)">700 tokens</td>
+            <td style="color:var(--text-3)">1800ms</td>
+            <td class="num" style="color:var(--yellow-bright)">78.0</td>
+          </tr>
+          
+          <tr style="background:rgba(0,0,0,.15)">
+            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.017</td>
+            <td colspan="3" style="font-size:11px;color:var(--text-4)">avg $0.003400 per query</td>
+          </tr>
+        </tbody>
+      </table>
+      <div style="margin-top:14px;font-size:11px;color:var(--text-4);line-height:1.6">
+        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.06);padding:2px 8px;border-radius:4px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
+         This check also used 5 EvalView judge calls (1320 tokens).
+      </div>
+    </div>
+    
+  </div>
+
+  <!-- TRACE -->
+  <div id="p-trace" class="panel ">
+    
+      
+      <div class="item glass">
+        <div class="item-head" onclick="tog('tr1',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">refund-flow</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--green-bright);border-color:rgba(16,185,129,.2)">92.5/100</span>
+            <span class="meta-chip">💰 $0.0034</span>
+            <span class="meta-chip">⚡ 1200ms</span>
+            <span class="meta-chip">570 tokens</span>
+            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr1" class="item-body" >
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 450 / out 120 tokens</span><span class="badge b-blue">$0.0034</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:linear-gradient(135deg,rgba(99,102,241,.08),rgba(168,85,247,.04));border:1px solid rgba(99,102,241,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(99,102,241,.5);margin-right:8px">Query</span>Process refund for order 4812
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Refund of $49.99 issued successfully.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item glass">
+        <div class="item-head" onclick="tog('tr2',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">order-lookup</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--green-bright);border-color:rgba(16,185,129,.2)">88.0/100</span>
+            <span class="meta-chip">💰 $0.0021</span>
+            <span class="meta-chip">⚡ 800ms</span>
+            <span class="meta-chip">415 tokens</span>
+            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr2" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 320 / out 95 tokens</span><span class="badge b-blue">$0.0021</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:linear-gradient(135deg,rgba(99,102,241,.08),rgba(168,85,247,.04));border:1px solid rgba(99,102,241,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(99,102,241,.5);margin-right:8px">Query</span>Look up order status for #7291
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Order #7291 shipped, arriving March 20.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item glass">
+        <div class="item-head" onclick="tog('tr3',this)">
+          <span class="badge b-red">✗</span>
+          <span class="item-name">billing-dispute</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--red-bright);border-color:rgba(244,63,94,.2)">45.0/100</span>
+            <span class="meta-chip">💰 $0.0058</span>
+            <span class="meta-chip">⚡ 2400ms</span>
+            <span class="meta-chip">890 tokens</span>
+            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr3" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 680 / out 210 tokens</span><span class="badge b-blue">$0.0058</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:linear-gradient(135deg,rgba(99,102,241,.08),rgba(168,85,247,.04));border:1px solid rgba(99,102,241,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(99,102,241,.5);margin-right:8px">Query</span>Customer disputes charge on Feb statement
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>I could not find the disputed charge.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item glass">
+        <div class="item-head" onclick="tog('tr4',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">password-reset</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--green-bright);border-color:rgba(16,185,129,.2)">95.0/100</span>
+            <span class="meta-chip">💰 $0.0012</span>
+            <span class="meta-chip">⚡ 600ms</span>
+            <span class="meta-chip">260 tokens</span>
+            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr4" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 200 / out 60 tokens</span><span class="badge b-blue">$0.0012</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:linear-gradient(135deg,rgba(99,102,241,.08),rgba(168,85,247,.04));border:1px solid rgba(99,102,241,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(99,102,241,.5);margin-right:8px">Query</span>Reset password for user@example.com
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Password reset email sent.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item glass">
+        <div class="item-head" onclick="tog('tr5',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">vip-escalation</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--yellow-bright);border-color:rgba(245,158,11,.2)">78.0/100</span>
+            <span class="meta-chip">💰 $0.0045</span>
+            <span class="meta-chip">⚡ 1800ms</span>
+            <span class="meta-chip">700 tokens</span>
+            <span class="meta-chip">🧠 openai/claude-3.5-sonnet</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr5" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
+            <span class="badge b-blue">Model: openai/claude-3.5-sonnet</span>
+            <span class="badge b-blue">in 520 / out 180 tokens</span><span class="badge b-blue">$0.0045</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:linear-gradient(135deg,rgba(99,102,241,.08),rgba(168,85,247,.04));border:1px solid rgba(99,102,241,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(99,102,241,.5);margin-right:8px">Query</span>VIP customer threatening to leave
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Escalated to senior support with priority flag.
+          </div>
+          
+        </div>
+      </div>
+      
+    
+  </div>
+
+  <!-- DIFFS -->
+  <div id="p-diffs" class="panel ">
+    
+      <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
+    
+  </div>
+
+  <!-- TIMELINE -->
+  <div id="p-timeline" class="panel ">
+    
+      <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
+    
+  </div>
+
+  <!-- COMPARE -->
+  
+</main>
+
+<script>
+mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
+  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(99,102,241,.15)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(99,102,241,.3)',lineColor:'rgba(100,116,139,.4)',secondaryColor:'rgba(16,185,129,.1)',tertiaryColor:'rgba(168,85,247,.1)',noteBkgColor:'rgba(99,102,241,.08)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(99,102,241,.2)',actorBkg:'rgba(99,102,241,.12)',actorBorder:'rgba(99,102,241,.3)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
+  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:12,messageFontSize:11,noteFontSize:10,boxTextMargin:8,mirrorActors:false,messageAlign:'center',actorMargin:30,bottomMarginAdj:4}
+});
+function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
+function tog(id,head){const el=document.getElementById(id);const open=el.style.display!=='none';el.style.display=open?'none':'block';head.querySelector('.chevron').style.transform=open?'':'rotate(180deg)'}
+
+
+(function(){
+  const passed=4,failed=1;
+  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
+  const tc='rgba(100,116,139,.8)',gc='rgba(255,255,255,.03)';
+  const ttOpts={backgroundColor:'rgba(3,7,18,.95)',borderColor:'rgba(30,41,59,.8)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:12},bodyFont:{family:'Inter',size:12},padding:12,cornerRadius:10,boxPadding:4};
+  new Chart(document.getElementById('donut'),{type:'doughnut',data:{labels:['Passed','Failed'],datasets:[{data:[passed,failed],backgroundColor:['rgba(16,185,129,.7)','rgba(244,63,94,.7)'],borderColor:['rgba(16,185,129,.15)','rgba(244,63,94,.15)'],borderWidth:2,hoverOffset:8,hoverBackgroundColor:['rgba(16,185,129,.9)','rgba(244,63,94,.9)']}]},options:{responsive:true,maintainAspectRatio:false,cutout:'76%',plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:11,weight:'600'},padding:20,boxWidth:8,boxHeight:8,usePointStyle:true,pointStyle:'circle'}},tooltip:{...ttOpts,callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}});
+  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
+  const barG=sorted.map(s=>{if(s.score>=80)return{bg:'rgba(16,185,129,.45)',b:'rgba(16,185,129,.7)',h:'rgba(16,185,129,.65)'};if(s.score>=60)return{bg:'rgba(245,158,11,.45)',b:'rgba(245,158,11,.7)',h:'rgba(245,158,11,.65)'};return{bg:'rgba(244,63,94,.45)',b:'rgba(244,63,94,.7)',h:'rgba(244,63,94,.65)'}});
+  new Chart(document.getElementById('bars'),{type:'bar',data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),backgroundColor:barG.map(g=>g.bg),borderColor:barG.map(g=>g.b),hoverBackgroundColor:barG.map(g=>g.h),borderWidth:1,borderRadius:6,borderSkipped:false,barPercentage:.65,categoryPercentage:.8}]},options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:10},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.8)',font:{family:'Inter',size:12,weight:'600'},padding:8},border:{display:false}}},plugins:{legend:{display:false},tooltip:{...ttOpts,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
+})();
+
+
+
+
+
+</script>
+
+<!-- Share bar -->
+<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(3,7,18,.9);backdrop-filter:blur(20px);-webkit-backdrop-filter:blur(20px);border-top:1px solid var(--border);padding:10px 28px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:12px;color:var(--text-4)">
+  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:700">EvalView</a> <span style="opacity:.3;margin:0 8px">|</span> Agent testing &amp; regression detection</span>
+  <span style="display:flex;align-items:center;gap:8px">
+    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:5px;padding:6px 14px;border-radius:8px;background:rgba(29,155,240,.1);color:#1d9bf0;text-decoration:none;font-weight:700;font-size:11px;transition:all .2s;border:1px solid rgba(29,155,240,.15)" onmouseover="this.style.background='rgba(29,155,240,.2)';this.style.borderColor='rgba(29,155,240,.3)';this.style.transform='translateY(-1px)'" onmouseout="this.style.background='rgba(29,155,240,.1)';this.style.borderColor='rgba(29,155,240,.15)';this.style.transform='none'">
+      <svg width="13" height="13" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
+    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:5px;padding:6px 14px;border-radius:8px;background:rgba(255,255,255,.04);color:var(--text-2);text-decoration:none;font-weight:700;font-size:11px;transition:all .2s;border:1px solid var(--border)" onmouseover="this.style.background='rgba(255,255,255,.08)';this.style.borderColor='var(--border-light)';this.style.transform='translateY(-1px)'" onmouseout="this.style.background='rgba(255,255,255,.04)';this.style.borderColor='var(--border)';this.style.transform='none'">
+      <svg width="13" height="13" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
+  </span>
+</div>
+<div style="height:44px"></div>
+
+</body>
+</html>
\ No newline at end of file
diff --git a/.evalview/latest-redesign.html b/.evalview/latest-redesign.html
new file mode 100644
index 0000000..ea790bb
--- /dev/null
+++ b/.evalview/latest-redesign.html
@@ -0,0 +1,956 @@
+<!doctype html>
+<html lang="en">
+<head>
+<meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1.0">
+<title>EvalView Check Report</title>
+<link rel="preconnect" href="https://fonts.googleapis.com">
+<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
+<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
+<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
+<style>
+*{box-sizing:border-box;margin:0;padding:0}
+:root{
+  --green:#34d399;--green-dim:#065f46;--red:#fb7185;--red-dim:#9f1239;
+  --yellow:#fbbf24;--yellow-dim:#92400e;--blue:#818cf8;--purple:#c084fc;--cyan:#22d3ee;
+  --surface-0:#0a0e1a;--surface-1:rgba(255,255,255,.03);--surface-2:rgba(255,255,255,.055);
+  --surface-3:rgba(255,255,255,.08);--surface-raised:rgba(255,255,255,.04);
+  --border:rgba(255,255,255,.07);--border-subtle:rgba(255,255,255,.05);
+  --border-hover:rgba(255,255,255,.14);
+  --text:#f1f5f9;--text-secondary:#94a3b8;--text-tertiary:#64748b;
+  --radius:16px;--radius-sm:10px;--radius-xs:6px;
+  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
+  --mono:'JetBrains Mono','SF Mono','Fira Code',monospace;
+  --shadow-sm:0 1px 2px rgba(0,0,0,.3),0 1px 3px rgba(0,0,0,.15);
+  --shadow-md:0 4px 16px rgba(0,0,0,.25),0 2px 4px rgba(0,0,0,.15);
+  --shadow-lg:0 8px 32px rgba(0,0,0,.35),0 4px 8px rgba(0,0,0,.2);
+  --shadow-glow-green:0 0 20px rgba(52,211,153,.15),0 0 60px rgba(52,211,153,.05);
+  --shadow-glow-red:0 0 20px rgba(251,113,133,.15),0 0 60px rgba(251,113,133,.05);
+  --shadow-glow-blue:0 0 20px rgba(129,140,248,.15),0 0 60px rgba(129,140,248,.05);
+  --transition:all .2s cubic-bezier(.4,0,.2,1);
+}
+html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
+body{
+  font-family:var(--font);font-size:14px;line-height:1.6;
+  color:var(--text);min-height:100vh;overflow-x:hidden;
+  background:var(--surface-0);
+}
+/* Subtle mesh gradient background */
+body::before{
+  content:'';position:fixed;inset:0;pointer-events:none;z-index:0;
+  background:
+    radial-gradient(ellipse 80% 50% at 10% 0%,rgba(129,140,248,.1),transparent 50%),
+    radial-gradient(ellipse 60% 40% at 90% 100%,rgba(52,211,153,.07),transparent 50%),
+    radial-gradient(ellipse 40% 30% at 50% 40%,rgba(192,132,252,.04),transparent 50%);
+}
+
+/* ── Header ── */
+.header{
+  position:sticky;top:0;z-index:200;
+  background:rgba(10,14,26,.85);
+  border-bottom:1px solid var(--border);
+  backdrop-filter:blur(20px) saturate(180%);
+  -webkit-backdrop-filter:blur(20px) saturate(180%);
+  padding:0 32px;height:56px;
+  display:flex;align-items:center;justify-content:space-between;
+}
+.logo{display:flex;align-items:center;gap:10px}
+.logo-icon{
+  width:30px;height:30px;border-radius:8px;flex-shrink:0;
+  background:linear-gradient(135deg,var(--blue),var(--purple));
+  display:flex;align-items:center;justify-content:center;font-size:14px;
+  box-shadow:0 0 0 1px rgba(129,140,248,.3),0 2px 12px rgba(129,140,248,.2);
+}
+.logo-text{font-size:14px;font-weight:700;letter-spacing:-.02em;color:var(--text)}
+.logo-sub{font-size:11px;color:var(--text-tertiary);font-weight:400;letter-spacing:-.01em}
+.header-right{display:flex;align-items:center;gap:6px}
+
+/* ── Badges ── */
+.badge{
+  display:inline-flex;align-items:center;gap:4px;
+  padding:3px 10px;border-radius:20px;font-size:11px;font-weight:600;
+  letter-spacing:-.01em;white-space:nowrap;
+}
+.b-green{background:rgba(52,211,153,.1);color:var(--green);border:1px solid rgba(52,211,153,.2)}
+.b-red{background:rgba(251,113,133,.1);color:var(--red);border:1px solid rgba(251,113,133,.2)}
+.b-yellow{background:rgba(251,191,36,.1);color:var(--yellow);border:1px solid rgba(251,191,36,.2)}
+.b-blue{background:rgba(129,140,248,.1);color:var(--blue);border:1px solid rgba(129,140,248,.2)}
+.b-purple{background:rgba(192,132,252,.1);color:var(--purple);border:1px solid rgba(192,132,252,.2)}
+
+/* ── Layout ── */
+.main{max-width:1280px;margin:0 auto;padding:28px 32px 80px;position:relative;z-index:1}
+
+/* ── Tab bar ── */
+.tabbar{
+  display:flex;gap:1px;
+  background:var(--surface-1);border:1px solid var(--border);
+  border-radius:var(--radius-sm);padding:3px;margin-bottom:28px;width:fit-content;
+}
+.tab{
+  background:none;border:none;color:var(--text-tertiary);cursor:pointer;
+  font:500 13px/1 var(--font);padding:8px 18px;border-radius:7px;
+  transition:var(--transition);letter-spacing:-.01em;
+}
+.tab:hover{color:var(--text-secondary);background:var(--surface-2)}
+.tab.on{
+  color:var(--text);background:var(--surface-3);
+  box-shadow:var(--shadow-sm);
+}
+.panel{display:none}.panel.on{display:block}
+
+/* ── KPI Cards with progress rings ── */
+.kpi-row{display:grid;grid-template-columns:repeat(4,1fr);gap:14px;margin-bottom:18px}
+@media(max-width:1100px){.kpi-row{grid-template-columns:repeat(2,1fr)}}
+.kpi{
+  background:var(--surface-raised);border:1px solid var(--border);
+  border-radius:var(--radius);padding:20px;
+  position:relative;overflow:hidden;
+  transition:var(--transition);cursor:default;
+}
+.kpi:hover{transform:translateY(-2px);border-color:var(--border-hover);box-shadow:var(--shadow-md)}
+.kpi.kpi-pass:hover{box-shadow:var(--shadow-glow-green);border-color:rgba(52,211,153,.25)}
+.kpi.kpi-fail:hover{box-shadow:var(--shadow-glow-red);border-color:rgba(251,113,133,.25)}
+.kpi.kpi-blue:hover{box-shadow:var(--shadow-glow-blue);border-color:rgba(129,140,248,.25)}
+.kpi-top{display:flex;align-items:flex-start;justify-content:space-between;margin-bottom:12px}
+.kpi-label{font-size:11px;font-weight:600;color:var(--text-tertiary);text-transform:uppercase;letter-spacing:.06em}
+.kpi-ring{position:relative;width:44px;height:44px;flex-shrink:0}
+.kpi-ring svg{transform:rotate(-90deg)}
+.kpi-ring-label{position:absolute;inset:0;display:flex;align-items:center;justify-content:center;font-size:10px;font-weight:700;color:var(--text-secondary)}
+.kpi-num{font-size:32px;font-weight:800;letter-spacing:-.04em;line-height:1}
+.kpi-num.c-green{color:var(--green)}
+.kpi-num.c-red{color:var(--red)}
+.kpi-num.c-yellow{color:var(--yellow)}
+.kpi-num.c-blue{color:var(--blue)}
+.kpi-sub{font-size:12px;color:var(--text-tertiary);margin-top:4px;letter-spacing:-.01em}
+
+/* ── Meta cards ── */
+.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:14px;margin-bottom:18px}
+@media(max-width:900px){.meta-row{grid-template-columns:1fr}}
+.meta-card{
+  background:var(--surface-raised);border:1px solid var(--border);
+  border-radius:var(--radius);padding:16px 20px;
+  transition:var(--transition);
+}
+.meta-card:hover{border-color:var(--border-hover)}
+.meta-label{font-size:10px;font-weight:700;color:var(--text-tertiary);text-transform:uppercase;letter-spacing:.08em;margin-bottom:6px}
+.meta-value{font-size:15px;font-weight:700;color:var(--text);letter-spacing:-.01em}
+.meta-sub{font-size:12px;color:var(--text-tertiary);margin-top:3px}
+
+/* ── Cards ── */
+.card{
+  background:var(--surface-raised);border:1px solid var(--border);
+  border-radius:var(--radius);padding:20px;
+  position:relative;overflow:hidden;
+  transition:var(--transition);
+}
+.card:hover{border-color:var(--border-hover)}
+.card-title{
+  font-size:11px;font-weight:700;color:var(--text-tertiary);
+  text-transform:uppercase;letter-spacing:.06em;
+  margin-bottom:16px;display:flex;align-items:center;gap:8px;
+}
+.card-title::before{content:'';width:3px;height:12px;border-radius:2px;background:linear-gradient(to bottom,var(--blue),var(--purple))}
+
+/* ── Charts ── */
+.chart-row{display:grid;grid-template-columns:1fr 220px;gap:14px;margin-bottom:18px}
+@media(max-width:900px){.chart-row{grid-template-columns:1fr}}
+.chart-wrap{position:relative;height:200px}
+
+/* ── Trace cards ── */
+.item{
+  background:var(--surface-raised);border:1px solid var(--border);
+  border-radius:var(--radius);margin-bottom:10px;overflow:hidden;
+  transition:var(--transition);
+}
+.item:hover{border-color:var(--border-hover)}
+.item-head{
+  padding:14px 20px;display:flex;align-items:center;gap:10px;
+  cursor:pointer;transition:background .15s;
+}
+.item-head:hover{background:var(--surface-2)}
+.item-name{font-weight:600;font-size:14px;flex:1;letter-spacing:-.02em}
+.item-meta{display:flex;align-items:center;gap:10px;font-size:11px;color:var(--text-tertiary);flex-shrink:0}
+.item-meta-pill{
+  display:inline-flex;align-items:center;gap:4px;
+  padding:2px 8px;border-radius:4px;background:var(--surface-2);
+  font-size:11px;font-weight:500;white-space:nowrap;
+}
+.chevron{color:var(--text-tertiary);font-size:10px;transition:transform .2s;flex-shrink:0}
+details[open] .turn-chevron{transform:rotate(90deg)}
+.item-body{
+  padding:20px;border-top:1px solid var(--border);
+  background:rgba(0,0,0,.15);
+}
+.mermaid-box{
+  background:rgba(0,0,0,.25);border:1px solid var(--border-subtle);
+  border-radius:var(--radius-sm);padding:28px 20px;overflow-x:auto;
+  min-height:200px;
+}
+.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
+.mermaid-box .mermaid{min-width:560px}
+
+/* ── Chat-style conversation turns ── */
+.chat-turns{display:flex;flex-direction:column;gap:2px;margin-top:16px}
+.chat-turn-header{
+  font-size:11px;font-weight:700;color:var(--text-tertiary);
+  text-transform:uppercase;letter-spacing:.06em;margin-bottom:10px;
+}
+.chat-bubble{
+  max-width:85%;padding:10px 14px;font-size:13px;line-height:1.55;
+  letter-spacing:-.01em;border-radius:var(--radius-sm);
+  animation:fadeIn .2s ease-out;
+}
+@keyframes fadeIn{from{opacity:0;transform:translateY(4px)}to{opacity:1;transform:none}}
+.chat-bubble.user{
+  align-self:flex-end;
+  background:rgba(129,140,248,.12);border:1px solid rgba(129,140,248,.15);
+  color:var(--text);border-bottom-right-radius:4px;
+}
+.chat-bubble.agent{
+  align-self:flex-start;
+  background:var(--surface-2);border:1px solid var(--border);
+  color:var(--text-secondary);border-bottom-left-radius:4px;
+}
+.chat-meta{
+  display:flex;align-items:center;gap:8px;padding:4px 0;
+  font-size:10px;color:var(--text-tertiary);
+}
+.chat-meta.user-side{justify-content:flex-end}
+.chat-tool-tag{
+  display:inline-flex;align-items:center;gap:3px;
+  padding:2px 7px;border-radius:4px;
+  background:rgba(129,140,248,.08);border:1px solid rgba(129,140,248,.12);
+  font-size:10px;font-weight:600;color:var(--blue);font-family:var(--mono);
+}
+.chat-eval{
+  margin-top:2px;padding:6px 10px;border-radius:var(--radius-xs);
+  font-size:11px;font-weight:500;max-width:85%;
+}
+.chat-eval.pass{background:rgba(52,211,153,.06);border:1px solid rgba(52,211,153,.15);color:var(--green)}
+.chat-eval.fail{background:rgba(251,113,133,.06);border:1px solid rgba(251,113,133,.15);color:var(--red)}
+
+/* ── Diff tab ── */
+.diff-item{
+  background:var(--surface-raised);border:1px solid var(--border);
+  border-radius:var(--radius);margin-bottom:10px;overflow:hidden;
+  transition:var(--transition);
+}
+.diff-item:hover{border-color:var(--border-hover)}
+.diff-head{padding:14px 20px;display:flex;align-items:center;gap:8px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
+.diff-name{font-weight:600;font-size:14px;flex:1;letter-spacing:-.02em}
+.diff-cols{display:grid;grid-template-columns:1fr 1fr}
+.diff-col{padding:16px 20px}
+.diff-col+.diff-col{border-left:1px solid var(--border)}
+.col-title{font-size:10px;font-weight:700;color:var(--text-tertiary);text-transform:uppercase;letter-spacing:.06em;margin-bottom:10px}
+.tags{display:flex;flex-wrap:wrap;gap:4px;margin-bottom:10px}
+.tag{
+  background:var(--surface-2);border:1px solid var(--border);
+  border-radius:4px;padding:2px 8px;font-size:11px;font-family:var(--mono);
+  font-weight:500;letter-spacing:-.01em;
+}
+.tag.add{border-color:rgba(52,211,153,.25);color:var(--green);background:rgba(52,211,153,.06)}
+.tag.rem{border-color:rgba(251,113,133,.25);color:var(--red);background:rgba(251,113,133,.06)}
+.outbox{
+  background:rgba(0,0,0,.2);border:1px solid var(--border-subtle);border-radius:var(--radius-xs);
+  padding:12px;font:12px/1.6 var(--mono);color:var(--text-tertiary);
+  white-space:pre-wrap;word-break:break-all;max-height:200px;overflow-y:auto;
+}
+.difflines{
+  background:rgba(0,0,0,.2);border:1px solid var(--border-subtle);border-radius:var(--radius-xs);
+  padding:10px;font:11px/1.6 var(--mono);max-height:180px;overflow-y:auto;margin-top:8px;
+}
+.difflines .a{color:var(--green);background:rgba(52,211,153,.05);display:block;padding:0 4px;margin:0 -4px;border-radius:2px}
+.difflines .r{color:var(--red);background:rgba(251,113,133,.05);display:block;padding:0 4px;margin:0 -4px;border-radius:2px}
+/* Similarity progress bar */
+.sim-bar{display:inline-flex;align-items:center;gap:6px;font-size:11px;color:var(--text-tertiary)}
+.sim-track{width:48px;height:4px;background:var(--surface-3);border-radius:2px;overflow:hidden;display:inline-block;vertical-align:middle}
+.sim-fill{height:100%;border-radius:2px;transition:width .6s cubic-bezier(.4,0,.2,1)}
+.sim-fill.high{background:var(--green)}.sim-fill.mid{background:var(--yellow)}.sim-fill.low{background:var(--red)}
+
+/* ── Pipeline vis for tool sequence diff ── */
+.pipeline{display:flex;flex-direction:column;gap:8px;padding:16px 20px;border-top:1px solid var(--border)}
+.pipeline-row{display:flex;align-items:center;gap:6px;flex-wrap:wrap}
+.pipeline-label{font-size:10px;font-weight:700;color:var(--text-tertiary);text-transform:uppercase;letter-spacing:.06em;width:64px;flex-shrink:0}
+.pipeline-step{
+  display:inline-flex;align-items:center;padding:4px 10px;border-radius:4px;
+  font-size:11px;font-family:var(--mono);font-weight:500;
+  background:var(--surface-2);border:1px solid var(--border);color:var(--text-secondary);
+  position:relative;
+}
+.pipeline-step+.pipeline-step::before{
+  content:'';position:absolute;left:-8px;top:50%;width:6px;height:1px;background:var(--border-hover);
+}
+.pipeline-step.matched{border-color:rgba(52,211,153,.2);background:rgba(52,211,153,.04)}
+.pipeline-step.added{border-color:rgba(52,211,153,.3);color:var(--green);background:rgba(52,211,153,.06)}
+.pipeline-step.removed{border-color:rgba(251,113,133,.3);color:var(--red);background:rgba(251,113,133,.06);text-decoration:line-through}
+
+/* ── Timeline ── */
+.tl-swimlane{margin-bottom:20px}
+.tl-swimlane-label{font-size:12px;font-weight:600;color:var(--text-secondary);margin-bottom:8px;letter-spacing:-.01em}
+.tl-track{display:flex;gap:2px;align-items:center;height:28px}
+.tl-bar{
+  height:100%;border-radius:4px;display:flex;align-items:center;justify-content:center;
+  font-size:10px;font-weight:600;color:rgba(255,255,255,.8);letter-spacing:-.01em;
+  min-width:32px;padding:0 6px;cursor:default;
+  transition:var(--transition);position:relative;
+}
+.tl-bar:hover{filter:brightness(1.2);transform:scaleY(1.15)}
+.tl-bar.ok{background:linear-gradient(135deg,rgba(129,140,248,.6),rgba(52,211,153,.4))}
+.tl-bar.err{background:linear-gradient(135deg,rgba(251,113,133,.6),rgba(251,191,36,.4))}
+
+/* ── Tables ── */
+.ev-table{width:100%;border-collapse:collapse;font-size:13px}
+.ev-table th{
+  text-align:left;padding:8px 12px;color:var(--text-tertiary);
+  font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;
+  border-bottom:1px solid var(--border);background:var(--surface-1);
+}
+.ev-table td{padding:10px 12px;border-bottom:1px solid var(--border-subtle);transition:background .15s}
+.ev-table tr:hover td{background:var(--surface-1)}
+.ev-table .mono{font-family:var(--mono);font-size:12px}
+.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
+
+/* ── Empty states ── */
+.empty{text-align:center;padding:80px 40px;color:var(--text-tertiary)}
+.empty-icon{font-size:36px;margin-bottom:12px;display:block;opacity:.4}
+.empty code{background:var(--surface-3);padding:2px 8px;border-radius:4px;font-family:var(--mono);font-size:12px}
+
+/* ── Trajectory grid ── */
+.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-top:16px;padding-top:16px;border-top:1px solid var(--border)}
+.traj-col .col-title{padding-bottom:10px}
+
+/* ── Scrollbar ── */
+::-webkit-scrollbar{width:4px;height:4px}
+::-webkit-scrollbar-track{background:transparent}
+::-webkit-scrollbar-thumb{background:rgba(255,255,255,.1);border-radius:4px}
+::-webkit-scrollbar-thumb:hover{background:rgba(255,255,255,.18)}
+
+/* ── Param diff table ── */
+.param-table{width:100%;border-collapse:collapse;font-size:12px}
+.param-table th{
+  text-align:left;padding:6px 10px;color:var(--text-tertiary);
+  font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;
+  border-bottom:1px solid var(--border);
+}
+.param-table td{padding:6px 10px;border-bottom:1px solid var(--border-subtle)}
+
+/* ── Compare ── */
+table td,table th{transition:background .15s}
+</style>
+</head>
+<body>
+
+<header class="header">
+  <div class="logo">
+    <div class="logo-icon">◈</div>
+    <div>
+      <div class="logo-text">EvalView Check Report</div>
+      <div class="logo-sub">2026-03-17 14:47</div>
+    </div>
+  </div>
+  <div class="header-right">
+    
+      
+        <span class="badge b-red">✗ 1 Failed</span>
+      
+      <span class="badge b-blue">5 Tests</span>
+    
+  </div>
+</header>
+
+<main class="main">
+
+  <div class="tabbar">
+    <button class="tab on" onclick="show('overview',this)">Overview</button>
+    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
+    <button class="tab " onclick="show('diffs',this)">Diffs</button>
+    <button class="tab " onclick="show('timeline',this)">Timeline</button>
+    
+  </div>
+
+  <!-- ═══════════ OVERVIEW ═══════════ -->
+  <div id="p-overview" class="panel on">
+    
+    <div class="kpi-row">
+      <div class="kpi kpi-pass">
+        <div class="kpi-top">
+          <div class="kpi-label">Pass Rate</div>
+          <div class="kpi-ring">
+            <svg width="44" height="44" viewBox="0 0 44 44">
+              <circle cx="22" cy="22" r="18" fill="none" stroke="rgba(255,255,255,.06)" stroke-width="3"/>
+              <circle cx="22" cy="22" r="18" fill="none"
+                stroke="var(--green)"
+                stroke-width="3" stroke-linecap="round"
+                stroke-dasharray="90.5 113.1"
+                style="filter:drop-shadow(0 0 4px rgba(52,211,153,.4))"/>
+            </svg>
+            <div class="kpi-ring-label">4/5</div>
+          </div>
+        </div>
+        <div class="kpi-num c-green">80.0%</div>
+        <div class="kpi-sub">4 of 5 tests</div>
+      </div>
+      <div class="kpi kpi-blue">
+        <div class="kpi-top">
+          <div class="kpi-label">Avg Score</div>
+          <div class="kpi-ring">
+            <svg width="44" height="44" viewBox="0 0 44 44">
+              <circle cx="22" cy="22" r="18" fill="none" stroke="rgba(255,255,255,.06)" stroke-width="3"/>
+              <circle cx="22" cy="22" r="18" fill="none"
+                stroke="var(--yellow)"
+                stroke-width="3" stroke-linecap="round"
+                stroke-dasharray="90.1 113.1"
+                style="filter:drop-shadow(0 0 4px rgba(129,140,248,.3))"/>
+            </svg>
+            <div class="kpi-ring-label">79</div>
+          </div>
+        </div>
+        <div class="kpi-num c-yellow">79.7</div>
+        <div class="kpi-sub">out of 100</div>
+      </div>
+      <div class="kpi kpi-blue">
+        <div class="kpi-top">
+          <div class="kpi-label">Total Cost</div>
+        </div>
+        <div class="kpi-num c-blue">$0.017</div>
+        <div class="kpi-sub">
+          2,835 tokens (verified)
+          <br>openai/gpt-4o-mini, openai/claude-3.5-sonnet
+        </div>
+        
+        <div style="margin-top:8px;display:flex;gap:8px;font-size:11px">
+          <span style="color:var(--text-tertiary)">in <span style="color:var(--blue);font-weight:600;font-family:var(--mono)">2,170</span></span>
+          <span style="color:var(--text-tertiary)">out <span style="color:var(--purple);font-weight:600;font-family:var(--mono)">665</span></span>
+        </div>
+        
+      </div>
+      <div class="kpi kpi-blue">
+        <div class="kpi-top">
+          <div class="kpi-label">Avg Latency</div>
+        </div>
+        <div class="kpi-num c-blue">1360<span style="font-size:14px;font-weight:500;color:var(--text-tertiary);margin-left:2px">ms</span></div>
+        <div class="kpi-sub">per test</div>
+      </div>
+    </div>
+
+    <div class="meta-row">
+      <div class="meta-card">
+        <div class="meta-label">Agent Model</div>
+        <div class="meta-value">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
+        <div class="meta-sub">5 tests in this run</div>
+      </div>
+      
+      <div class="meta-card">
+        <div class="meta-label">Token Usage</div>
+        <div class="meta-value">2,835 tokens</div>
+        <div class="meta-sub">in 2,170 / out 665</div>
+      </div>
+      
+    </div>
+    
+
+    
+    <div class="meta-row">
+      <div class="meta-card">
+        <div class="meta-label">EvalView Judge (gpt-4o-mini)</div>
+        <div class="meta-value">
+          
+            $0.006
+          
+        </div>
+        <div class="meta-sub">
+          1,320 tokens across 5 judge calls
+        </div>
+      </div>
+      <div class="meta-card">
+        <div class="meta-label">Judge Token Breakdown</div>
+        <div class="meta-value">in 1,100 / out 220</div>
+        <div class="meta-sub">Separate from agent trace cost</div>
+      </div>
+    </div>
+    
+
+    <!-- Score distribution (horizontal bars) + compact donut -->
+    <div class="chart-row">
+      <div class="card">
+        <div class="card-title">Score per Test</div>
+        <div style="position:relative;height:220px"><canvas id="bars"></canvas></div>
+      </div>
+      <div class="card">
+        <div class="card-title">Distribution</div>
+        <div class="chart-wrap"><canvas id="donut"></canvas></div>
+      </div>
+    </div>
+
+    <!-- Execution cost breakdown -->
+    <div class="card">
+      <div class="card-title">Execution Cost per Query</div>
+      <table class="ev-table">
+        
+        <thead>
+          <tr>
+            <th>Test</th>
+            <th>Model</th>
+            <th>Trace Cost</th>
+            <th>Tokens</th>
+            <th>Latency</th>
+            <th>Score</th>
+          </tr>
+        </thead>
+        <tbody>
+          
+          <tr>
+            <td style="font-weight:600">refund-flow</td>
+            <td class="mono" style="color:var(--text-tertiary)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue)">$0.0034</td>
+            <td class="mono" style="color:var(--text-tertiary)">570 tokens</td>
+            <td style="color:var(--text-tertiary)">1200ms</td>
+            <td class="num" style="color:var(--green)">92.5</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">order-lookup</td>
+            <td class="mono" style="color:var(--text-tertiary)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue)">$0.0021</td>
+            <td class="mono" style="color:var(--text-tertiary)">415 tokens</td>
+            <td style="color:var(--text-tertiary)">800ms</td>
+            <td class="num" style="color:var(--green)">88.0</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">billing-dispute</td>
+            <td class="mono" style="color:var(--text-tertiary)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue)">$0.0058</td>
+            <td class="mono" style="color:var(--text-tertiary)">890 tokens</td>
+            <td style="color:var(--text-tertiary)">2400ms</td>
+            <td class="num" style="color:var(--red)">45.0</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">password-reset</td>
+            <td class="mono" style="color:var(--text-tertiary)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue)">$0.0012</td>
+            <td class="mono" style="color:var(--text-tertiary)">260 tokens</td>
+            <td style="color:var(--text-tertiary)">600ms</td>
+            <td class="num" style="color:var(--green)">95.0</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">vip-escalation</td>
+            <td class="mono" style="color:var(--text-tertiary)">openai/claude-3.5-sonnet</td>
+            <td class="mono num" style="color:var(--blue)">$0.0045</td>
+            <td class="mono" style="color:var(--text-tertiary)">700 tokens</td>
+            <td style="color:var(--text-tertiary)">1800ms</td>
+            <td class="num" style="color:var(--yellow)">78.0</td>
+          </tr>
+          
+          <tr style="background:var(--surface-1)">
+            <td style="font-weight:700">Total</td>
+            <td style="color:var(--text-tertiary)">—</td>
+            <td class="mono num" style="color:var(--blue)">$0.017</td>
+            <td colspan="3" style="font-size:11px;color:var(--text-tertiary)">avg $0.003400 per query</td>
+          </tr>
+        </tbody>
+      </table>
+      <div style="margin-top:12px;font-size:11px;color:var(--text-tertiary);line-height:1.5">
+        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:var(--surface-3);padding:2px 6px;border-radius:4px;font-family:var(--mono);font-size:11px">$0</code> even when EvalView used a separate judge or local model during evaluation.
+         This check also used 5 EvalView judge calls (1320 tokens).
+      </div>
+    </div>
+
+    
+  </div>
+
+  <!-- ═══════════ EXECUTION TRACE ═══════════ -->
+  <div id="p-trace" class="panel ">
+    
+      
+      <div class="item">
+        <div class="item-head" onclick="tog('tr1',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">refund-flow</span>
+          <div class="item-meta">
+            <span class="item-meta-pill" style="color:var(--green)">92.5/100</span>
+            <span class="item-meta-pill">💰 $0.0034</span>
+            <span class="item-meta-pill">⚡ 1200ms</span>
+            <span class="item-meta-pill">570 tokens</span>
+            <span class="item-meta-pill" style="color:var(--text-tertiary)">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr1" class="item-body" >
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:14px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            
+            <span class="badge b-blue">in 450 / out 120 tokens</span>
+            <span class="badge b-blue">$0.0034</span>
+            
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(129,140,248,.06);border:1px solid rgba(129,140,248,.12);border-radius:var(--radius-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-secondary)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(129,140,248,.6);margin-right:8px">Query</span>Process refund for order 4812
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:var(--surface-2);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-tertiary)">
+              <span style="opacity:.5">◎</span> Direct response — no tools invoked
+            </span>
+          </div>
+          
+          
+          
+          <div style="background:rgba(52,211,153,.04);border:1px solid rgba(52,211,153,.1);border-radius:var(--radius-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-secondary)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(52,211,153,.5);margin-right:8px">Response</span>Refund of $49.99 issued successfully.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item">
+        <div class="item-head" onclick="tog('tr2',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">order-lookup</span>
+          <div class="item-meta">
+            <span class="item-meta-pill" style="color:var(--green)">88.0/100</span>
+            <span class="item-meta-pill">💰 $0.0021</span>
+            <span class="item-meta-pill">⚡ 800ms</span>
+            <span class="item-meta-pill">415 tokens</span>
+            <span class="item-meta-pill" style="color:var(--text-tertiary)">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr2" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:14px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            
+            <span class="badge b-blue">in 320 / out 95 tokens</span>
+            <span class="badge b-blue">$0.0021</span>
+            
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(129,140,248,.06);border:1px solid rgba(129,140,248,.12);border-radius:var(--radius-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-secondary)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(129,140,248,.6);margin-right:8px">Query</span>Look up order status for #7291
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:var(--surface-2);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-tertiary)">
+              <span style="opacity:.5">◎</span> Direct response — no tools invoked
+            </span>
+          </div>
+          
+          
+          
+          <div style="background:rgba(52,211,153,.04);border:1px solid rgba(52,211,153,.1);border-radius:var(--radius-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-secondary)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(52,211,153,.5);margin-right:8px">Response</span>Order #7291 shipped, arriving March 20.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item">
+        <div class="item-head" onclick="tog('tr3',this)">
+          <span class="badge b-red">✗</span>
+          <span class="item-name">billing-dispute</span>
+          <div class="item-meta">
+            <span class="item-meta-pill" style="color:var(--red)">45.0/100</span>
+            <span class="item-meta-pill">💰 $0.0058</span>
+            <span class="item-meta-pill">⚡ 2400ms</span>
+            <span class="item-meta-pill">890 tokens</span>
+            <span class="item-meta-pill" style="color:var(--text-tertiary)">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr3" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:14px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            
+            <span class="badge b-blue">in 680 / out 210 tokens</span>
+            <span class="badge b-blue">$0.0058</span>
+            
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(129,140,248,.06);border:1px solid rgba(129,140,248,.12);border-radius:var(--radius-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-secondary)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(129,140,248,.6);margin-right:8px">Query</span>Customer disputes charge on Feb statement
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:var(--surface-2);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-tertiary)">
+              <span style="opacity:.5">◎</span> Direct response — no tools invoked
+            </span>
+          </div>
+          
+          
+          
+          <div style="background:rgba(52,211,153,.04);border:1px solid rgba(52,211,153,.1);border-radius:var(--radius-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-secondary)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(52,211,153,.5);margin-right:8px">Response</span>I could not find the disputed charge.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item">
+        <div class="item-head" onclick="tog('tr4',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">password-reset</span>
+          <div class="item-meta">
+            <span class="item-meta-pill" style="color:var(--green)">95.0/100</span>
+            <span class="item-meta-pill">💰 $0.0012</span>
+            <span class="item-meta-pill">⚡ 600ms</span>
+            <span class="item-meta-pill">260 tokens</span>
+            <span class="item-meta-pill" style="color:var(--text-tertiary)">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr4" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:14px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            
+            <span class="badge b-blue">in 200 / out 60 tokens</span>
+            <span class="badge b-blue">$0.0012</span>
+            
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(129,140,248,.06);border:1px solid rgba(129,140,248,.12);border-radius:var(--radius-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-secondary)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(129,140,248,.6);margin-right:8px">Query</span>Reset password for user@example.com
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:var(--surface-2);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-tertiary)">
+              <span style="opacity:.5">◎</span> Direct response — no tools invoked
+            </span>
+          </div>
+          
+          
+          
+          <div style="background:rgba(52,211,153,.04);border:1px solid rgba(52,211,153,.1);border-radius:var(--radius-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-secondary)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(52,211,153,.5);margin-right:8px">Response</span>Password reset email sent.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item">
+        <div class="item-head" onclick="tog('tr5',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">vip-escalation</span>
+          <div class="item-meta">
+            <span class="item-meta-pill" style="color:var(--yellow)">78.0/100</span>
+            <span class="item-meta-pill">💰 $0.0045</span>
+            <span class="item-meta-pill">⚡ 1800ms</span>
+            <span class="item-meta-pill">700 tokens</span>
+            <span class="item-meta-pill" style="color:var(--text-tertiary)">🧠 openai/claude-3.5-sonnet</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr5" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:14px">
+            <span class="badge b-blue">Model: openai/claude-3.5-sonnet</span>
+            
+            <span class="badge b-blue">in 520 / out 180 tokens</span>
+            <span class="badge b-blue">$0.0045</span>
+            
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(129,140,248,.06);border:1px solid rgba(129,140,248,.12);border-radius:var(--radius-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-secondary)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(129,140,248,.6);margin-right:8px">Query</span>VIP customer threatening to leave
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:var(--surface-2);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-tertiary)">
+              <span style="opacity:.5">◎</span> Direct response — no tools invoked
+            </span>
+          </div>
+          
+          
+          
+          <div style="background:rgba(52,211,153,.04);border:1px solid rgba(52,211,153,.1);border-radius:var(--radius-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-secondary)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(52,211,153,.5);margin-right:8px">Response</span>Escalated to senior support with priority flag.
+          </div>
+          
+        </div>
+      </div>
+      
+    
+  </div>
+
+  <!-- ═══════════ DIFFS ═══════════ -->
+  <div id="p-diffs" class="panel ">
+    
+      <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
+    
+  </div>
+
+  <!-- ═══════════ TIMELINE ═══════════ -->
+  <div id="p-timeline" class="panel ">
+    
+      <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
+    
+  </div>
+
+  <!-- ═══════════ COMPARE ═══════════ -->
+  
+
+</main>
+
+<script>
+mermaid.initialize({
+  startOnLoad:true,theme:'dark',securityLevel:'loose',
+  useMaxWidth:true,
+  themeVariables:{
+    darkMode:true,
+    background:'transparent',
+    primaryColor:'rgba(129,140,248,.15)',
+    primaryTextColor:'#e2e8f0',
+    primaryBorderColor:'rgba(129,140,248,.3)',
+    lineColor:'rgba(148,163,184,.3)',
+    secondaryColor:'rgba(52,211,153,.1)',
+    tertiaryColor:'rgba(192,132,252,.1)',
+    noteBkgColor:'rgba(129,140,248,.08)',
+    noteTextColor:'#94a3b8',
+    noteBorderColor:'rgba(129,140,248,.2)',
+    actorBkg:'rgba(129,140,248,.12)',
+    actorBorder:'rgba(129,140,248,.25)',
+    actorTextColor:'#e2e8f0',
+    signalColor:'#94a3b8',
+    signalTextColor:'#cbd5e1',
+    activationBkgColor:'rgba(129,140,248,.08)',
+    activationBorderColor:'rgba(129,140,248,.2)'
+  },
+  sequence:{
+    useMaxWidth:true,
+    width:180,
+    wrap:false,
+    actorFontFamily:'Inter,sans-serif',
+    noteFontFamily:'Inter,sans-serif',
+    messageFontFamily:'Inter,sans-serif',
+    actorFontSize:12,
+    messageFontSize:11,
+    noteFontSize:10,
+    boxTextMargin:8,
+    mirrorActors:false,
+    messageAlign:'center',
+    actorMargin:30,
+    bottomMarginAdj:4,
+    boxMargin:8,
+    noteMargin:8
+  }
+});
+
+function show(id,btn){
+  document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));
+  document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));
+  document.getElementById('p-'+id).classList.add('on');
+  btn.classList.add('on');
+}
+function tog(id,head){
+  const el=document.getElementById(id);
+  const open=el.style.display!=='none';
+  el.style.display=open?'none':'block';
+  head.querySelector('.chevron').style.transform=open?'':'rotate(180deg)';
+}
+
+
+(function(){
+  const passed=4,failed=1;
+  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
+  const tc='rgba(148,163,184,.7)',gc='rgba(255,255,255,.04)';
+
+  /* Compact donut */
+  new Chart(document.getElementById('donut'),{
+    type:'doughnut',
+    data:{labels:['Passed','Failed'],datasets:[{
+      data:[passed,failed],
+      backgroundColor:['rgba(52,211,153,.7)','rgba(251,113,133,.7)'],
+      borderColor:['rgba(52,211,153,.15)','rgba(251,113,133,.15)'],
+      borderWidth:2,hoverOffset:6
+    }]},
+    options:{responsive:true,maintainAspectRatio:false,cutout:'78%',
+      plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:11,weight:'500'},padding:16,boxWidth:8,boxHeight:8,usePointStyle:true,pointStyle:'circle'}},
+      tooltip:{backgroundColor:'rgba(10,14,26,.9)',borderColor:'rgba(255,255,255,.1)',borderWidth:1,titleFont:{family:'Inter',weight:'600'},bodyFont:{family:'Inter'},padding:10,cornerRadius:8,
+        callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}
+  });
+
+  /* Horizontal bar chart sorted by score */
+  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
+  new Chart(document.getElementById('bars'),{
+    type:'bar',
+    data:{labels:sorted.map(s=>s.name),datasets:[{
+      label:'Score',data:sorted.map(s=>s.score),
+      backgroundColor:sorted.map(s=>s.score>=80?'rgba(52,211,153,.5)':s.score>=60?'rgba(251,191,36,.5)':'rgba(251,113,133,.5)'),
+      borderColor:sorted.map(s=>s.score>=80?'rgba(52,211,153,.7)':s.score>=60?'rgba(251,191,36,.7)':'rgba(251,113,133,.7)'),
+      borderWidth:1,borderRadius:4,borderSkipped:false,
+      barPercentage:.7,categoryPercentage:.8
+    }]},
+    options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,
+      scales:{
+        x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:10},callback:v=>v},border:{display:false}},
+        y:{grid:{display:false},ticks:{color:'rgba(148,163,184,.9)',font:{family:'Inter',size:11,weight:'500'}},border:{display:false}}
+      },
+      plugins:{legend:{display:false},tooltip:{backgroundColor:'rgba(10,14,26,.9)',borderColor:'rgba(255,255,255,.1)',borderWidth:1,titleFont:{family:'Inter',weight:'600'},bodyFont:{family:'Inter'},padding:10,cornerRadius:8,
+        callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}
+  });
+})();
+
+
+
+
+
+</script>
+
+<!-- Share bar -->
+<div style="
+  position:fixed;bottom:0;left:0;right:0;z-index:100;
+  background:rgba(10,14,26,.92);backdrop-filter:blur(16px);
+  -webkit-backdrop-filter:blur(16px);
+  border-top:1px solid var(--border);
+  padding:10px 24px;
+  display:flex;align-items:center;justify-content:space-between;
+  font-family:var(--font);font-size:12px;color:var(--text-tertiary);
+">
+  <span>
+    Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue);text-decoration:none;font-weight:600">EvalView</a>
+    <span style="opacity:.3;margin:0 6px">|</span>
+    Agent testing &amp; regression detection
+  </span>
+  <span style="display:flex;align-items:center;gap:6px">
+    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view"
+       target="_blank" rel="noopener"
+       style="display:inline-flex;align-items:center;gap:4px;padding:5px 12px;border-radius:6px;background:rgba(29,155,240,.1);color:#1d9bf0;text-decoration:none;font-weight:600;font-size:11px;transition:all .15s;border:1px solid rgba(29,155,240,.15)"
+       onmouseover="this.style.background='rgba(29,155,240,.2)';this.style.borderColor='rgba(29,155,240,.3)'" onmouseout="this.style.background='rgba(29,155,240,.1)';this.style.borderColor='rgba(29,155,240,.15)'">
+      <svg width="13" height="13" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>
+      Share
+    </a>
+    <a href="https://github.com/hidai25/eval-view"
+       target="_blank" rel="noopener"
+       style="display:inline-flex;align-items:center;gap:4px;padding:5px 12px;border-radius:6px;background:var(--surface-2);color:var(--text-secondary);text-decoration:none;font-weight:600;font-size:11px;transition:all .15s;border:1px solid var(--border)"
+       onmouseover="this.style.background='var(--surface-3)';this.style.borderColor='var(--border-hover)'" onmouseout="this.style.background='var(--surface-2)';this.style.borderColor='var(--border)'">
+      <svg width="13" height="13" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>
+      Star
+    </a>
+  </span>
+</div>
+<div style="height:44px"></div><!-- spacer for fixed bar -->
+
+</body>
+</html>
\ No newline at end of file
diff --git a/.evalview/latest-v3.html b/.evalview/latest-v3.html
new file mode 100644
index 0000000..4de07bf
--- /dev/null
+++ b/.evalview/latest-v3.html
@@ -0,0 +1,681 @@
+<!doctype html>
+<html lang="en">
+<head>
+<meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1.0">
+<title>EvalView Check Report</title>
+<link rel="preconnect" href="https://fonts.googleapis.com">
+<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
+<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
+<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
+<style>
+*{box-sizing:border-box;margin:0;padding:0}
+:root{
+  --green:#10b981;--green-bright:#34d399;--green-glow:rgba(16,185,129,.5);
+  --red:#f43f5e;--red-bright:#fb7185;--red-glow:rgba(244,63,94,.5);
+  --yellow:#f59e0b;--yellow-bright:#fbbf24;
+  --blue:#3b82f6;--blue-bright:#60a5fa;--blue-glow:rgba(59,130,246,.5);
+  --purple:#0891b2;--purple-bright:#22d3ee;--cyan:#06b6d4;
+  --bg:#030712;--bg-card:#0d1117;--bg-elevated:#161b22;--bg-hover:#1c2333;
+  --border:#1e293b;--border-light:#334155;
+  --text:#f8fafc;--text-2:#cbd5e1;--text-3:#64748b;--text-4:#475569;
+  --r:20px;--r-sm:12px;--r-xs:8px;
+  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
+  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
+}
+html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
+body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;background:var(--bg)}
+/* Animated gradient mesh */
+body::before{
+  content:'';position:fixed;inset:0;pointer-events:none;z-index:0;
+  background:
+    radial-gradient(ellipse 120% 80% at 20% -20%,rgba(59,130,246,.22),transparent 55%),
+    radial-gradient(ellipse 100% 60% at 80% 110%,rgba(16,185,129,.14),transparent 55%),
+    radial-gradient(ellipse 60% 50% at 60% 30%,rgba(8,145,178,.1),transparent 50%);
+  animation:meshShift 20s ease-in-out infinite alternate;
+}
+@keyframes meshShift{0%{opacity:1;filter:hue-rotate(0deg)}100%{opacity:.85;filter:hue-rotate(15deg)}}
+body::after{
+  content:'';position:fixed;width:600px;height:600px;border-radius:50%;
+  top:-200px;right:-150px;pointer-events:none;z-index:0;
+  background:radial-gradient(circle,rgba(59,130,246,.18),transparent 70%);
+  filter:blur(60px);animation:orbFloat 15s ease-in-out infinite;
+}
+@keyframes orbFloat{0%,100%{transform:translate(0,0) scale(1)}50%{transform:translate(-40px,30px) scale(1.1)}}
+
+/* Header */
+.header{
+  position:sticky;top:0;z-index:200;
+  background:rgba(3,7,18,.75);border-bottom:1px solid var(--border);
+  backdrop-filter:blur(24px) saturate(180%);-webkit-backdrop-filter:blur(24px) saturate(180%);
+  padding:0 40px;height:60px;display:flex;align-items:center;justify-content:space-between;
+}
+.logo{display:flex;align-items:center;gap:12px}
+.logo-icon{
+  width:36px;height:36px;border-radius:10px;flex-shrink:0;
+  background:linear-gradient(135deg,#3b82f6,#0891b2,#06b6d4);
+  display:flex;align-items:center;justify-content:center;font-size:16px;
+  box-shadow:0 0 0 1px rgba(59,130,246,.4),0 4px 24px rgba(59,130,246,.35),0 0 60px rgba(59,130,246,.15);
+  animation:logoPulse 3s ease-in-out infinite;
+}
+@keyframes logoPulse{0%,100%{box-shadow:0 0 0 1px rgba(59,130,246,.4),0 4px 24px rgba(59,130,246,.35)}50%{box-shadow:0 0 0 1px rgba(59,130,246,.6),0 4px 32px rgba(59,130,246,.5),0 0 80px rgba(59,130,246,.2)}}
+.logo-text{font-size:16px;font-weight:800;letter-spacing:-.03em;background:linear-gradient(135deg,#f8fafc,#cbd5e1);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text}
+.logo-sub{font-size:11px;color:var(--text-3);font-weight:500}
+.header-right{display:flex;align-items:center;gap:8px}
+
+/* Badges */
+.badge{display:inline-flex;align-items:center;gap:4px;padding:5px 14px;border-radius:20px;font-size:11px;font-weight:600;letter-spacing:-.01em;white-space:nowrap;transition:all .2s}
+.b-green{background:rgba(16,185,129,.12);color:var(--green-bright);border:1px solid rgba(16,185,129,.25);box-shadow:0 0 12px rgba(16,185,129,.08)}
+.b-red{background:rgba(244,63,94,.12);color:var(--red-bright);border:1px solid rgba(244,63,94,.25);box-shadow:0 0 12px rgba(244,63,94,.08)}
+.b-yellow{background:rgba(245,158,11,.12);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.25)}
+.b-blue{background:rgba(59,130,246,.12);color:var(--blue-bright);border:1px solid rgba(59,130,246,.25);box-shadow:0 0 12px rgba(59,130,246,.08)}
+.b-purple{background:rgba(8,145,178,.12);color:var(--purple-bright);border:1px solid rgba(8,145,178,.25)}
+.badge:hover{transform:translateY(-1px);filter:brightness(1.15)}
+
+/* Layout */
+.main{max-width:1320px;margin:0 auto;padding:32px 40px 80px;position:relative;z-index:1}
+
+/* Tab bar */
+.tabbar{display:flex;gap:2px;background:rgba(13,17,23,.8);border:1px solid var(--border);border-radius:14px;padding:4px;margin-bottom:32px;width:fit-content;backdrop-filter:blur(12px)}
+.tab{background:none;border:none;color:var(--text-3);cursor:pointer;font:600 13px/1 var(--font);padding:10px 22px;border-radius:10px;transition:all .2s;letter-spacing:-.01em}
+.tab:hover{color:var(--text-2);background:rgba(255,255,255,.04)}
+.tab.on{color:#fff;background:linear-gradient(135deg,rgba(59,130,246,.25),rgba(8,145,178,.15));border:1px solid rgba(59,130,246,.3);box-shadow:0 2px 16px rgba(59,130,246,.2),inset 0 1px 0 rgba(255,255,255,.08)}
+.panel{display:none}.panel.on{display:block}
+
+/* Glass card base */
+.glass{
+  background:linear-gradient(145deg,rgba(13,17,23,.9),rgba(22,27,34,.7));
+  border:1px solid var(--border);border-radius:var(--r);
+  backdrop-filter:blur(20px);position:relative;overflow:hidden;
+  transition:all .25s cubic-bezier(.4,0,.2,1);
+}
+.glass::before{content:'';position:absolute;inset:0;border-radius:var(--r);pointer-events:none;background:linear-gradient(135deg,rgba(255,255,255,.05) 0%,transparent 40%,transparent 60%,rgba(255,255,255,.02) 100%)}
+.glass:hover{border-color:var(--border-light);transform:translateY(-2px);box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 0 1px rgba(59,130,246,.1)}
+
+/* KPI Cards */
+.kpi-row{display:grid;grid-template-columns:repeat(4,1fr);gap:16px;margin-bottom:24px}
+@media(max-width:1100px){.kpi-row{grid-template-columns:repeat(2,1fr)}}
+.kpi{padding:24px;cursor:default}
+.kpi.glow-green:hover{box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 60px rgba(16,185,129,.12),0 0 0 1px rgba(16,185,129,.2)}
+.kpi.glow-red:hover{box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 60px rgba(244,63,94,.12),0 0 0 1px rgba(244,63,94,.2)}
+.kpi.glow-blue:hover{box-shadow:0 8px 40px rgba(0,0,0,.4),0 0 60px rgba(59,130,246,.12),0 0 0 1px rgba(59,130,246,.2)}
+.kpi-top{display:flex;align-items:flex-start;justify-content:space-between;margin-bottom:16px}
+.kpi-label{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.08em}
+.kpi-ring{position:relative;width:52px;height:52px;flex-shrink:0}
+.kpi-ring svg{transform:rotate(-90deg);filter:drop-shadow(0 0 8px var(--ring-glow,rgba(59,130,246,.3)))}
+.kpi-ring-label{position:absolute;inset:0;display:flex;align-items:center;justify-content:center;font-size:11px;font-weight:800;color:var(--text-2)}
+.kpi-num{font-size:42px;font-weight:900;letter-spacing:-.05em;line-height:1}
+.kpi-num.c-green{background:linear-gradient(135deg,#10b981,#34d399);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text;filter:drop-shadow(0 0 24px rgba(16,185,129,.35))}
+.kpi-num.c-red{background:linear-gradient(135deg,#f43f5e,#fb7185);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text;filter:drop-shadow(0 0 24px rgba(244,63,94,.35))}
+.kpi-num.c-yellow{background:linear-gradient(135deg,#f59e0b,#fbbf24);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text}
+.kpi-num.c-blue{background:linear-gradient(135deg,#3b82f6,#60a5fa);-webkit-background-clip:text;-webkit-text-fill-color:transparent;background-clip:text;filter:drop-shadow(0 0 24px rgba(59,130,246,.35))}
+.kpi-sub{font-size:12px;color:var(--text-4);margin-top:6px;font-weight:500}
+.token-bar{display:flex;align-items:center;gap:10px;margin-top:12px;font-size:11px;font-weight:600}
+.token-bar span{font-family:var(--mono);letter-spacing:-.02em}
+
+/* Meta cards */
+.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:16px;margin-bottom:20px}
+@media(max-width:900px){.meta-row{grid-template-columns:1fr}}
+.meta-card{padding:18px 22px}
+.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.1em;margin-bottom:8px}
+.meta-value{font-size:16px;font-weight:700;color:var(--text);letter-spacing:-.02em}
+.meta-sub{font-size:12px;color:var(--text-4);margin-top:4px;font-weight:500}
+
+/* Card */
+.card{padding:22px;margin-bottom:20px}
+.card-title{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.08em;margin-bottom:18px;display:flex;align-items:center;gap:8px}
+.card-title::before{content:'';width:3px;height:14px;border-radius:2px;background:linear-gradient(to bottom,#3b82f6,#0891b2);box-shadow:0 0 8px rgba(59,130,246,.4)}
+.chart-wrap{position:relative}
+.chart-row{display:grid;grid-template-columns:1fr 260px;gap:16px;margin-bottom:20px}
+@media(max-width:900px){.chart-row{grid-template-columns:1fr}}
+
+/* Trace items */
+.item{margin-bottom:12px}
+.item-head{padding:16px 24px;display:flex;align-items:center;gap:12px;cursor:pointer;transition:background .15s}
+.item-head:hover{background:rgba(255,255,255,.02)}
+.item-name{font-weight:700;font-size:15px;flex:1;letter-spacing:-.02em}
+.item-meta{display:flex;align-items:center;gap:8px;flex-shrink:0;flex-wrap:wrap}
+.meta-chip{display:inline-flex;align-items:center;gap:4px;padding:3px 10px;border-radius:6px;background:rgba(255,255,255,.04);border:1px solid var(--border);font-size:11px;font-weight:600;color:var(--text-3);white-space:nowrap;transition:all .15s}
+.meta-chip:hover{background:rgba(255,255,255,.06);border-color:var(--border-light)}
+.chevron{color:var(--text-4);font-size:10px;transition:transform .25s;flex-shrink:0}
+details[open] .turn-chevron{transform:rotate(90deg)}
+.item-body{padding:24px;border-top:1px solid var(--border);background:linear-gradient(180deg,rgba(0,0,0,.2),rgba(0,0,0,.1))}
+.mermaid-box{background:rgba(0,0,0,.3);border:1px solid rgba(30,41,59,.8);border-radius:var(--r-sm);padding:32px 24px;overflow-x:auto;min-height:220px}
+.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
+.mermaid-box .mermaid{min-width:560px}
+
+/* Chat turns */
+.chat-container{margin-top:20px;padding:20px;background:rgba(0,0,0,.15);border:1px solid var(--border);border-radius:var(--r-sm)}
+.chat-header{font-size:12px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:16px;padding-bottom:12px;border-bottom:1px solid var(--border)}
+.chat-messages{display:flex;flex-direction:column;gap:4px}
+.chat-bubble{max-width:80%;padding:12px 16px;font-size:13px;line-height:1.6;letter-spacing:-.01em;border-radius:16px;animation:chatIn .3s cubic-bezier(.4,0,.2,1)}
+@keyframes chatIn{from{opacity:0;transform:translateY(6px)}to{opacity:1;transform:none}}
+.chat-bubble.user{align-self:flex-end;background:linear-gradient(135deg,rgba(59,130,246,.2),rgba(8,145,178,.1));border:1px solid rgba(59,130,246,.2);color:var(--text);border-bottom-right-radius:4px}
+.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.03);border:1px solid var(--border);color:var(--text-2);border-bottom-left-radius:4px}
+.chat-meta{display:flex;align-items:center;gap:8px;padding:6px 4px;font-size:10px;color:var(--text-4);font-weight:500}
+.chat-meta.right{justify-content:flex-end}
+.chat-tool-tag{display:inline-flex;align-items:center;gap:3px;padding:2px 8px;border-radius:4px;background:rgba(59,130,246,.1);border:1px solid rgba(59,130,246,.15);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
+.chat-eval{padding:8px 12px;border-radius:10px;font-size:11px;font-weight:600;max-width:80%;animation:chatIn .3s}
+.chat-eval.pass{align-self:flex-start;background:linear-gradient(135deg,rgba(16,185,129,.08),rgba(16,185,129,.04));border:1px solid rgba(16,185,129,.2);color:var(--green-bright)}
+.chat-eval.fail{align-self:flex-start;background:linear-gradient(135deg,rgba(244,63,94,.08),rgba(244,63,94,.04));border:1px solid rgba(244,63,94,.2);color:var(--red-bright)}
+
+/* Diffs */
+.diff-item{margin-bottom:12px}
+.diff-head{padding:16px 24px;display:flex;align-items:center;gap:10px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
+.diff-name{font-weight:700;font-size:15px;flex:1;letter-spacing:-.02em}
+.diff-cols{display:grid;grid-template-columns:1fr 1fr}
+.diff-col{padding:18px 22px}
+.diff-col+.diff-col{border-left:1px solid var(--border)}
+.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:10px}
+.tags{display:flex;flex-wrap:wrap;gap:4px;margin-bottom:10px}
+.tag{background:rgba(255,255,255,.04);border:1px solid var(--border);border-radius:6px;padding:3px 10px;font-size:11px;font-family:var(--mono);font-weight:500;transition:all .15s}
+.tag.add{border-color:rgba(16,185,129,.3);color:var(--green-bright);background:rgba(16,185,129,.08)}
+.tag.rem{border-color:rgba(244,63,94,.3);color:var(--red-bright);background:rgba(244,63,94,.08);text-decoration:line-through}
+.outbox{background:rgba(0,0,0,.25);border:1px solid rgba(30,41,59,.6);border-radius:var(--r-xs);padding:14px;font:12px/1.7 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:200px;overflow-y:auto}
+.difflines{background:rgba(0,0,0,.25);border:1px solid rgba(30,41,59,.6);border-radius:var(--r-xs);padding:12px;font:11px/1.7 var(--mono);max-height:200px;overflow-y:auto;margin-top:10px}
+.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.06);display:block;padding:1px 6px;margin:0 -6px;border-radius:3px}
+.difflines .r{color:var(--red-bright);background:rgba(244,63,94,.06);display:block;padding:1px 6px;margin:0 -6px;border-radius:3px}
+.sim{display:inline-flex;align-items:center;gap:6px;font-size:12px;color:var(--text-3)}
+.sim-track{width:52px;height:5px;background:rgba(255,255,255,.06);border-radius:3px;overflow:hidden;display:inline-block;vertical-align:middle}
+.sim-fill{height:100%;border-radius:3px;transition:width .8s cubic-bezier(.4,0,.2,1)}
+.sim-fill.hi{background:linear-gradient(90deg,var(--green),var(--green-bright))}.sim-fill.mid{background:linear-gradient(90deg,var(--yellow),var(--yellow-bright))}.sim-fill.lo{background:linear-gradient(90deg,var(--red),var(--red-bright))}
+
+/* Pipeline */
+.pipeline{display:flex;flex-direction:column;gap:8px;padding:18px 24px;border-top:1px solid var(--border)}
+.pipeline-row{display:flex;align-items:center;gap:4px;flex-wrap:wrap}
+.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;width:70px;flex-shrink:0}
+.pipe-step{display:inline-flex;align-items:center;padding:5px 12px;border-radius:6px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.04);border:1px solid var(--border);color:var(--text-2);position:relative;transition:all .15s}
+.pipe-step+.pipe-step{margin-left:6px}
+.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-14px;color:var(--text-4);font-size:10px;font-family:var(--font)}
+.pipe-step.match{border-color:rgba(59,130,246,.2);background:rgba(59,130,246,.06)}
+.pipe-step.added{border-color:rgba(16,185,129,.3);color:var(--green-bright);background:rgba(16,185,129,.08);box-shadow:0 0 8px rgba(16,185,129,.1)}
+.pipe-step.removed{border-color:rgba(244,63,94,.3);color:var(--red-bright);background:rgba(244,63,94,.08);text-decoration:line-through}
+.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-top:16px;padding-top:16px;border-top:1px solid var(--border)}
+.traj-col .col-title{padding-bottom:10px}
+
+/* Tables */
+.ev-table{width:100%;border-collapse:separate;border-spacing:0;font-size:13px}
+.ev-table th{text-align:left;padding:10px 14px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.08em;border-bottom:1px solid var(--border);background:rgba(0,0,0,.2)}
+.ev-table th:first-child{border-radius:var(--r-xs) 0 0 0}.ev-table th:last-child{border-radius:0 var(--r-xs) 0 0}
+.ev-table td{padding:12px 14px;border-bottom:1px solid rgba(30,41,59,.5);transition:background .15s}
+.ev-table tr:hover td{background:rgba(255,255,255,.02)}
+.ev-table .mono{font-family:var(--mono);font-size:12px;letter-spacing:-.02em}
+.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
+.param-table{width:100%;border-collapse:collapse;font-size:12px}
+.param-table th{text-align:left;padding:8px 12px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
+.param-table td{padding:8px 12px;border-bottom:1px solid rgba(30,41,59,.5)}
+table td,table th{transition:background .15s}
+
+/* Empty */
+.empty{text-align:center;padding:80px 40px;color:var(--text-4)}
+.empty-icon{font-size:40px;margin-bottom:14px;display:block;opacity:.3}
+.empty code{background:rgba(255,255,255,.06);padding:3px 10px;border-radius:6px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
+
+/* Scrollbar */
+::-webkit-scrollbar{width:5px;height:5px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.08);border-radius:4px}::-webkit-scrollbar-thumb:hover{background:rgba(255,255,255,.15)}
+
+/* Entrance animations */
+@keyframes slideUp{from{opacity:0;transform:translateY(16px)}to{opacity:1;transform:none}}
+.kpi,.meta-card,.card,.item,.diff-item{animation:slideUp .4s cubic-bezier(.4,0,.2,1) both}
+.kpi:nth-child(2),.meta-card:nth-child(2){animation-delay:.05s}
+.kpi:nth-child(3){animation-delay:.1s}
+.kpi:nth-child(4){animation-delay:.15s}
+.item:nth-child(2),.diff-item:nth-child(2){animation-delay:.05s}
+.item:nth-child(3),.diff-item:nth-child(3){animation-delay:.1s}
+</style>
+</head>
+<body>
+
+<header class="header">
+  <div class="logo">
+    <div class="logo-icon">◈</div>
+    <div>
+      <div class="logo-text">EvalView Check Report</div>
+      <div class="logo-sub">2026-03-17 16:05</div>
+    </div>
+  </div>
+  <div class="header-right">
+    
+      
+        <span class="badge b-red">✗ 1 Failed</span>
+      
+      <span class="badge b-blue">5 Tests</span>
+    
+  </div>
+</header>
+
+<main class="main">
+
+  <div class="tabbar">
+    <button class="tab on" onclick="show('overview',this)">Overview</button>
+    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
+    <button class="tab " onclick="show('diffs',this)">Diffs</button>
+    <button class="tab " onclick="show('timeline',this)">Timeline</button>
+    
+  </div>
+
+  <!-- OVERVIEW -->
+  <div id="p-overview" class="panel on">
+    
+    <div class="kpi-row">
+      <div class="kpi glass glow-green">
+        <div class="kpi-top">
+          <div class="kpi-label">Pass Rate</div>
+          <div class="kpi-ring" style="--ring-glow:var(--green-glow)">
+            <svg width="52" height="52" viewBox="0 0 52 52">
+              <circle cx="26" cy="26" r="22" fill="none" stroke="rgba(255,255,255,.05)" stroke-width="3.5"/>
+              <circle cx="26" cy="26" r="22" fill="none" stroke="var(--green-bright)" stroke-width="3.5" stroke-linecap="round" stroke-dasharray="110.6 138.2"/>
+            </svg>
+            <div class="kpi-ring-label">4/5</div>
+          </div>
+        </div>
+        <div class="kpi-num c-green">80.0%</div>
+        <div class="kpi-sub">4 of 5 tests</div>
+      </div>
+      <div class="kpi glass glow-blue">
+        <div class="kpi-top">
+          <div class="kpi-label">Avg Score</div>
+          <div class="kpi-ring" style="--ring-glow:var(--blue-glow)">
+            <svg width="52" height="52" viewBox="0 0 52 52">
+              <circle cx="26" cy="26" r="22" fill="none" stroke="rgba(255,255,255,.05)" stroke-width="3.5"/>
+              <circle cx="26" cy="26" r="22" fill="none" stroke="var(--yellow-bright)" stroke-width="3.5" stroke-linecap="round" stroke-dasharray="110.1 138.2"/>
+            </svg>
+            <div class="kpi-ring-label">79</div>
+          </div>
+        </div>
+        <div class="kpi-num c-yellow">79.7</div>
+        <div class="kpi-sub">out of 100</div>
+      </div>
+      <div class="kpi glass glow-blue">
+        <div class="kpi-top"><div class="kpi-label">Total Cost</div></div>
+        <div class="kpi-num c-blue">$0.017</div>
+        <div class="kpi-sub">2,835 tokens (verified)</div>
+        
+        <div class="token-bar"><span style="color:var(--blue-bright)">in 2,170</span><span style="color:var(--cyan)">out 665</span></div>
+        
+        
+        <div style="margin-top:8px;font-size:11px;color:var(--text-4);font-weight:500">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
+        
+      </div>
+      <div class="kpi glass glow-blue">
+        <div class="kpi-top"><div class="kpi-label">Avg Latency</div></div>
+        <div class="kpi-num c-blue">1360<span style="font-size:16px;font-weight:600;opacity:.5;margin-left:2px">ms</span></div>
+        <div class="kpi-sub">per test</div>
+      </div>
+    </div>
+
+    <div class="meta-row">
+      <div class="meta-card glass">
+        <div class="meta-label">Agent Model</div>
+        <div class="meta-value">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
+        <div class="meta-sub">5 tests in this run</div>
+      </div>
+      
+      <div class="meta-card glass">
+        <div class="meta-label">Token Usage</div>
+        <div class="meta-value">2,835 tokens</div>
+        <div class="meta-sub">in 2,170 / out 665</div>
+      </div>
+      
+    </div>
+    
+
+    
+    <div class="meta-row">
+      <div class="meta-card glass">
+        <div class="meta-label">EvalView Judge (gpt-4o-mini)</div>
+        <div class="meta-value">$0.006</div>
+        <div class="meta-sub">1,320 tokens across 5 judge calls</div>
+      </div>
+      <div class="meta-card glass">
+        <div class="meta-label">Judge Token Breakdown</div>
+        <div class="meta-value">in 1,100 / out 220</div>
+        <div class="meta-sub">Separate from agent trace cost</div>
+      </div>
+    </div>
+    
+
+    <div class="chart-row">
+      <div class="card glass">
+        <div class="card-title">Score per Test</div>
+        <div class="chart-wrap" style="height:260px"><canvas id="bars"></canvas></div>
+      </div>
+      <div class="card glass">
+        <div class="card-title">Distribution</div>
+        <div class="chart-wrap" style="height:220px"><canvas id="donut"></canvas></div>
+      </div>
+    </div>
+
+    <div class="card glass">
+      <div class="card-title">Execution Cost per Query</div>
+      <table class="ev-table">
+        
+        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Tokens</th><th>Latency</th><th>Score</th></tr></thead>
+        <tbody>
+          
+          <tr>
+            <td style="font-weight:600">refund-flow</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0034</td>
+            <td class="mono" style="color:var(--text-3)">570 tokens</td>
+            <td style="color:var(--text-3)">1200ms</td>
+            <td class="num" style="color:var(--green-bright)">92.5</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">order-lookup</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0021</td>
+            <td class="mono" style="color:var(--text-3)">415 tokens</td>
+            <td style="color:var(--text-3)">800ms</td>
+            <td class="num" style="color:var(--green-bright)">88.0</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">billing-dispute</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0058</td>
+            <td class="mono" style="color:var(--text-3)">890 tokens</td>
+            <td style="color:var(--text-3)">2400ms</td>
+            <td class="num" style="color:var(--red-bright)">45.0</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">password-reset</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0012</td>
+            <td class="mono" style="color:var(--text-3)">260 tokens</td>
+            <td style="color:var(--text-3)">600ms</td>
+            <td class="num" style="color:var(--green-bright)">95.0</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">vip-escalation</td>
+            <td class="mono" style="color:var(--text-4)">openai/claude-3.5-sonnet</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0045</td>
+            <td class="mono" style="color:var(--text-3)">700 tokens</td>
+            <td style="color:var(--text-3)">1800ms</td>
+            <td class="num" style="color:var(--yellow-bright)">78.0</td>
+          </tr>
+          
+          <tr style="background:rgba(0,0,0,.15)">
+            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.017</td>
+            <td colspan="3" style="font-size:11px;color:var(--text-4)">avg $0.003400 per query</td>
+          </tr>
+        </tbody>
+      </table>
+      <div style="margin-top:14px;font-size:11px;color:var(--text-4);line-height:1.6">
+        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.06);padding:2px 8px;border-radius:4px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
+         This check also used 5 EvalView judge calls (1320 tokens).
+      </div>
+    </div>
+    
+  </div>
+
+  <!-- TRACE -->
+  <div id="p-trace" class="panel ">
+    
+      
+      <div class="item glass">
+        <div class="item-head" onclick="tog('tr1',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">refund-flow</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--green-bright);border-color:rgba(16,185,129,.2)">92.5/100</span>
+            <span class="meta-chip">💰 $0.0034</span>
+            <span class="meta-chip">⚡ 1200ms</span>
+            <span class="meta-chip">570 tokens</span>
+            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr1" class="item-body" >
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 450 / out 120 tokens</span><span class="badge b-blue">$0.0034</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:linear-gradient(135deg,rgba(59,130,246,.08),rgba(8,145,178,.04));border:1px solid rgba(59,130,246,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(59,130,246,.5);margin-right:8px">Query</span>Process refund for order 4812
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Refund issued.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item glass">
+        <div class="item-head" onclick="tog('tr2',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">order-lookup</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--green-bright);border-color:rgba(16,185,129,.2)">88.0/100</span>
+            <span class="meta-chip">💰 $0.0021</span>
+            <span class="meta-chip">⚡ 800ms</span>
+            <span class="meta-chip">415 tokens</span>
+            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr2" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 320 / out 95 tokens</span><span class="badge b-blue">$0.0021</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:linear-gradient(135deg,rgba(59,130,246,.08),rgba(8,145,178,.04));border:1px solid rgba(59,130,246,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(59,130,246,.5);margin-right:8px">Query</span>Order status #7291
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Shipped.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item glass">
+        <div class="item-head" onclick="tog('tr3',this)">
+          <span class="badge b-red">✗</span>
+          <span class="item-name">billing-dispute</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--red-bright);border-color:rgba(244,63,94,.2)">45.0/100</span>
+            <span class="meta-chip">💰 $0.0058</span>
+            <span class="meta-chip">⚡ 2400ms</span>
+            <span class="meta-chip">890 tokens</span>
+            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr3" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 680 / out 210 tokens</span><span class="badge b-blue">$0.0058</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:linear-gradient(135deg,rgba(59,130,246,.08),rgba(8,145,178,.04));border:1px solid rgba(59,130,246,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(59,130,246,.5);margin-right:8px">Query</span>Dispute charge
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Not found.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item glass">
+        <div class="item-head" onclick="tog('tr4',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">password-reset</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--green-bright);border-color:rgba(16,185,129,.2)">95.0/100</span>
+            <span class="meta-chip">💰 $0.0012</span>
+            <span class="meta-chip">⚡ 600ms</span>
+            <span class="meta-chip">260 tokens</span>
+            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr4" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 200 / out 60 tokens</span><span class="badge b-blue">$0.0012</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:linear-gradient(135deg,rgba(59,130,246,.08),rgba(8,145,178,.04));border:1px solid rgba(59,130,246,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(59,130,246,.5);margin-right:8px">Query</span>Reset password
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Email sent.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item glass">
+        <div class="item-head" onclick="tog('tr5',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">vip-escalation</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--yellow-bright);border-color:rgba(245,158,11,.2)">78.0/100</span>
+            <span class="meta-chip">💰 $0.0045</span>
+            <span class="meta-chip">⚡ 1800ms</span>
+            <span class="meta-chip">700 tokens</span>
+            <span class="meta-chip">🧠 openai/claude-3.5-sonnet</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr5" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:6px;margin-bottom:16px">
+            <span class="badge b-blue">Model: openai/claude-3.5-sonnet</span>
+            <span class="badge b-blue">in 520 / out 180 tokens</span><span class="badge b-blue">$0.0045</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:linear-gradient(135deg,rgba(59,130,246,.08),rgba(8,145,178,.04));border:1px solid rgba(59,130,246,.15);border-radius:var(--r-xs);padding:12px 16px;margin-bottom:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(59,130,246,.5);margin-right:8px">Query</span>VIP leaving
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:24px 0 10px">
+            <span style="display:inline-flex;align-items:center;gap:8px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:10px 20px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:linear-gradient(135deg,rgba(16,185,129,.06),rgba(16,185,129,.02));border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:12px 16px;margin-top:16px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:rgba(16,185,129,.4);margin-right:8px">Response</span>Escalated.
+          </div>
+          
+        </div>
+      </div>
+      
+    
+  </div>
+
+  <!-- DIFFS -->
+  <div id="p-diffs" class="panel ">
+    
+      <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
+    
+  </div>
+
+  <!-- TIMELINE -->
+  <div id="p-timeline" class="panel ">
+    
+      <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
+    
+  </div>
+
+  <!-- COMPARE -->
+  
+</main>
+
+<script>
+mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
+  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(59,130,246,.15)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(59,130,246,.3)',lineColor:'rgba(100,116,139,.4)',secondaryColor:'rgba(16,185,129,.1)',tertiaryColor:'rgba(8,145,178,.1)',noteBkgColor:'rgba(59,130,246,.08)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(59,130,246,.2)',actorBkg:'rgba(59,130,246,.12)',actorBorder:'rgba(59,130,246,.3)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
+  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:12,messageFontSize:11,noteFontSize:10,boxTextMargin:8,mirrorActors:false,messageAlign:'center',actorMargin:30,bottomMarginAdj:4}
+});
+function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
+function tog(id,head){const el=document.getElementById(id);const open=el.style.display!=='none';el.style.display=open?'none':'block';head.querySelector('.chevron').style.transform=open?'':'rotate(180deg)'}
+
+
+(function(){
+  const passed=4,failed=1;
+  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
+  const tc='rgba(100,116,139,.8)',gc='rgba(255,255,255,.03)';
+  const ttOpts={backgroundColor:'rgba(3,7,18,.95)',borderColor:'rgba(30,41,59,.8)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:12},bodyFont:{family:'Inter',size:12},padding:12,cornerRadius:10,boxPadding:4};
+  new Chart(document.getElementById('donut'),{type:'doughnut',data:{labels:['Passed','Failed'],datasets:[{data:[passed,failed],backgroundColor:['rgba(16,185,129,.7)','rgba(244,63,94,.7)'],borderColor:['rgba(16,185,129,.15)','rgba(244,63,94,.15)'],borderWidth:2,hoverOffset:8,hoverBackgroundColor:['rgba(16,185,129,.9)','rgba(244,63,94,.9)']}]},options:{responsive:true,maintainAspectRatio:false,cutout:'76%',plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:11,weight:'600'},padding:20,boxWidth:8,boxHeight:8,usePointStyle:true,pointStyle:'circle'}},tooltip:{...ttOpts,callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}});
+  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
+  const barG=sorted.map(s=>{if(s.score>=80)return{bg:'rgba(16,185,129,.45)',b:'rgba(16,185,129,.7)',h:'rgba(16,185,129,.65)'};if(s.score>=60)return{bg:'rgba(245,158,11,.45)',b:'rgba(245,158,11,.7)',h:'rgba(245,158,11,.65)'};return{bg:'rgba(244,63,94,.45)',b:'rgba(244,63,94,.7)',h:'rgba(244,63,94,.65)'}});
+  new Chart(document.getElementById('bars'),{type:'bar',data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),backgroundColor:barG.map(g=>g.bg),borderColor:barG.map(g=>g.b),hoverBackgroundColor:barG.map(g=>g.h),borderWidth:1,borderRadius:6,borderSkipped:false,barPercentage:.65,categoryPercentage:.8}]},options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:10},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.8)',font:{family:'Inter',size:12,weight:'600'},padding:8},border:{display:false}}},plugins:{legend:{display:false},tooltip:{...ttOpts,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
+})();
+
+
+
+
+
+</script>
+
+<!-- Share bar -->
+<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(3,7,18,.9);backdrop-filter:blur(20px);-webkit-backdrop-filter:blur(20px);border-top:1px solid var(--border);padding:10px 28px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:12px;color:var(--text-4)">
+  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:700">EvalView</a> <span style="opacity:.3;margin:0 8px">|</span> Agent testing &amp; regression detection</span>
+  <span style="display:flex;align-items:center;gap:8px">
+    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:5px;padding:6px 14px;border-radius:8px;background:rgba(29,155,240,.1);color:#1d9bf0;text-decoration:none;font-weight:700;font-size:11px;transition:all .2s;border:1px solid rgba(29,155,240,.15)" onmouseover="this.style.background='rgba(29,155,240,.2)';this.style.borderColor='rgba(29,155,240,.3)';this.style.transform='translateY(-1px)'" onmouseout="this.style.background='rgba(29,155,240,.1)';this.style.borderColor='rgba(29,155,240,.15)';this.style.transform='none'">
+      <svg width="13" height="13" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
+    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:5px;padding:6px 14px;border-radius:8px;background:rgba(255,255,255,.04);color:var(--text-2);text-decoration:none;font-weight:700;font-size:11px;transition:all .2s;border:1px solid var(--border)" onmouseover="this.style.background='rgba(255,255,255,.08)';this.style.borderColor='var(--border-light)';this.style.transform='translateY(-1px)'" onmouseout="this.style.background='rgba(255,255,255,.04)';this.style.borderColor='var(--border)';this.style.transform='none'">
+      <svg width="13" height="13" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
+  </span>
+</div>
+<div style="height:44px"></div>
+
+</body>
+</html>
\ No newline at end of file
diff --git a/.evalview/latest-v4.html b/.evalview/latest-v4.html
new file mode 100644
index 0000000..7084865
--- /dev/null
+++ b/.evalview/latest-v4.html
@@ -0,0 +1,708 @@
+<!doctype html>
+<html lang="en">
+<head>
+<meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1.0">
+<title>EvalView Check Report</title>
+<link rel="preconnect" href="https://fonts.googleapis.com">
+<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
+<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
+<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
+<style>
+*{box-sizing:border-box;margin:0;padding:0}
+:root{
+  --green:#10b981;--green-bright:#34d399;
+  --red:#ef4444;--red-bright:#f87171;
+  --yellow:#f59e0b;--yellow-bright:#fbbf24;
+  --blue:#2563eb;--blue-bright:#3b82f6;
+  --teal:#0d9488;--teal-bright:#14b8a6;
+  --cyan:#06b6d4;
+  --bg:#0a0f1e;--bg-card:rgba(15,23,42,.65);--bg-card-solid:#0f172a;
+  --border:rgba(51,65,85,.5);--border-light:rgba(71,85,105,.5);
+  --text:#f1f5f9;--text-2:#94a3b8;--text-3:#64748b;--text-4:#475569;
+  --r:16px;--r-sm:12px;--r-xs:8px;
+  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
+  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
+}
+html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
+body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;
+  background:var(--bg);
+}
+/* ── Background: visible blobs, not invisible ── */
+.bg-blobs{position:fixed;inset:0;pointer-events:none;z-index:0;overflow:hidden}
+.bg-blobs .b1{position:absolute;width:700px;height:700px;border-radius:50%;top:-250px;left:-100px;background:radial-gradient(circle,rgba(37,99,235,.18),transparent 70%);filter:blur(40px)}
+.bg-blobs .b2{position:absolute;width:500px;height:500px;border-radius:50%;bottom:-150px;right:-80px;background:radial-gradient(circle,rgba(16,185,129,.12),transparent 70%);filter:blur(40px)}
+.bg-blobs .b3{position:absolute;width:400px;height:400px;border-radius:50%;top:40%;left:50%;transform:translateX(-50%);background:radial-gradient(circle,rgba(6,182,212,.06),transparent 70%);filter:blur(50px)}
+
+/* ── Header: minimal chrome ── */
+.header{
+  position:sticky;top:0;z-index:200;
+  background:rgba(10,15,30,.8);
+  border-bottom:1px solid var(--border);
+  backdrop-filter:blur(20px) saturate(150%);-webkit-backdrop-filter:blur(20px) saturate(150%);
+  padding:0 40px;height:56px;display:flex;align-items:center;justify-content:space-between;
+}
+.logo{display:flex;align-items:center;gap:10px}
+.logo-icon{
+  width:32px;height:32px;border-radius:8px;flex-shrink:0;
+  background:linear-gradient(135deg,var(--blue-bright),var(--teal));
+  display:flex;align-items:center;justify-content:center;font-size:14px;
+  box-shadow:0 2px 12px rgba(37,99,235,.25);
+}
+.logo-text{font-size:15px;font-weight:700;letter-spacing:-.02em;color:var(--text)}
+.logo-sub{font-size:11px;color:var(--text-3);font-weight:400}
+.header-right{display:flex;align-items:center;gap:6px}
+
+/* ── Badges ── */
+.badge{display:inline-flex;align-items:center;gap:4px;padding:4px 12px;border-radius:20px;font-size:11px;font-weight:600;letter-spacing:-.01em;white-space:nowrap}
+.b-green{background:rgba(16,185,129,.15);color:var(--green-bright);border:1px solid rgba(16,185,129,.3)}
+.b-red{background:rgba(239,68,68,.15);color:var(--red-bright);border:1px solid rgba(239,68,68,.3)}
+.b-yellow{background:rgba(245,158,11,.15);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.3)}
+.b-blue{background:rgba(37,99,235,.15);color:var(--blue-bright);border:1px solid rgba(37,99,235,.3)}
+.b-purple{background:rgba(13,148,136,.15);color:var(--teal-bright);border:1px solid rgba(13,148,136,.3)}
+
+/* ── Layout ── */
+.main{max-width:1200px;margin:0 auto;padding:32px 40px 80px;position:relative;z-index:1}
+
+/* ── Tabs: full-width bar, more presence ── */
+.tabbar{
+  display:flex;gap:0;
+  background:rgba(15,23,42,.6);border:1px solid var(--border);
+  border-radius:var(--r-sm);padding:3px;margin-bottom:36px;
+  backdrop-filter:blur(12px);
+}
+.tab{
+  flex:1;text-align:center;
+  background:none;border:none;color:var(--text-3);cursor:pointer;
+  font:600 13px/1 var(--font);padding:11px 16px;border-radius:9px;
+  transition:all .15s;letter-spacing:-.01em;
+}
+.tab:hover{color:var(--text-2);background:rgba(255,255,255,.04)}
+.tab.on{color:#fff;background:rgba(37,99,235,.2);border:1px solid rgba(37,99,235,.35);box-shadow:0 1px 8px rgba(37,99,235,.15)}
+.panel{display:none}.panel.on{display:block}
+
+/* ══════════════════════════════════════════
+   HERO SECTION — the scoreboard
+   ══════════════════════════════════════════ */
+.hero{
+  display:grid;grid-template-columns:1fr 1fr;gap:20px;
+  margin-bottom:32px;
+}
+.hero-pass{
+  background:var(--bg-card);border:1px solid var(--border);
+  border-radius:var(--r);padding:36px 40px;
+  position:relative;overflow:hidden;
+}
+/* Colored accent glow behind the card */
+.hero-pass::after{
+  content:'';position:absolute;top:-40px;right:-40px;width:200px;height:200px;border-radius:50%;
+  pointer-events:none;filter:blur(50px);opacity:.5;
+}
+.hero-pass.is-green::after{background:rgba(16,185,129,.2)}
+.hero-pass.is-red::after{background:rgba(239,68,68,.2)}
+.hero-pass .hero-label{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.1em;margin-bottom:12px}
+.hero-pass .hero-num{font-size:72px;font-weight:900;letter-spacing:-.06em;line-height:1}
+.hero-pass .hero-num.green{color:var(--green-bright)}
+.hero-pass .hero-num.red{color:var(--red-bright)}
+.hero-pass .hero-sub{font-size:14px;color:var(--text-3);margin-top:8px;font-weight:500}
+.hero-pass .hero-ring{position:absolute;top:32px;right:36px;width:80px;height:80px}
+.hero-pass .hero-ring svg{transform:rotate(-90deg)}
+.hero-pass .hero-ring-label{position:absolute;inset:0;display:flex;align-items:center;justify-content:center;font-size:14px;font-weight:800;color:var(--text)}
+
+.hero-right{display:grid;grid-template-columns:1fr 1fr;gap:12px}
+.hero-stat{
+  background:var(--bg-card);border:1px solid var(--border);
+  border-radius:var(--r);padding:20px 22px;
+}
+.hero-stat .stat-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.1em;margin-bottom:10px}
+.hero-stat .stat-num{font-size:28px;font-weight:800;letter-spacing:-.04em;line-height:1;color:var(--text)}
+.hero-stat .stat-num.blue{color:var(--blue-bright)}
+.hero-stat .stat-sub{font-size:11px;color:var(--text-4);margin-top:6px;font-weight:500;line-height:1.4}
+
+/* ── Card (for everything else) ── */
+.card{
+  background:var(--bg-card);border:1px solid var(--border);
+  border-radius:var(--r);padding:22px 24px;margin-bottom:16px;
+  position:relative;overflow:hidden;
+}
+.card-title{
+  font-size:11px;font-weight:700;color:var(--text-3);
+  text-transform:uppercase;letter-spacing:.08em;
+  margin-bottom:16px;display:flex;align-items:center;gap:8px;
+}
+.card-title::before{content:'';width:3px;height:12px;border-radius:2px;background:var(--blue-bright)}
+
+/* ── Meta row (compact) ── */
+.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-bottom:16px}
+@media(max-width:900px){.meta-row{grid-template-columns:1fr}}
+.meta-card{
+  background:var(--bg-card);border:1px solid var(--border);
+  border-radius:var(--r-sm);padding:16px 20px;
+}
+.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:6px}
+.meta-value{font-size:15px;font-weight:700;color:var(--text);letter-spacing:-.01em}
+.meta-sub{font-size:12px;color:var(--text-4);margin-top:3px}
+
+/* ── Charts ── */
+.chart-row{display:grid;grid-template-columns:1fr 220px;gap:12px;margin-bottom:16px}
+@media(max-width:900px){.chart-row{grid-template-columns:1fr}}
+.chart-wrap{position:relative}
+
+/* ── Trace items ── */
+.item{
+  background:var(--bg-card);border:1px solid var(--border);
+  border-radius:var(--r);margin-bottom:10px;overflow:hidden;
+  transition:border-color .15s;
+}
+.item:hover{border-color:var(--border-light)}
+.item-head{padding:14px 20px;display:flex;align-items:center;gap:10px;cursor:pointer;transition:background .1s}
+.item-head:hover{background:rgba(255,255,255,.02)}
+.item-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
+.item-meta{display:flex;align-items:center;gap:6px;flex-shrink:0;flex-wrap:wrap}
+.meta-chip{
+  display:inline-flex;align-items:center;gap:3px;
+  padding:2px 8px;border-radius:5px;background:rgba(255,255,255,.04);
+  font-size:11px;font-weight:500;color:var(--text-3);white-space:nowrap;
+}
+.chevron{color:var(--text-4);font-size:10px;transition:transform .2s;flex-shrink:0}
+details[open] .turn-chevron{transform:rotate(90deg)}
+.item-body{padding:20px;border-top:1px solid var(--border);background:rgba(0,0,0,.15)}
+.mermaid-box{background:rgba(0,0,0,.2);border:1px solid rgba(51,65,85,.4);border-radius:var(--r-sm);padding:28px 20px;overflow-x:auto;min-height:200px}
+.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
+.mermaid-box .mermaid{min-width:560px}
+
+/* ── Chat turns ── */
+.chat-container{margin-top:18px;padding:16px;background:rgba(0,0,0,.12);border:1px solid rgba(51,65,85,.3);border-radius:var(--r-sm)}
+.chat-header{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:14px;padding-bottom:10px;border-bottom:1px solid rgba(51,65,85,.3)}
+.chat-messages{display:flex;flex-direction:column;gap:4px}
+.chat-bubble{max-width:80%;padding:10px 14px;font-size:13px;line-height:1.55;border-radius:14px}
+.chat-bubble.user{align-self:flex-end;background:rgba(37,99,235,.12);border:1px solid rgba(37,99,235,.2);color:var(--text);border-bottom-right-radius:4px}
+.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.03);border:1px solid rgba(51,65,85,.4);color:var(--text-2);border-bottom-left-radius:4px}
+.chat-meta{display:flex;align-items:center;gap:8px;padding:5px 2px;font-size:10px;color:var(--text-4);font-weight:500}
+.chat-meta.right{justify-content:flex-end}
+.chat-tool-tag{display:inline-flex;padding:1px 7px;border-radius:4px;background:rgba(37,99,235,.08);border:1px solid rgba(37,99,235,.15);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
+.chat-eval{padding:6px 10px;border-radius:8px;font-size:11px;font-weight:600;max-width:80%}
+.chat-eval.pass{align-self:flex-start;background:rgba(16,185,129,.08);border:1px solid rgba(16,185,129,.2);color:var(--green-bright)}
+.chat-eval.fail{align-self:flex-start;background:rgba(239,68,68,.08);border:1px solid rgba(239,68,68,.2);color:var(--red-bright)}
+
+/* ── Diffs ── */
+.diff-item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:10px;overflow:hidden}
+.diff-head{padding:14px 20px;display:flex;align-items:center;gap:8px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
+.diff-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
+.diff-cols{display:grid;grid-template-columns:1fr 1fr}
+.diff-col{padding:16px 20px}
+.diff-col+.diff-col{border-left:1px solid var(--border)}
+.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;margin-bottom:8px}
+.tags{display:flex;flex-wrap:wrap;gap:4px;margin-bottom:8px}
+.tag{background:rgba(255,255,255,.04);border:1px solid rgba(51,65,85,.5);border-radius:5px;padding:2px 8px;font-size:11px;font-family:var(--mono);font-weight:500}
+.tag.add{border-color:rgba(16,185,129,.3);color:var(--green-bright);background:rgba(16,185,129,.06)}
+.tag.rem{border-color:rgba(239,68,68,.3);color:var(--red-bright);background:rgba(239,68,68,.06);text-decoration:line-through}
+.outbox{background:rgba(0,0,0,.2);border:1px solid rgba(51,65,85,.4);border-radius:var(--r-xs);padding:12px;font:12px/1.6 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:200px;overflow-y:auto}
+.difflines{background:rgba(0,0,0,.2);border:1px solid rgba(51,65,85,.4);border-radius:var(--r-xs);padding:10px;font:11px/1.6 var(--mono);max-height:200px;overflow-y:auto;margin-top:8px}
+.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.05);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
+.difflines .r{color:var(--red-bright);background:rgba(239,68,68,.05);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
+.sim{display:inline-flex;align-items:center;gap:5px;font-size:11px;color:var(--text-3)}
+.sim-track{width:44px;height:4px;background:rgba(255,255,255,.06);border-radius:2px;overflow:hidden;display:inline-block;vertical-align:middle}
+.sim-fill{height:100%;border-radius:2px}
+.sim-fill.hi{background:var(--green)}.sim-fill.mid{background:var(--yellow)}.sim-fill.lo{background:var(--red)}
+
+/* Pipeline */
+.pipeline{display:flex;flex-direction:column;gap:6px;padding:14px 20px;border-top:1px solid var(--border)}
+.pipeline-row{display:flex;align-items:center;gap:4px;flex-wrap:wrap}
+.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;width:64px;flex-shrink:0}
+.pipe-step{display:inline-flex;padding:4px 10px;border-radius:5px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.04);border:1px solid rgba(51,65,85,.5);color:var(--text-2);position:relative}
+.pipe-step+.pipe-step{margin-left:6px}
+.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-13px;color:var(--text-4);font-size:9px;font-family:var(--font)}
+.pipe-step.match{border-color:rgba(37,99,235,.25);background:rgba(37,99,235,.05)}
+.pipe-step.added{border-color:rgba(16,185,129,.3);color:var(--green-bright);background:rgba(16,185,129,.06)}
+.pipe-step.removed{border-color:rgba(239,68,68,.3);color:var(--red-bright);background:rgba(239,68,68,.06);text-decoration:line-through}
+.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-top:14px;padding-top:14px;border-top:1px solid var(--border)}
+.traj-col .col-title{padding-bottom:8px}
+
+/* ── Tables ── */
+.ev-table{width:100%;border-collapse:collapse;font-size:13px}
+.ev-table th{text-align:left;padding:8px 12px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
+.ev-table td{padding:10px 12px;border-bottom:1px solid rgba(51,65,85,.3);transition:background .1s}
+.ev-table tr:hover td{background:rgba(255,255,255,.015)}
+.ev-table .mono{font-family:var(--mono);font-size:12px}
+.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
+.param-table{width:100%;border-collapse:collapse;font-size:12px}
+.param-table th{text-align:left;padding:6px 10px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
+.param-table td{padding:6px 10px;border-bottom:1px solid rgba(51,65,85,.3)}
+table td,table th{transition:background .1s}
+
+/* ── Empty ── */
+.empty{text-align:center;padding:72px 40px;color:var(--text-4)}
+.empty-icon{font-size:36px;margin-bottom:12px;display:block;opacity:.3}
+.empty code{background:rgba(255,255,255,.06);padding:2px 8px;border-radius:5px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
+
+/* ── Scrollbar ── */
+::-webkit-scrollbar{width:4px;height:4px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.08);border-radius:4px}
+
+/* ── Entrance animation (subtle) ── */
+@keyframes fadeUp{from{opacity:0;transform:translateY(10px)}to{opacity:1;transform:none}}
+.hero,.card,.item,.diff-item,.meta-card{animation:fadeUp .35s ease-out both}
+</style>
+</head>
+<body>
+
+<div class="bg-blobs"><div class="b1"></div><div class="b2"></div><div class="b3"></div></div>
+
+<header class="header">
+  <div class="logo">
+    <div class="logo-icon">◈</div>
+    <div>
+      <div class="logo-text">EvalView Check Report</div>
+      <div class="logo-sub">2026-03-17 16:52</div>
+    </div>
+  </div>
+  <div class="header-right">
+    
+      
+        <span class="badge b-red">✗ 1 Failed</span>
+      
+      <span class="badge b-blue">5 Tests</span>
+    
+  </div>
+</header>
+
+<main class="main">
+
+  <div class="tabbar">
+    <button class="tab on" onclick="show('overview',this)">Overview</button>
+    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
+    <button class="tab " onclick="show('diffs',this)">Diffs</button>
+    <button class="tab " onclick="show('timeline',this)">Timeline</button>
+    
+  </div>
+
+  <!-- ═══════════ OVERVIEW ═══════════ -->
+  <div id="p-overview" class="panel on">
+    
+
+    <!-- HERO: The scoreboard -->
+    <div class="hero">
+      <div class="hero-pass is-green">
+        <div class="hero-label">Pass Rate</div>
+        <div class="hero-num green">80.0%</div>
+        <div class="hero-sub">4 of 5 tests passing</div>
+        <div class="hero-ring">
+          <svg width="80" height="80" viewBox="0 0 80 80">
+            <circle cx="40" cy="40" r="34" fill="none" stroke="rgba(255,255,255,.06)" stroke-width="5"/>
+            <circle cx="40" cy="40" r="34" fill="none"
+              stroke="var(--green-bright)"
+              stroke-width="5" stroke-linecap="round"
+              stroke-dasharray="170.9 213.6"/>
+          </svg>
+          <div class="hero-ring-label">4/5</div>
+        </div>
+      </div>
+      <div class="hero-right">
+        <div class="hero-stat">
+          <div class="stat-label">Avg Score</div>
+          <div class="stat-num" style="color:var(--yellow-bright)">79.7<span style="font-size:14px;color:var(--text-4);font-weight:500">/100</span></div>
+        </div>
+        <div class="hero-stat">
+          <div class="stat-label">Total Cost</div>
+          <div class="stat-num blue">$0.017</div>
+          <div class="stat-sub">2,835 tokens</div>
+        </div>
+        <div class="hero-stat">
+          <div class="stat-label">Avg Latency</div>
+          <div class="stat-num">1360<span style="font-size:14px;color:var(--text-4);font-weight:500">ms</span></div>
+          <div class="stat-sub">per test</div>
+        </div>
+        <div class="hero-stat">
+          <div class="stat-label">Model</div>
+          <div style="font-size:13px;font-weight:600;color:var(--text);margin-top:4px;line-height:1.4">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
+          
+          <div style="margin-top:6px;font-size:11px;color:var(--text-4);font-family:var(--mono)">in 2,170 · out 665</div>
+          
+        </div>
+      </div>
+    </div>
+
+    <!-- Agent Model + Token Usage -->
+    <div class="meta-row">
+      <div class="meta-card">
+        <div class="meta-label">Agent Model</div>
+        <div class="meta-value">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
+        <div class="meta-sub">5 tests in this run</div>
+      </div>
+      
+      <div class="meta-card">
+        <div class="meta-label">Token Usage</div>
+        <div class="meta-value">2,835 tokens</div>
+        <div class="meta-sub">in 2,170 / out 665</div>
+      </div>
+      
+    </div>
+    
+
+    
+    <div class="meta-row">
+      <div class="meta-card">
+        <div class="meta-label">EvalView Judge (gpt-4o-mini)</div>
+        <div class="meta-value">$0.006</div>
+        <div class="meta-sub">1,320 tokens across 5 judge calls</div>
+      </div>
+      <div class="meta-card">
+        <div class="meta-label">Judge Token Breakdown</div>
+        <div class="meta-value">in 1,100 / out 220</div>
+        <div class="meta-sub">Separate from agent trace cost</div>
+      </div>
+    </div>
+    
+
+    <!-- Score bars + donut -->
+    <div class="chart-row">
+      <div class="card">
+        <div class="card-title">Score per Test</div>
+        <div class="chart-wrap" style="height:250px"><canvas id="bars"></canvas></div>
+      </div>
+      <div class="card">
+        <div class="card-title">Distribution</div>
+        <div class="chart-wrap" style="height:200px"><canvas id="donut"></canvas></div>
+      </div>
+    </div>
+
+    <!-- Cost table -->
+    <div class="card">
+      <div class="card-title">Execution Cost per Query</div>
+      <table class="ev-table">
+        
+        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Tokens</th><th>Latency</th><th>Score</th></tr></thead>
+        <tbody>
+          
+          <tr>
+            <td style="font-weight:600">refund-flow</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0034</td>
+            <td class="mono" style="color:var(--text-3)">570 tokens</td>
+            <td style="color:var(--text-3)">1200ms</td>
+            <td class="num" style="color:var(--green-bright)">92.5</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">order-lookup</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0021</td>
+            <td class="mono" style="color:var(--text-3)">415 tokens</td>
+            <td style="color:var(--text-3)">800ms</td>
+            <td class="num" style="color:var(--green-bright)">88.0</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">billing-dispute</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0058</td>
+            <td class="mono" style="color:var(--text-3)">890 tokens</td>
+            <td style="color:var(--text-3)">2400ms</td>
+            <td class="num" style="color:var(--red-bright)">45.0</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">password-reset</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0012</td>
+            <td class="mono" style="color:var(--text-3)">260 tokens</td>
+            <td style="color:var(--text-3)">600ms</td>
+            <td class="num" style="color:var(--green-bright)">95.0</td>
+          </tr>
+          
+          <tr>
+            <td style="font-weight:600">vip-escalation</td>
+            <td class="mono" style="color:var(--text-4)">openai/claude-3.5-sonnet</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0045</td>
+            <td class="mono" style="color:var(--text-3)">700 tokens</td>
+            <td style="color:var(--text-3)">1800ms</td>
+            <td class="num" style="color:var(--yellow-bright)">78.0</td>
+          </tr>
+          
+          <tr style="background:rgba(0,0,0,.1)">
+            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.017</td>
+            <td colspan="3" style="font-size:11px;color:var(--text-4)">avg $0.003400 per query</td>
+          </tr>
+        </tbody>
+      </table>
+      <div style="margin-top:12px;font-size:11px;color:var(--text-4);line-height:1.5">
+        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.05);padding:2px 7px;border-radius:4px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
+         This check also used 5 EvalView judge calls (1320 tokens).
+      </div>
+    </div>
+    
+  </div>
+
+  <!-- ═══════════ EXECUTION TRACE ═══════════ -->
+  <div id="p-trace" class="panel ">
+    
+      
+      <div class="item">
+        <div class="item-head" onclick="tog('tr1',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">refund-flow</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--green-bright)">92.5/100</span>
+            <span class="meta-chip">💰 $0.0034</span>
+            <span class="meta-chip">⚡ 1200ms</span>
+            <span class="meta-chip">570 tokens</span>
+            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr1" class="item-body" >
+          <div style="display:flex;flex-wrap:wrap;gap:5px;margin-bottom:14px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 450 / out 120 tokens</span><span class="badge b-blue">$0.0034</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.06);border:1px solid rgba(37,99,235,.15);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Query</span>Process refund for order 4812
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
+            <span style="display:inline-flex;align-items:center;gap:6px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:rgba(16,185,129,.05);border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Response</span>Refund issued.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item">
+        <div class="item-head" onclick="tog('tr2',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">order-lookup</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--green-bright)">88.0/100</span>
+            <span class="meta-chip">💰 $0.0021</span>
+            <span class="meta-chip">⚡ 800ms</span>
+            <span class="meta-chip">415 tokens</span>
+            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr2" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:5px;margin-bottom:14px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 320 / out 95 tokens</span><span class="badge b-blue">$0.0021</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.06);border:1px solid rgba(37,99,235,.15);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Query</span>Order status #7291
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
+            <span style="display:inline-flex;align-items:center;gap:6px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:rgba(16,185,129,.05);border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Response</span>Shipped.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item">
+        <div class="item-head" onclick="tog('tr3',this)">
+          <span class="badge b-red">✗</span>
+          <span class="item-name">billing-dispute</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--red-bright)">45.0/100</span>
+            <span class="meta-chip">💰 $0.0058</span>
+            <span class="meta-chip">⚡ 2400ms</span>
+            <span class="meta-chip">890 tokens</span>
+            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr3" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:5px;margin-bottom:14px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 680 / out 210 tokens</span><span class="badge b-blue">$0.0058</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.06);border:1px solid rgba(37,99,235,.15);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Query</span>Dispute charge
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
+            <span style="display:inline-flex;align-items:center;gap:6px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:rgba(16,185,129,.05);border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Response</span>Not found.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item">
+        <div class="item-head" onclick="tog('tr4',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">password-reset</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--green-bright)">95.0/100</span>
+            <span class="meta-chip">💰 $0.0012</span>
+            <span class="meta-chip">⚡ 600ms</span>
+            <span class="meta-chip">260 tokens</span>
+            <span class="meta-chip">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr4" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:5px;margin-bottom:14px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 200 / out 60 tokens</span><span class="badge b-blue">$0.0012</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.06);border:1px solid rgba(37,99,235,.15);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Query</span>Reset password
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
+            <span style="display:inline-flex;align-items:center;gap:6px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:rgba(16,185,129,.05);border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Response</span>Email sent.
+          </div>
+          
+        </div>
+      </div>
+      
+      <div class="item">
+        <div class="item-head" onclick="tog('tr5',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">vip-escalation</span>
+          <div class="item-meta">
+            <span class="meta-chip" style="color:var(--yellow-bright)">78.0/100</span>
+            <span class="meta-chip">💰 $0.0045</span>
+            <span class="meta-chip">⚡ 1800ms</span>
+            <span class="meta-chip">700 tokens</span>
+            <span class="meta-chip">🧠 openai/claude-3.5-sonnet</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr5" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:5px;margin-bottom:14px">
+            <span class="badge b-blue">Model: openai/claude-3.5-sonnet</span>
+            <span class="badge b-blue">in 520 / out 180 tokens</span><span class="badge b-blue">$0.0045</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.06);border:1px solid rgba(37,99,235,.15);border-radius:var(--r-xs);padding:10px 14px;margin-bottom:14px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Query</span>VIP leaving
+          </div>
+          
+          
+          <div style="display:flex;align-items:center;justify-content:center;padding:20px 0 8px">
+            <span style="display:inline-flex;align-items:center;gap:6px;background:rgba(255,255,255,.03);border:1px solid var(--border);border-radius:20px;padding:8px 18px;font-size:12px;color:var(--text-4)"><span style="opacity:.4">◎</span> Direct response — no tools invoked</span>
+          </div>
+          
+          
+          
+          <div style="background:rgba(16,185,129,.05);border:1px solid rgba(16,185,129,.12);border-radius:var(--r-xs);padding:10px 14px;margin-top:14px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:8px">Response</span>Escalated.
+          </div>
+          
+        </div>
+      </div>
+      
+    
+  </div>
+
+  <!-- ═══════════ DIFFS ═══════════ -->
+  <div id="p-diffs" class="panel ">
+    
+      <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
+    
+  </div>
+
+  <!-- ═══════════ TIMELINE ═══════════ -->
+  <div id="p-timeline" class="panel ">
+    
+      <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
+    
+  </div>
+
+  <!-- ═══════════ COMPARE ═══════════ -->
+  
+</main>
+
+<script>
+mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
+  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(37,99,235,.12)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(37,99,235,.3)',lineColor:'rgba(100,116,139,.35)',secondaryColor:'rgba(16,185,129,.08)',tertiaryColor:'rgba(6,182,212,.08)',noteBkgColor:'rgba(37,99,235,.06)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(37,99,235,.2)',actorBkg:'rgba(37,99,235,.1)',actorBorder:'rgba(37,99,235,.25)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
+  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:12,messageFontSize:11,noteFontSize:10,boxTextMargin:8,mirrorActors:false,messageAlign:'center',actorMargin:30,bottomMarginAdj:4}
+});
+function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
+function tog(id,head){const el=document.getElementById(id);const open=el.style.display!=='none';el.style.display=open?'none':'block';head.querySelector('.chevron').style.transform=open?'':'rotate(180deg)'}
+
+
+(function(){
+  const passed=4,failed=1;
+  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
+  const tc='rgba(100,116,139,.7)',gc='rgba(255,255,255,.03)';
+  const tt={backgroundColor:'rgba(10,15,30,.95)',borderColor:'rgba(51,65,85,.6)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:12},bodyFont:{family:'Inter',size:12},padding:10,cornerRadius:8};
+
+  new Chart(document.getElementById('donut'),{type:'doughnut',data:{labels:['Passed','Failed'],datasets:[{data:[passed,failed],backgroundColor:['rgba(16,185,129,.65)','rgba(239,68,68,.65)'],borderColor:['rgba(16,185,129,.1)','rgba(239,68,68,.1)'],borderWidth:2,hoverOffset:6}]},options:{responsive:true,maintainAspectRatio:false,cutout:'76%',plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:11,weight:'500'},padding:16,boxWidth:8,boxHeight:8,usePointStyle:true,pointStyle:'circle'}},tooltip:{...tt,callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}});
+
+  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
+  new Chart(document.getElementById('bars'),{type:'bar',
+    data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),
+      backgroundColor:sorted.map(s=>s.score>=80?'rgba(16,185,129,.4)':s.score>=60?'rgba(245,158,11,.4)':'rgba(239,68,68,.4)'),
+      borderColor:sorted.map(s=>s.score>=80?'rgba(16,185,129,.6)':s.score>=60?'rgba(245,158,11,.6)':'rgba(239,68,68,.6)'),
+      borderWidth:1,borderRadius:4,borderSkipped:false,barPercentage:.6,categoryPercentage:.8}]},
+    options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,
+      scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:10},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.8)',font:{family:'Inter',size:11,weight:'600'},padding:6},border:{display:false}}},
+      plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
+})();
+
+
+
+
+
+</script>
+
+<!-- Share bar -->
+<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(10,15,30,.9);backdrop-filter:blur(16px);-webkit-backdrop-filter:blur(16px);border-top:1px solid var(--border);padding:10px 24px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:12px;color:var(--text-4)">
+  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:600">EvalView</a> <span style="opacity:.3;margin:0 6px">|</span> Agent testing &amp; regression detection</span>
+  <span style="display:flex;align-items:center;gap:6px">
+    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:4px;padding:5px 12px;border-radius:6px;background:rgba(29,155,240,.1);color:#1d9bf0;text-decoration:none;font-weight:600;font-size:11px;border:1px solid rgba(29,155,240,.12)" onmouseover="this.style.background='rgba(29,155,240,.18)'" onmouseout="this.style.background='rgba(29,155,240,.1)'"><svg width="13" height="13" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
+    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:4px;padding:5px 12px;border-radius:6px;background:rgba(255,255,255,.04);color:var(--text-2);text-decoration:none;font-weight:600;font-size:11px;border:1px solid var(--border)" onmouseover="this.style.background='rgba(255,255,255,.07)'" onmouseout="this.style.background='rgba(255,255,255,.04)'"><svg width="13" height="13" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
+  </span>
+</div>
+<div style="height:44px"></div>
+
+</body>
+</html>
\ No newline at end of file
diff --git a/.evalview/latest-v5.html b/.evalview/latest-v5.html
new file mode 100644
index 0000000..2586400
--- /dev/null
+++ b/.evalview/latest-v5.html
@@ -0,0 +1,689 @@
+<!doctype html>
+<html lang="en">
+<head>
+<meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1.0">
+<title>EvalView Check Report</title>
+<link rel="preconnect" href="https://fonts.googleapis.com">
+<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
+<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
+<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
+<style>
+*{box-sizing:border-box;margin:0;padding:0}
+:root{
+  --green:#10b981;--green-bright:#34d399;
+  --red:#ef4444;--red-bright:#f87171;
+  --yellow:#f59e0b;--yellow-bright:#fbbf24;
+  --blue:#2563eb;--blue-bright:#3b82f6;
+  --teal:#0d9488;--teal-bright:#14b8a6;
+  --cyan:#06b6d4;
+  --bg:#060b18;--bg-card:rgba(12,20,36,.75);
+  --border:rgba(51,65,85,.45);--border-light:rgba(71,85,105,.5);
+  --text:#f1f5f9;--text-2:#94a3b8;--text-3:#64748b;--text-4:#475569;
+  --r:16px;--r-sm:12px;--r-xs:8px;
+  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
+  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
+}
+html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
+body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;background:var(--bg)}
+
+/* ── Header ── */
+.header{
+  position:sticky;top:0;z-index:200;
+  background:rgba(6,11,24,.85);border-bottom:1px solid var(--border);
+  backdrop-filter:blur(20px);-webkit-backdrop-filter:blur(20px);
+  padding:0 40px;height:52px;display:flex;align-items:center;justify-content:space-between;
+}
+.logo{display:flex;align-items:center;gap:10px}
+.logo-icon{width:28px;height:28px;border-radius:7px;flex-shrink:0;background:linear-gradient(135deg,var(--blue-bright),var(--teal));display:flex;align-items:center;justify-content:center;font-size:13px;box-shadow:0 2px 10px rgba(37,99,235,.2)}
+.logo-text{font-size:14px;font-weight:700;letter-spacing:-.02em;color:var(--text)}
+.logo-sub{font-size:10px;color:var(--text-4);font-weight:400}
+.header-right{display:flex;align-items:center;gap:6px}
+
+/* ── Badges ── */
+.badge{display:inline-flex;align-items:center;gap:4px;padding:3px 10px;border-radius:20px;font-size:11px;font-weight:600;white-space:nowrap}
+.b-green{background:rgba(16,185,129,.12);color:var(--green-bright);border:1px solid rgba(16,185,129,.25)}
+.b-red{background:rgba(239,68,68,.12);color:var(--red-bright);border:1px solid rgba(239,68,68,.25)}
+.b-yellow{background:rgba(245,158,11,.12);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.25)}
+.b-blue{background:rgba(37,99,235,.12);color:var(--blue-bright);border:1px solid rgba(37,99,235,.25)}
+.b-purple{background:rgba(13,148,136,.12);color:var(--teal-bright);border:1px solid rgba(13,148,136,.25)}
+
+/* ── Layout ── */
+.main{max-width:1160px;margin:0 auto;padding:28px 36px 80px;position:relative;z-index:1}
+
+/* ── Tabs ── */
+.tabbar{display:flex;gap:0;background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:3px;margin-bottom:28px}
+.tab{flex:1;text-align:center;background:none;border:none;color:var(--text-4);cursor:pointer;font:600 12px/1 var(--font);padding:10px 12px;border-radius:9px;transition:all .15s}
+.tab:hover{color:var(--text-2);background:rgba(255,255,255,.03)}
+.tab.on{color:#fff;background:rgba(37,99,235,.18);border:1px solid rgba(37,99,235,.3)}
+.panel{display:none}.panel.on{display:block}
+
+/* ══════════════════════════════════════════════
+   THE GAUGE — signature element
+   ══════════════════════════════════════════════ */
+.gauge-hero{
+  text-align:center;padding:48px 20px 36px;margin-bottom:28px;
+  position:relative;
+}
+/* Ambient glow behind gauge */
+.gauge-hero::before{
+  content:'';position:absolute;top:50%;left:50%;transform:translate(-50%,-60%);
+  width:320px;height:320px;border-radius:50%;pointer-events:none;
+  filter:blur(80px);opacity:.6;
+}
+.gauge-hero.glow-green::before{background:rgba(16,185,129,.15)}
+.gauge-hero.glow-red::before{background:rgba(239,68,68,.15)}
+.gauge-hero.glow-yellow::before{background:rgba(245,158,11,.12)}
+.gauge-wrap{position:relative;display:inline-block;width:220px;height:220px}
+.gauge-wrap svg{display:block}
+.gauge-center{
+  position:absolute;inset:0;display:flex;flex-direction:column;
+  align-items:center;justify-content:center;
+}
+.gauge-pct{font-size:56px;font-weight:900;letter-spacing:-.06em;line-height:1}
+.gauge-pct.green{color:var(--green-bright)}
+.gauge-pct.red{color:var(--red-bright)}
+.gauge-pct.yellow{color:var(--yellow-bright)}
+.gauge-label{font-size:12px;font-weight:600;color:var(--text-3);margin-top:4px;text-transform:uppercase;letter-spacing:.08em}
+.gauge-sub{font-size:14px;color:var(--text-3);margin-top:16px;font-weight:500}
+.gauge-sub b{color:var(--text);font-weight:700}
+/* Animated stroke */
+.gauge-track{transition:none}
+.gauge-fill{
+  transition:stroke-dasharray 1.2s cubic-bezier(.4,0,.2,1);
+  stroke-dasharray:0 999;
+}
+/* Title row under gauge */
+.gauge-title{font-size:11px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.1em;margin-bottom:20px}
+
+/* ── Stat strip — the 4 KPIs in a row ── */
+.stat-strip{display:grid;grid-template-columns:repeat(4,1fr);gap:1px;background:var(--border);border:1px solid var(--border);border-radius:var(--r);overflow:hidden;margin-bottom:24px}
+.stat-strip .ss{background:var(--bg-card);padding:18px 20px;text-align:center}
+.stat-strip .ss-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:8px}
+.stat-strip .ss-num{font-size:22px;font-weight:800;letter-spacing:-.03em;line-height:1;color:var(--text)}
+.stat-strip .ss-num.blue{color:var(--blue-bright)}
+.stat-strip .ss-sub{font-size:11px;color:var(--text-4);margin-top:5px;font-weight:500}
+@media(max-width:800px){.stat-strip{grid-template-columns:repeat(2,1fr)}}
+
+/* ── Card ── */
+.card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);padding:20px 22px;margin-bottom:14px;position:relative;overflow:hidden}
+.card-title{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:14px;display:flex;align-items:center;gap:7px}
+.card-title::before{content:'';width:3px;height:11px;border-radius:2px;background:var(--blue-bright)}
+.chart-wrap{position:relative}
+
+/* ── Meta row ── */
+.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-bottom:14px}
+@media(max-width:800px){.meta-row{grid-template-columns:1fr}}
+.meta-card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:14px 18px}
+.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:5px}
+.meta-value{font-size:14px;font-weight:700;color:var(--text)}
+.meta-sub{font-size:11px;color:var(--text-4);margin-top:3px}
+
+/* ── Chart row ── */
+.chart-row{display:grid;grid-template-columns:1fr 200px;gap:12px;margin-bottom:14px}
+@media(max-width:800px){.chart-row{grid-template-columns:1fr}}
+
+/* ── Trace items ── */
+.item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden;transition:border-color .15s}
+.item:hover{border-color:var(--border-light)}
+.item-head{padding:12px 18px;display:flex;align-items:center;gap:10px;cursor:pointer;transition:background .1s}
+.item-head:hover{background:rgba(255,255,255,.015)}
+.item-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
+.item-meta{display:flex;align-items:center;gap:5px;flex-shrink:0;flex-wrap:wrap}
+.mc{display:inline-flex;align-items:center;gap:3px;padding:2px 7px;border-radius:4px;background:rgba(255,255,255,.035);font-size:10px;font-weight:500;color:var(--text-3);white-space:nowrap}
+.chevron{color:var(--text-4);font-size:10px;transition:transform .2s;flex-shrink:0}
+details[open] .turn-chevron{transform:rotate(90deg)}
+.item-body{padding:18px;border-top:1px solid var(--border);background:rgba(0,0,0,.12)}
+.mermaid-box{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-sm);padding:24px 18px;overflow-x:auto;min-height:180px}
+.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
+.mermaid-box .mermaid{min-width:560px}
+
+/* ── Chat turns ── */
+.chat-container{margin-top:16px;padding:14px;background:rgba(0,0,0,.1);border:1px solid rgba(51,65,85,.25);border-radius:var(--r-sm)}
+.chat-header{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:12px;padding-bottom:8px;border-bottom:1px solid rgba(51,65,85,.25)}
+.chat-messages{display:flex;flex-direction:column;gap:3px}
+.chat-bubble{max-width:78%;padding:9px 13px;font-size:13px;line-height:1.5;border-radius:12px}
+.chat-bubble.user{align-self:flex-end;background:rgba(37,99,235,.1);border:1px solid rgba(37,99,235,.18);color:var(--text);border-bottom-right-radius:3px}
+.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.025);border:1px solid rgba(51,65,85,.35);color:var(--text-2);border-bottom-left-radius:3px}
+.chat-meta{display:flex;align-items:center;gap:6px;padding:4px 2px;font-size:10px;color:var(--text-4);font-weight:500}
+.chat-meta.right{justify-content:flex-end}
+.chat-tool-tag{display:inline-flex;padding:1px 6px;border-radius:3px;background:rgba(37,99,235,.07);border:1px solid rgba(37,99,235,.12);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
+.chat-eval{padding:5px 9px;border-radius:6px;font-size:11px;font-weight:600;max-width:78%}
+.chat-eval.pass{align-self:flex-start;background:rgba(16,185,129,.07);border:1px solid rgba(16,185,129,.18);color:var(--green-bright)}
+.chat-eval.fail{align-self:flex-start;background:rgba(239,68,68,.07);border:1px solid rgba(239,68,68,.18);color:var(--red-bright)}
+
+/* ── Diffs ── */
+.diff-item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden}
+.diff-head{padding:12px 18px;display:flex;align-items:center;gap:8px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
+.diff-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
+.diff-cols{display:grid;grid-template-columns:1fr 1fr}
+.diff-col{padding:14px 18px}
+.diff-col+.diff-col{border-left:1px solid var(--border)}
+.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;margin-bottom:7px}
+.tags{display:flex;flex-wrap:wrap;gap:3px;margin-bottom:7px}
+.tag{background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);border-radius:4px;padding:2px 7px;font-size:11px;font-family:var(--mono);font-weight:500}
+.tag.add{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
+.tag.rem{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
+.outbox{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:10px;font:12px/1.6 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:180px;overflow-y:auto}
+.difflines{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:8px;font:11px/1.6 var(--mono);max-height:180px;overflow-y:auto;margin-top:7px}
+.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
+.difflines .r{color:var(--red-bright);background:rgba(239,68,68,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
+.sim{display:inline-flex;align-items:center;gap:4px;font-size:11px;color:var(--text-3)}
+.sim-track{width:40px;height:3px;background:rgba(255,255,255,.06);border-radius:2px;overflow:hidden;display:inline-block;vertical-align:middle}
+.sim-fill{height:100%;border-radius:2px}
+.sim-fill.hi{background:var(--green)}.sim-fill.mid{background:var(--yellow)}.sim-fill.lo{background:var(--red)}
+.pipeline{display:flex;flex-direction:column;gap:5px;padding:12px 18px;border-top:1px solid var(--border)}
+.pipeline-row{display:flex;align-items:center;gap:3px;flex-wrap:wrap}
+.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;width:60px;flex-shrink:0}
+.pipe-step{display:inline-flex;padding:3px 9px;border-radius:4px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);color:var(--text-2);position:relative}
+.pipe-step+.pipe-step{margin-left:5px}
+.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-12px;color:var(--text-4);font-size:9px;font-family:var(--font)}
+.pipe-step.match{border-color:rgba(37,99,235,.2);background:rgba(37,99,235,.04)}
+.pipe-step.added{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
+.pipe-step.removed{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
+.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:10px;margin-top:12px;padding-top:12px;border-top:1px solid var(--border)}
+.traj-col .col-title{padding-bottom:6px}
+
+/* ── Tables ── */
+.ev-table{width:100%;border-collapse:collapse;font-size:13px}
+.ev-table th{text-align:left;padding:7px 10px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
+.ev-table td{padding:9px 10px;border-bottom:1px solid rgba(51,65,85,.25)}
+.ev-table tr:hover td{background:rgba(255,255,255,.012)}
+.ev-table .mono{font-family:var(--mono);font-size:12px}
+.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
+.param-table{width:100%;border-collapse:collapse;font-size:12px}
+.param-table th{text-align:left;padding:5px 9px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
+.param-table td{padding:5px 9px;border-bottom:1px solid rgba(51,65,85,.25)}
+table td,table th{transition:background .1s}
+.empty{text-align:center;padding:64px 40px;color:var(--text-4)}
+.empty-icon{font-size:32px;margin-bottom:10px;display:block;opacity:.25}
+.empty code{background:rgba(255,255,255,.05);padding:2px 7px;border-radius:4px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
+::-webkit-scrollbar{width:4px;height:4px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.07);border-radius:3px}
+</style>
+</head>
+<body>
+
+<header class="header">
+  <div class="logo">
+    <div class="logo-icon">◈</div>
+    <div><div class="logo-text">EvalView Check Report</div><div class="logo-sub">2026-03-18 08:00</div></div>
+  </div>
+  <div class="header-right">
+    <span class="badge b-red">✗ 1 Failed</span><span class="badge b-blue">5 Tests</span>
+  </div>
+</header>
+
+<main class="main">
+  <div class="tabbar">
+    <button class="tab on" onclick="show('overview',this)">Overview</button>
+    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
+    <button class="tab " onclick="show('diffs',this)">Diffs</button>
+    <button class="tab " onclick="show('timeline',this)">Timeline</button>
+    
+  </div>
+
+  <!-- ═══════════ OVERVIEW ═══════════ -->
+  <div id="p-overview" class="panel on">
+    
+
+    <!-- THE GAUGE -->
+    <div class="gauge-hero glow-green">
+      <div class="gauge-wrap">
+        <svg width="220" height="220" viewBox="0 0 220 220">
+          <!-- Track -->
+          <circle cx="110" cy="110" r="95" fill="none" stroke="rgba(255,255,255,.04)" stroke-width="12"/>
+          <!-- Tick marks -->
+          
+          <line x1="110.0" y1="22.0" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(0 110 110)"/>
+          
+          <line x1="137.64397905759162" y1="49.28" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(18 110 110)"/>
+          
+          <line x1="165.28795811518324" y1="77.44" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(36 110 110)"/>
+          
+          <line x1="192.9319371727749" y1="104.72" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(54 110 110)"/>
+          
+          <line x1="220.5759162303665" y1="132.88" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(72 110 110)"/>
+          
+          <line x1="248.2198952879581" y1="160.16" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(90 110 110)"/>
+          
+          <line x1="275.8638743455498" y1="187.44" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(108 110 110)"/>
+          
+          <line x1="303.5078534031414" y1="215.6" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(126 110 110)"/>
+          
+          <line x1="331.151832460733" y1="242.88" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(144 110 110)"/>
+          
+          <line x1="358.7958115183246" y1="271.04" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(162 110 110)"/>
+          
+          <line x1="386.4397905759162" y1="298.32000000000005" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(180 110 110)"/>
+          
+          <line x1="414.08376963350787" y1="326.48" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(198 110 110)"/>
+          
+          <line x1="441.7277486910995" y1="353.76" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(216 110 110)"/>
+          
+          <line x1="469.3717277486911" y1="381.04" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(234 110 110)"/>
+          
+          <line x1="497.01570680628276" y1="409.2" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(252 110 110)"/>
+          
+          <line x1="524.6596858638743" y1="436.48" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(270 110 110)"/>
+          
+          <line x1="552.303664921466" y1="464.64000000000004" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(288 110 110)"/>
+          
+          <line x1="579.9476439790576" y1="491.91999999999996" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(306 110 110)"/>
+          
+          <line x1="607.5916230366493" y1="519.2" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(324 110 110)"/>
+          
+          <line x1="635.2356020942409" y1="547.3599999999999" x2="110" y2="110"
+                stroke="rgba(255,255,255,.03)" stroke-width="0.5" transform="rotate(342 110 110)"/>
+          
+          <!-- Fill arc -->
+          <circle class="gauge-fill" cx="110" cy="110" r="95" fill="none"
+            stroke="var(--green)"
+            stroke-width="12" stroke-linecap="round"
+            data-target="478.0"
+            style="stroke-dasharray:0 597;filter:drop-shadow(0 0 8px rgba(16,185,129,.4))"/>
+          <!-- Outer glow ring -->
+          <circle cx="110" cy="110" r="95" fill="none"
+            stroke="rgba(16,185,129,.06)"
+            stroke-width="28"/>
+        </svg>
+        <div class="gauge-center">
+          <div class="gauge-pct green">80.0%</div>
+          <div class="gauge-label">Pass Rate</div>
+        </div>
+      </div>
+      <div class="gauge-sub"><b>4</b> of <b>5</b> tests passing</div>
+    </div>
+
+    <!-- Stat strip -->
+    <div class="stat-strip">
+      <div class="ss">
+        <div class="ss-label">Avg Score</div>
+        <div class="ss-num" style="color:var(--yellow-bright)">79.7</div>
+        <div class="ss-sub">out of 100</div>
+      </div>
+      <div class="ss">
+        <div class="ss-label">Total Cost</div>
+        <div class="ss-num blue">$0.017</div>
+        <div class="ss-sub">2,835 tokens (verified)</div>
+      </div>
+      <div class="ss">
+        <div class="ss-label">Avg Latency</div>
+        <div class="ss-num">1360<span style="font-size:12px;color:var(--text-4);font-weight:500">ms</span></div>
+        <div class="ss-sub">per test</div>
+      </div>
+      <div class="ss">
+        <div class="ss-label">Model</div>
+        <div style="font-size:13px;font-weight:600;color:var(--text);margin-top:2px;line-height:1.3">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
+        
+        <div style="margin-top:4px;font-size:10px;color:var(--text-4);font-family:var(--mono)">in 2,170 · out 665</div>
+        
+      </div>
+    </div>
+
+    <!-- Meta cards -->
+    <div class="meta-row">
+      <div class="meta-card">
+        <div class="meta-label">Agent Model</div>
+        <div class="meta-value">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
+        <div class="meta-sub">5 tests in this run</div>
+      </div>
+      
+      <div class="meta-card">
+        <div class="meta-label">Token Usage</div>
+        <div class="meta-value">2,835 tokens</div>
+        <div class="meta-sub">in 2,170 / out 665</div>
+      </div>
+      
+    </div>
+    
+    
+    <div class="meta-row">
+      <div class="meta-card">
+        <div class="meta-label">EvalView Judge (gpt-4o-mini)</div>
+        <div class="meta-value">$0.006</div>
+        <div class="meta-sub">1,320 tokens across 5 judge calls</div>
+      </div>
+      <div class="meta-card">
+        <div class="meta-label">Judge Token Breakdown</div>
+        <div class="meta-value">in 1,100 / out 220</div>
+        <div class="meta-sub">Separate from agent trace cost</div>
+      </div>
+    </div>
+    
+
+    <!-- Score chart + donut -->
+    <div class="chart-row">
+      <div class="card">
+        <div class="card-title">Score per Test</div>
+        <div class="chart-wrap" style="height:224px"><canvas id="bars"></canvas></div>
+      </div>
+      <div class="card">
+        <div class="card-title">Distribution</div>
+        <div class="chart-wrap" style="height:180px"><canvas id="donut"></canvas></div>
+      </div>
+    </div>
+
+    <!-- Cost table -->
+    <div class="card">
+      <div class="card-title">Execution Cost per Query</div>
+      <table class="ev-table">
+        
+        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Tokens</th><th>Latency</th><th>Score</th></tr></thead>
+        <tbody>
+          <tr>
+            <td style="font-weight:600">refund-flow</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0034</td>
+            <td class="mono" style="color:var(--text-3)">570 tokens</td>
+            <td style="color:var(--text-3)">1200ms</td>
+            <td class="num" style="color:var(--green-bright)">92.5</td>
+          </tr><tr>
+            <td style="font-weight:600">order-lookup</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0021</td>
+            <td class="mono" style="color:var(--text-3)">415 tokens</td>
+            <td style="color:var(--text-3)">800ms</td>
+            <td class="num" style="color:var(--green-bright)">88.0</td>
+          </tr><tr>
+            <td style="font-weight:600">billing-dispute</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0058</td>
+            <td class="mono" style="color:var(--text-3)">890 tokens</td>
+            <td style="color:var(--text-3)">2400ms</td>
+            <td class="num" style="color:var(--red-bright)">45.0</td>
+          </tr><tr>
+            <td style="font-weight:600">password-reset</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0012</td>
+            <td class="mono" style="color:var(--text-3)">260 tokens</td>
+            <td style="color:var(--text-3)">600ms</td>
+            <td class="num" style="color:var(--green-bright)">95.0</td>
+          </tr><tr>
+            <td style="font-weight:600">vip-escalation</td>
+            <td class="mono" style="color:var(--text-4)">openai/claude-3.5-sonnet</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0045</td>
+            <td class="mono" style="color:var(--text-3)">700 tokens</td>
+            <td style="color:var(--text-3)">1800ms</td>
+            <td class="num" style="color:var(--yellow-bright)">78.0</td>
+          </tr>
+          <tr style="background:rgba(0,0,0,.08)">
+            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.017</td>
+            <td colspan="3" style="font-size:11px;color:var(--text-4)">avg $0.003400 per query</td>
+          </tr>
+        </tbody>
+      </table>
+      <div style="margin-top:10px;font-size:11px;color:var(--text-4);line-height:1.5">
+        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.04);padding:2px 6px;border-radius:3px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
+         This check also used 5 EvalView judge calls (1320 tokens).
+      </div>
+    </div>
+    
+  </div>
+
+  <!-- ═══════════ TRACE ═══════════ -->
+  <div id="p-trace" class="panel ">
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr1',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">refund-flow</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--green-bright)">92.5/100</span>
+            <span class="mc">💰 $0.0034</span>
+            <span class="mc">⚡ 1200ms</span>
+            <span class="mc">570 tokens</span>
+            <span class="mc">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr1" class="item-body" >
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 450 / out 120 tokens</span><span class="badge b-blue">$0.0034</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Process refund for order 4812
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Refund issued.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr2',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">order-lookup</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--green-bright)">88.0/100</span>
+            <span class="mc">💰 $0.0021</span>
+            <span class="mc">⚡ 800ms</span>
+            <span class="mc">415 tokens</span>
+            <span class="mc">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr2" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 320 / out 95 tokens</span><span class="badge b-blue">$0.0021</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Order status #7291
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Shipped.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr3',this)">
+          <span class="badge b-red">✗</span>
+          <span class="item-name">billing-dispute</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--red-bright)">45.0/100</span>
+            <span class="mc">💰 $0.0058</span>
+            <span class="mc">⚡ 2400ms</span>
+            <span class="mc">890 tokens</span>
+            <span class="mc">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr3" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 680 / out 210 tokens</span><span class="badge b-blue">$0.0058</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Dispute charge
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Not found.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr4',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">password-reset</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--green-bright)">95.0/100</span>
+            <span class="mc">💰 $0.0012</span>
+            <span class="mc">⚡ 600ms</span>
+            <span class="mc">260 tokens</span>
+            <span class="mc">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr4" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 200 / out 60 tokens</span><span class="badge b-blue">$0.0012</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Reset password
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Email sent.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr5',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">vip-escalation</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--yellow-bright)">78.0/100</span>
+            <span class="mc">💰 $0.0045</span>
+            <span class="mc">⚡ 1800ms</span>
+            <span class="mc">700 tokens</span>
+            <span class="mc">🧠 openai/claude-3.5-sonnet</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr5" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/claude-3.5-sonnet</span>
+            <span class="badge b-blue">in 520 / out 180 tokens</span><span class="badge b-blue">$0.0045</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>VIP leaving
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Escalated.
+          </div>
+        </div>
+      </div>
+    
+  </div>
+
+  <!-- ═══════════ DIFFS ═══════════ -->
+  <div id="p-diffs" class="panel ">
+    <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
+  </div>
+
+  <!-- ═══════════ TIMELINE ═══════════ -->
+  <div id="p-timeline" class="panel ">
+    <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
+  </div>
+
+  <!-- ═══════════ COMPARE ═══════════ -->
+  
+</main>
+
+<script>
+mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
+  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(37,99,235,.1)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(37,99,235,.25)',lineColor:'rgba(100,116,139,.3)',secondaryColor:'rgba(16,185,129,.06)',tertiaryColor:'rgba(6,182,212,.06)',noteBkgColor:'rgba(37,99,235,.05)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(37,99,235,.15)',actorBkg:'rgba(37,99,235,.08)',actorBorder:'rgba(37,99,235,.2)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
+  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:12,messageFontSize:11,noteFontSize:10,boxTextMargin:8,mirrorActors:false,messageAlign:'center',actorMargin:30,bottomMarginAdj:4}
+});
+function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
+function tog(id,head){const el=document.getElementById(id);const o=el.style.display!=='none';el.style.display=o?'none':'block';head.querySelector('.chevron').style.transform=o?'':'rotate(180deg)'}
+
+/* Animate the gauge on load */
+requestAnimationFrame(()=>{setTimeout(()=>{document.querySelectorAll('.gauge-fill').forEach(c=>{const t=c.dataset.target||0;c.style.strokeDasharray=t+' 597'})},100)});
+
+
+(function(){
+  const passed=4,failed=1;
+  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
+  const tc='rgba(100,116,139,.6)',gc='rgba(255,255,255,.025)';
+  const tt={backgroundColor:'rgba(6,11,24,.95)',borderColor:'rgba(51,65,85,.5)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:11},bodyFont:{family:'Inter',size:11},padding:8,cornerRadius:6};
+
+  new Chart(document.getElementById('donut'),{type:'doughnut',data:{labels:['Passed','Failed'],datasets:[{data:[passed,failed],backgroundColor:['rgba(16,185,129,.6)','rgba(239,68,68,.6)'],borderColor:['rgba(16,185,129,.08)','rgba(239,68,68,.08)'],borderWidth:2,hoverOffset:4}]},options:{responsive:true,maintainAspectRatio:false,cutout:'78%',plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:10,weight:'500'},padding:12,boxWidth:7,boxHeight:7,usePointStyle:true,pointStyle:'circle'}},tooltip:{...tt,callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}});
+
+  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
+  /* Warning stripes for low scores */
+  const barBg=sorted.map(s=>{
+    if(s.score>=80) return 'rgba(16,185,129,.35)';
+    if(s.score>=60) return 'rgba(245,158,11,.35)';
+    return 'rgba(239,68,68,.35)';
+  });
+  const barBorder=sorted.map(s=>{
+    if(s.score>=80) return 'rgba(16,185,129,.55)';
+    if(s.score>=60) return 'rgba(245,158,11,.55)';
+    return 'rgba(239,68,68,.55)';
+  });
+  new Chart(document.getElementById('bars'),{type:'bar',
+    data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),backgroundColor:barBg,borderColor:barBorder,borderWidth:1,borderRadius:3,borderSkipped:false,barPercentage:.55,categoryPercentage:.8}]},
+    options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,
+      scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:9},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.7)',font:{family:'Inter',size:11,weight:'600'},padding:4},border:{display:false}}},
+      plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
+})();
+
+
+
+
+
+</script>
+
+<!-- Share bar -->
+<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(6,11,24,.9);backdrop-filter:blur(16px);-webkit-backdrop-filter:blur(16px);border-top:1px solid var(--border);padding:8px 24px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:11px;color:var(--text-4)">
+  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:600">EvalView</a> <span style="opacity:.25;margin:0 5px">|</span> Agent testing &amp; regression detection</span>
+  <span style="display:flex;align-items:center;gap:5px">
+    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(29,155,240,.08);color:#1d9bf0;text-decoration:none;font-weight:600;font-size:10px;border:1px solid rgba(29,155,240,.1)"><svg width="12" height="12" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
+    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(255,255,255,.03);color:var(--text-2);text-decoration:none;font-weight:600;font-size:10px;border:1px solid var(--border)"><svg width="12" height="12" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
+  </span>
+</div>
+<div style="height:40px"></div>
+
+</body>
+</html>
\ No newline at end of file
diff --git a/.evalview/latest-v6.html b/.evalview/latest-v6.html
new file mode 100644
index 0000000..aee40eb
--- /dev/null
+++ b/.evalview/latest-v6.html
@@ -0,0 +1,616 @@
+<!doctype html>
+<html lang="en">
+<head>
+<meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1.0">
+<title>EvalView Check Report</title>
+<link rel="preconnect" href="https://fonts.googleapis.com">
+<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
+<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
+<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
+<style>
+*{box-sizing:border-box;margin:0;padding:0}
+:root{
+  --green:#10b981;--green-bright:#34d399;
+  --red:#ef4444;--red-bright:#f87171;
+  --yellow:#f59e0b;--yellow-bright:#fbbf24;
+  --blue:#2563eb;--blue-bright:#3b82f6;
+  --teal:#0d9488;--teal-bright:#14b8a6;
+  --cyan:#06b6d4;
+  --bg:#060b18;--bg-card:rgba(12,20,36,.75);
+  --border:rgba(51,65,85,.45);--border-light:rgba(71,85,105,.5);
+  --text:#f1f5f9;--text-2:#94a3b8;--text-3:#64748b;--text-4:#475569;
+  --r:16px;--r-sm:12px;--r-xs:8px;
+  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
+  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
+}
+html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
+body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;background:var(--bg)}
+
+/* ── Header ── */
+.header{
+  position:sticky;top:0;z-index:200;
+  background:rgba(6,11,24,.85);border-bottom:1px solid var(--border);
+  backdrop-filter:blur(20px);-webkit-backdrop-filter:blur(20px);
+  padding:0 40px;height:52px;display:flex;align-items:center;justify-content:space-between;
+}
+.logo{display:flex;align-items:center;gap:10px}
+.logo-icon{width:28px;height:28px;border-radius:7px;flex-shrink:0;background:linear-gradient(135deg,var(--blue-bright),var(--teal));display:flex;align-items:center;justify-content:center;font-size:13px;box-shadow:0 2px 10px rgba(37,99,235,.2)}
+.logo-text{font-size:14px;font-weight:700;letter-spacing:-.02em;color:var(--text)}
+.logo-sub{font-size:10px;color:var(--text-4);font-weight:400}
+.header-right{display:flex;align-items:center;gap:6px}
+
+/* ── Badges ── */
+.badge{display:inline-flex;align-items:center;gap:4px;padding:3px 10px;border-radius:20px;font-size:11px;font-weight:600;white-space:nowrap}
+.b-green{background:rgba(16,185,129,.12);color:var(--green-bright);border:1px solid rgba(16,185,129,.25)}
+.b-red{background:rgba(239,68,68,.12);color:var(--red-bright);border:1px solid rgba(239,68,68,.25)}
+.b-yellow{background:rgba(245,158,11,.12);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.25)}
+.b-blue{background:rgba(37,99,235,.12);color:var(--blue-bright);border:1px solid rgba(37,99,235,.25)}
+.b-purple{background:rgba(13,148,136,.12);color:var(--teal-bright);border:1px solid rgba(13,148,136,.25)}
+
+/* ── Layout ── */
+.main{max-width:1160px;margin:0 auto;padding:28px 36px 80px;position:relative;z-index:1}
+
+/* ── Tabs ── */
+.tabbar{display:flex;gap:0;background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:3px;margin-bottom:28px}
+.tab{flex:1;text-align:center;background:none;border:none;color:var(--text-4);cursor:pointer;font:600 12px/1 var(--font);padding:10px 12px;border-radius:9px;transition:all .15s}
+.tab:hover{color:var(--text-2);background:rgba(255,255,255,.03)}
+.tab.on{color:#fff;background:rgba(37,99,235,.18);border:1px solid rgba(37,99,235,.3)}
+.panel{display:none}.panel.on{display:block}
+
+/* ══════════════════════════════════════════════
+   HERO ROW — gauge + stats, all above the fold
+   ══════════════════════════════════════════════ */
+.hero-row{
+  display:grid;grid-template-columns:auto 1fr;gap:0;
+  background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);
+  overflow:hidden;margin-bottom:20px;
+}
+@media(max-width:800px){.hero-row{grid-template-columns:1fr}}
+/* Gauge cell */
+.gauge-cell{
+  padding:24px 32px;display:flex;flex-direction:column;align-items:center;justify-content:center;
+  position:relative;border-right:1px solid var(--border);
+}
+.gauge-cell::before{
+  content:'';position:absolute;top:50%;left:50%;transform:translate(-50%,-50%);
+  width:200px;height:200px;border-radius:50%;pointer-events:none;filter:blur(60px);opacity:.5;
+}
+.gauge-cell.glow-green::before{background:rgba(16,185,129,.12)}
+.gauge-cell.glow-red::before{background:rgba(239,68,68,.12)}
+.gauge-cell.glow-yellow::before{background:rgba(245,158,11,.1)}
+.gauge-wrap{position:relative;width:140px;height:140px}
+.gauge-wrap svg{display:block}
+.gauge-center{position:absolute;inset:0;display:flex;flex-direction:column;align-items:center;justify-content:center}
+.gauge-pct{font-size:36px;font-weight:900;letter-spacing:-.05em;line-height:1}
+.gauge-pct.green{color:var(--green-bright)}
+.gauge-pct.red{color:var(--red-bright)}
+.gauge-pct.yellow{color:var(--yellow-bright)}
+.gauge-label{font-size:9px;font-weight:700;color:var(--text-3);margin-top:3px;text-transform:uppercase;letter-spacing:.08em}
+.gauge-sub{font-size:12px;color:var(--text-3);margin-top:10px;font-weight:500;text-align:center}
+.gauge-sub b{color:var(--text);font-weight:700}
+.gauge-fill{transition:stroke-dasharray 1.2s cubic-bezier(.4,0,.2,1);stroke-dasharray:0 999}
+/* Stats grid — right side */
+.stats-grid{display:grid;grid-template-columns:1fr 1fr;grid-template-rows:1fr 1fr}
+.stats-grid .ss{padding:16px 20px;border-bottom:1px solid var(--border)}
+.stats-grid .ss:nth-child(odd){border-right:1px solid var(--border)}
+.stats-grid .ss:nth-child(n+3){border-bottom:none}
+.ss-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:6px}
+.ss-num{font-size:22px;font-weight:800;letter-spacing:-.03em;line-height:1;color:var(--text)}
+.ss-num.blue{color:var(--blue-bright)}
+.ss-sub{font-size:11px;color:var(--text-4);margin-top:4px;font-weight:500;line-height:1.3}
+
+/* ── Card ── */
+.card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);padding:20px 22px;margin-bottom:14px;position:relative;overflow:hidden}
+.card-title{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:14px;display:flex;align-items:center;gap:7px}
+.card-title::before{content:'';width:3px;height:11px;border-radius:2px;background:var(--blue-bright)}
+.chart-wrap{position:relative}
+
+/* ── Meta row ── */
+.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-bottom:14px}
+@media(max-width:800px){.meta-row{grid-template-columns:1fr}}
+.meta-card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:14px 18px}
+.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:5px}
+.meta-value{font-size:14px;font-weight:700;color:var(--text)}
+.meta-sub{font-size:11px;color:var(--text-4);margin-top:3px}
+
+/* ── Chart row ── */
+.chart-row{display:grid;grid-template-columns:1fr 200px;gap:12px;margin-bottom:14px}
+@media(max-width:800px){.chart-row{grid-template-columns:1fr}}
+
+/* ── Trace items ── */
+.item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden;transition:border-color .15s}
+.item:hover{border-color:var(--border-light)}
+.item-head{padding:12px 18px;display:flex;align-items:center;gap:10px;cursor:pointer;transition:background .1s}
+.item-head:hover{background:rgba(255,255,255,.015)}
+.item-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
+.item-meta{display:flex;align-items:center;gap:5px;flex-shrink:0;flex-wrap:wrap}
+.mc{display:inline-flex;align-items:center;gap:3px;padding:2px 7px;border-radius:4px;background:rgba(255,255,255,.035);font-size:10px;font-weight:500;color:var(--text-3);white-space:nowrap}
+.chevron{color:var(--text-4);font-size:10px;transition:transform .2s;flex-shrink:0}
+details[open] .turn-chevron{transform:rotate(90deg)}
+.item-body{padding:18px;border-top:1px solid var(--border);background:rgba(0,0,0,.12)}
+.mermaid-box{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-sm);padding:24px 18px;overflow-x:auto;min-height:180px}
+.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
+.mermaid-box .mermaid{min-width:560px}
+
+/* ── Chat turns ── */
+.chat-container{margin-top:16px;padding:14px;background:rgba(0,0,0,.1);border:1px solid rgba(51,65,85,.25);border-radius:var(--r-sm)}
+.chat-header{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:12px;padding-bottom:8px;border-bottom:1px solid rgba(51,65,85,.25)}
+.chat-messages{display:flex;flex-direction:column;gap:3px}
+.chat-bubble{max-width:78%;padding:9px 13px;font-size:13px;line-height:1.5;border-radius:12px}
+.chat-bubble.user{align-self:flex-end;background:rgba(37,99,235,.1);border:1px solid rgba(37,99,235,.18);color:var(--text);border-bottom-right-radius:3px}
+.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.025);border:1px solid rgba(51,65,85,.35);color:var(--text-2);border-bottom-left-radius:3px}
+.chat-meta{display:flex;align-items:center;gap:6px;padding:4px 2px;font-size:10px;color:var(--text-4);font-weight:500}
+.chat-meta.right{justify-content:flex-end}
+.chat-tool-tag{display:inline-flex;padding:1px 6px;border-radius:3px;background:rgba(37,99,235,.07);border:1px solid rgba(37,99,235,.12);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
+.chat-eval{padding:5px 9px;border-radius:6px;font-size:11px;font-weight:600;max-width:78%}
+.chat-eval.pass{align-self:flex-start;background:rgba(16,185,129,.07);border:1px solid rgba(16,185,129,.18);color:var(--green-bright)}
+.chat-eval.fail{align-self:flex-start;background:rgba(239,68,68,.07);border:1px solid rgba(239,68,68,.18);color:var(--red-bright)}
+
+/* ── Diffs ── */
+.diff-item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden}
+.diff-head{padding:12px 18px;display:flex;align-items:center;gap:8px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
+.diff-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
+.diff-cols{display:grid;grid-template-columns:1fr 1fr}
+.diff-col{padding:14px 18px}
+.diff-col+.diff-col{border-left:1px solid var(--border)}
+.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;margin-bottom:7px}
+.tags{display:flex;flex-wrap:wrap;gap:3px;margin-bottom:7px}
+.tag{background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);border-radius:4px;padding:2px 7px;font-size:11px;font-family:var(--mono);font-weight:500}
+.tag.add{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
+.tag.rem{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
+.outbox{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:10px;font:12px/1.6 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:180px;overflow-y:auto}
+.difflines{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:8px;font:11px/1.6 var(--mono);max-height:180px;overflow-y:auto;margin-top:7px}
+.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
+.difflines .r{color:var(--red-bright);background:rgba(239,68,68,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
+.sim{display:inline-flex;align-items:center;gap:4px;font-size:11px;color:var(--text-3)}
+.sim-track{width:40px;height:3px;background:rgba(255,255,255,.06);border-radius:2px;overflow:hidden;display:inline-block;vertical-align:middle}
+.sim-fill{height:100%;border-radius:2px}
+.sim-fill.hi{background:var(--green)}.sim-fill.mid{background:var(--yellow)}.sim-fill.lo{background:var(--red)}
+.pipeline{display:flex;flex-direction:column;gap:5px;padding:12px 18px;border-top:1px solid var(--border)}
+.pipeline-row{display:flex;align-items:center;gap:3px;flex-wrap:wrap}
+.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;width:60px;flex-shrink:0}
+.pipe-step{display:inline-flex;padding:3px 9px;border-radius:4px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);color:var(--text-2);position:relative}
+.pipe-step+.pipe-step{margin-left:5px}
+.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-12px;color:var(--text-4);font-size:9px;font-family:var(--font)}
+.pipe-step.match{border-color:rgba(37,99,235,.2);background:rgba(37,99,235,.04)}
+.pipe-step.added{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
+.pipe-step.removed{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
+.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:10px;margin-top:12px;padding-top:12px;border-top:1px solid var(--border)}
+.traj-col .col-title{padding-bottom:6px}
+
+/* ── Tables ── */
+.ev-table{width:100%;border-collapse:collapse;font-size:13px}
+.ev-table th{text-align:left;padding:7px 10px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
+.ev-table td{padding:9px 10px;border-bottom:1px solid rgba(51,65,85,.25)}
+.ev-table tr:hover td{background:rgba(255,255,255,.012)}
+.ev-table .mono{font-family:var(--mono);font-size:12px}
+.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
+.param-table{width:100%;border-collapse:collapse;font-size:12px}
+.param-table th{text-align:left;padding:5px 9px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
+.param-table td{padding:5px 9px;border-bottom:1px solid rgba(51,65,85,.25)}
+table td,table th{transition:background .1s}
+.empty{text-align:center;padding:64px 40px;color:var(--text-4)}
+.empty-icon{font-size:32px;margin-bottom:10px;display:block;opacity:.25}
+.empty code{background:rgba(255,255,255,.05);padding:2px 7px;border-radius:4px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
+::-webkit-scrollbar{width:4px;height:4px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.07);border-radius:3px}
+</style>
+</head>
+<body>
+
+<header class="header">
+  <div class="logo">
+    <div class="logo-icon">◈</div>
+    <div><div class="logo-text">EvalView Check Report</div><div class="logo-sub">2026-03-18 09:25</div></div>
+  </div>
+  <div class="header-right">
+    <span class="badge b-red">✗ 1 Failed</span><span class="badge b-blue">5 Tests</span>
+  </div>
+</header>
+
+<main class="main">
+  <div class="tabbar">
+    <button class="tab on" onclick="show('overview',this)">Overview</button>
+    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
+    <button class="tab " onclick="show('diffs',this)">Diffs</button>
+    <button class="tab " onclick="show('timeline',this)">Timeline</button>
+    
+  </div>
+
+  <!-- ═══════════ OVERVIEW ═══════════ -->
+  <div id="p-overview" class="panel on">
+    
+
+    <!-- HERO: Gauge + Stats in one row -->
+    <div class="hero-row">
+      <div class="gauge-cell glow-green">
+        <div class="gauge-wrap">
+          <svg width="140" height="140" viewBox="0 0 140 140">
+            <circle cx="70" cy="70" r="60" fill="none" stroke="rgba(255,255,255,.04)" stroke-width="8"/>
+            <circle class="gauge-fill" cx="70" cy="70" r="60" fill="none"
+              stroke="var(--green)"
+              stroke-width="8" stroke-linecap="round"
+              data-target="302.0"
+              style="stroke-dasharray:0 377;filter:drop-shadow(0 0 6px rgba(16,185,129,.35))"/>
+          </svg>
+          <div class="gauge-center">
+            <div class="gauge-pct green">80.0%</div>
+            <div class="gauge-label">Pass Rate</div>
+          </div>
+        </div>
+        <div class="gauge-sub"><b>4</b> of <b>5</b> tests</div>
+      </div>
+      <div class="stats-grid">
+        <div class="ss">
+          <div class="ss-label">Avg Score</div>
+          <div class="ss-num" style="color:var(--yellow-bright)">79.7</div>
+          <div class="ss-sub">out of 100</div>
+        </div>
+        <div class="ss">
+          <div class="ss-label">Total Cost</div>
+          <div class="ss-num blue">$0.017</div>
+          <div class="ss-sub">2,835 tokens (verified)</div>
+        </div>
+        <div class="ss">
+          <div class="ss-label">Avg Latency</div>
+          <div class="ss-num">1360<span style="font-size:12px;color:var(--text-4);font-weight:500">ms</span></div>
+          <div class="ss-sub">per test</div>
+        </div>
+        <div class="ss">
+          <div class="ss-label">Model</div>
+          <div style="font-size:13px;font-weight:600;color:var(--text);margin-top:2px;line-height:1.3">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
+          
+          <div style="margin-top:4px;font-size:10px;color:var(--text-4);font-family:var(--mono)">in 2,170 · out 665</div>
+          
+        </div>
+      </div>
+    </div>
+
+    <!-- Meta cards -->
+    <div class="meta-row">
+      <div class="meta-card">
+        <div class="meta-label">Agent Model</div>
+        <div class="meta-value">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
+        <div class="meta-sub">5 tests in this run</div>
+      </div>
+      
+      <div class="meta-card">
+        <div class="meta-label">Token Usage</div>
+        <div class="meta-value">2,835 tokens</div>
+        <div class="meta-sub">in 2,170 / out 665</div>
+      </div>
+      
+    </div>
+    
+    
+    <div class="meta-row">
+      <div class="meta-card">
+        <div class="meta-label">EvalView Judge (gpt-4o-mini)</div>
+        <div class="meta-value">$0.006</div>
+        <div class="meta-sub">1,320 tokens across 5 judge calls</div>
+      </div>
+      <div class="meta-card">
+        <div class="meta-label">Judge Token Breakdown</div>
+        <div class="meta-value">in 1,100 / out 220</div>
+        <div class="meta-sub">Separate from agent trace cost</div>
+      </div>
+    </div>
+    
+
+    <!-- Score chart + donut -->
+    <div class="chart-row">
+      <div class="card">
+        <div class="card-title">Score per Test</div>
+        <div class="chart-wrap" style="height:224px"><canvas id="bars"></canvas></div>
+      </div>
+      <div class="card">
+        <div class="card-title">Distribution</div>
+        <div class="chart-wrap" style="height:180px"><canvas id="donut"></canvas></div>
+      </div>
+    </div>
+
+    <!-- Cost table -->
+    <div class="card">
+      <div class="card-title">Execution Cost per Query</div>
+      <table class="ev-table">
+        
+        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Tokens</th><th>Latency</th><th>Score</th></tr></thead>
+        <tbody>
+          <tr>
+            <td style="font-weight:600">refund-flow</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0034</td>
+            <td class="mono" style="color:var(--text-3)">570 tokens</td>
+            <td style="color:var(--text-3)">1200ms</td>
+            <td class="num" style="color:var(--green-bright)">92.5</td>
+          </tr><tr>
+            <td style="font-weight:600">order-lookup</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0021</td>
+            <td class="mono" style="color:var(--text-3)">415 tokens</td>
+            <td style="color:var(--text-3)">800ms</td>
+            <td class="num" style="color:var(--green-bright)">88.0</td>
+          </tr><tr>
+            <td style="font-weight:600">billing-dispute</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0058</td>
+            <td class="mono" style="color:var(--text-3)">890 tokens</td>
+            <td style="color:var(--text-3)">2400ms</td>
+            <td class="num" style="color:var(--red-bright)">45.0</td>
+          </tr><tr>
+            <td style="font-weight:600">password-reset</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0012</td>
+            <td class="mono" style="color:var(--text-3)">260 tokens</td>
+            <td style="color:var(--text-3)">600ms</td>
+            <td class="num" style="color:var(--green-bright)">95.0</td>
+          </tr><tr>
+            <td style="font-weight:600">vip-escalation</td>
+            <td class="mono" style="color:var(--text-4)">openai/claude-3.5-sonnet</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0045</td>
+            <td class="mono" style="color:var(--text-3)">700 tokens</td>
+            <td style="color:var(--text-3)">1800ms</td>
+            <td class="num" style="color:var(--yellow-bright)">78.0</td>
+          </tr>
+          <tr style="background:rgba(0,0,0,.08)">
+            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.017</td>
+            <td colspan="3" style="font-size:11px;color:var(--text-4)">avg $0.003400 per query</td>
+          </tr>
+        </tbody>
+      </table>
+      <div style="margin-top:10px;font-size:11px;color:var(--text-4);line-height:1.5">
+        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.04);padding:2px 6px;border-radius:3px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
+         This check also used 5 EvalView judge calls (1320 tokens).
+      </div>
+    </div>
+    
+  </div>
+
+  <!-- ═══════════ TRACE ═══════════ -->
+  <div id="p-trace" class="panel ">
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr1',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">refund-flow</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--green-bright)">92.5/100</span>
+            <span class="mc">💰 $0.0034</span>
+            <span class="mc">⚡ 1200ms</span>
+            <span class="mc">570 tokens</span>
+            <span class="mc">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr1" class="item-body" >
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 450 / out 120 tokens</span><span class="badge b-blue">$0.0034</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Process refund
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Done.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr2',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">order-lookup</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--green-bright)">88.0/100</span>
+            <span class="mc">💰 $0.0021</span>
+            <span class="mc">⚡ 800ms</span>
+            <span class="mc">415 tokens</span>
+            <span class="mc">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr2" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 320 / out 95 tokens</span><span class="badge b-blue">$0.0021</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Order status
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Shipped.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr3',this)">
+          <span class="badge b-red">✗</span>
+          <span class="item-name">billing-dispute</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--red-bright)">45.0/100</span>
+            <span class="mc">💰 $0.0058</span>
+            <span class="mc">⚡ 2400ms</span>
+            <span class="mc">890 tokens</span>
+            <span class="mc">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr3" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 680 / out 210 tokens</span><span class="badge b-blue">$0.0058</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Dispute
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Not found.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr4',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">password-reset</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--green-bright)">95.0/100</span>
+            <span class="mc">💰 $0.0012</span>
+            <span class="mc">⚡ 600ms</span>
+            <span class="mc">260 tokens</span>
+            <span class="mc">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr4" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 200 / out 60 tokens</span><span class="badge b-blue">$0.0012</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Reset pw
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Sent.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr5',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">vip-escalation</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--yellow-bright)">78.0/100</span>
+            <span class="mc">💰 $0.0045</span>
+            <span class="mc">⚡ 1800ms</span>
+            <span class="mc">700 tokens</span>
+            <span class="mc">🧠 openai/claude-3.5-sonnet</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr5" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/claude-3.5-sonnet</span>
+            <span class="badge b-blue">in 520 / out 180 tokens</span><span class="badge b-blue">$0.0045</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>VIP
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Escalated.
+          </div>
+        </div>
+      </div>
+    
+  </div>
+
+  <!-- ═══════════ DIFFS ═══════════ -->
+  <div id="p-diffs" class="panel ">
+    <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
+  </div>
+
+  <!-- ═══════════ TIMELINE ═══════════ -->
+  <div id="p-timeline" class="panel ">
+    <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
+  </div>
+
+  <!-- ═══════════ COMPARE ═══════════ -->
+  
+</main>
+
+<script>
+mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
+  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(37,99,235,.1)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(37,99,235,.25)',lineColor:'rgba(100,116,139,.3)',secondaryColor:'rgba(16,185,129,.06)',tertiaryColor:'rgba(6,182,212,.06)',noteBkgColor:'rgba(37,99,235,.05)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(37,99,235,.15)',actorBkg:'rgba(37,99,235,.08)',actorBorder:'rgba(37,99,235,.2)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
+  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:12,messageFontSize:11,noteFontSize:10,boxTextMargin:8,mirrorActors:false,messageAlign:'center',actorMargin:30,bottomMarginAdj:4}
+});
+function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
+function tog(id,head){const el=document.getElementById(id);const o=el.style.display!=='none';el.style.display=o?'none':'block';head.querySelector('.chevron').style.transform=o?'':'rotate(180deg)'}
+
+/* Animate the gauge on load */
+requestAnimationFrame(()=>{setTimeout(()=>{document.querySelectorAll('.gauge-fill').forEach(c=>{const t=c.dataset.target||0;c.style.strokeDasharray=t+' 377'})},100)});
+
+
+(function(){
+  const passed=4,failed=1;
+  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
+  const tc='rgba(100,116,139,.6)',gc='rgba(255,255,255,.025)';
+  const tt={backgroundColor:'rgba(6,11,24,.95)',borderColor:'rgba(51,65,85,.5)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:11},bodyFont:{family:'Inter',size:11},padding:8,cornerRadius:6};
+
+  new Chart(document.getElementById('donut'),{type:'doughnut',data:{labels:['Passed','Failed'],datasets:[{data:[passed,failed],backgroundColor:['rgba(16,185,129,.6)','rgba(239,68,68,.6)'],borderColor:['rgba(16,185,129,.08)','rgba(239,68,68,.08)'],borderWidth:2,hoverOffset:4}]},options:{responsive:true,maintainAspectRatio:false,cutout:'78%',plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:10,weight:'500'},padding:12,boxWidth:7,boxHeight:7,usePointStyle:true,pointStyle:'circle'}},tooltip:{...tt,callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}});
+
+  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
+  /* Warning stripes for low scores */
+  const barBg=sorted.map(s=>{
+    if(s.score>=80) return 'rgba(16,185,129,.35)';
+    if(s.score>=60) return 'rgba(245,158,11,.35)';
+    return 'rgba(239,68,68,.35)';
+  });
+  const barBorder=sorted.map(s=>{
+    if(s.score>=80) return 'rgba(16,185,129,.55)';
+    if(s.score>=60) return 'rgba(245,158,11,.55)';
+    return 'rgba(239,68,68,.55)';
+  });
+  new Chart(document.getElementById('bars'),{type:'bar',
+    data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),backgroundColor:barBg,borderColor:barBorder,borderWidth:1,borderRadius:3,borderSkipped:false,barPercentage:.55,categoryPercentage:.8}]},
+    options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,
+      scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:9},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.7)',font:{family:'Inter',size:11,weight:'600'},padding:4},border:{display:false}}},
+      plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
+})();
+
+
+
+
+
+</script>
+
+<!-- Share bar -->
+<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(6,11,24,.9);backdrop-filter:blur(16px);-webkit-backdrop-filter:blur(16px);border-top:1px solid var(--border);padding:8px 24px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:11px;color:var(--text-4)">
+  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:600">EvalView</a> <span style="opacity:.25;margin:0 5px">|</span> Agent testing &amp; regression detection</span>
+  <span style="display:flex;align-items:center;gap:5px">
+    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(29,155,240,.08);color:#1d9bf0;text-decoration:none;font-weight:600;font-size:10px;border:1px solid rgba(29,155,240,.1)"><svg width="12" height="12" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
+    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(255,255,255,.03);color:var(--text-2);text-decoration:none;font-weight:600;font-size:10px;border:1px solid var(--border)"><svg width="12" height="12" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
+  </span>
+</div>
+<div style="height:40px"></div>
+
+</body>
+</html>
\ No newline at end of file
diff --git a/.evalview/latest-v6b.html b/.evalview/latest-v6b.html
new file mode 100644
index 0000000..e6e050e
--- /dev/null
+++ b/.evalview/latest-v6b.html
@@ -0,0 +1,616 @@
+<!doctype html>
+<html lang="en">
+<head>
+<meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1.0">
+<title>EvalView Check Report</title>
+<link rel="preconnect" href="https://fonts.googleapis.com">
+<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
+<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
+<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
+<style>
+*{box-sizing:border-box;margin:0;padding:0}
+:root{
+  --green:#10b981;--green-bright:#34d399;
+  --red:#ef4444;--red-bright:#f87171;
+  --yellow:#f59e0b;--yellow-bright:#fbbf24;
+  --blue:#2563eb;--blue-bright:#3b82f6;
+  --teal:#0d9488;--teal-bright:#14b8a6;
+  --cyan:#06b6d4;
+  --bg:#060b18;--bg-card:rgba(12,20,36,.75);
+  --border:rgba(51,65,85,.45);--border-light:rgba(71,85,105,.5);
+  --text:#f1f5f9;--text-2:#94a3b8;--text-3:#64748b;--text-4:#475569;
+  --r:16px;--r-sm:12px;--r-xs:8px;
+  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
+  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
+}
+html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
+body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;background:var(--bg)}
+
+/* ── Header ── */
+.header{
+  position:sticky;top:0;z-index:200;
+  background:rgba(6,11,24,.85);border-bottom:1px solid var(--border);
+  backdrop-filter:blur(20px);-webkit-backdrop-filter:blur(20px);
+  padding:0 40px;height:52px;display:flex;align-items:center;justify-content:space-between;
+}
+.logo{display:flex;align-items:center;gap:10px}
+.logo-icon{width:28px;height:28px;border-radius:7px;flex-shrink:0;background:linear-gradient(135deg,var(--blue-bright),var(--teal));display:flex;align-items:center;justify-content:center;font-size:13px;box-shadow:0 2px 10px rgba(37,99,235,.2)}
+.logo-text{font-size:14px;font-weight:700;letter-spacing:-.02em;color:var(--text)}
+.logo-sub{font-size:10px;color:var(--text-4);font-weight:400}
+.header-right{display:flex;align-items:center;gap:6px}
+
+/* ── Badges ── */
+.badge{display:inline-flex;align-items:center;gap:4px;padding:3px 10px;border-radius:20px;font-size:11px;font-weight:600;white-space:nowrap}
+.b-green{background:rgba(16,185,129,.12);color:var(--green-bright);border:1px solid rgba(16,185,129,.25)}
+.b-red{background:rgba(239,68,68,.12);color:var(--red-bright);border:1px solid rgba(239,68,68,.25)}
+.b-yellow{background:rgba(245,158,11,.12);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.25)}
+.b-blue{background:rgba(37,99,235,.12);color:var(--blue-bright);border:1px solid rgba(37,99,235,.25)}
+.b-purple{background:rgba(13,148,136,.12);color:var(--teal-bright);border:1px solid rgba(13,148,136,.25)}
+
+/* ── Layout ── */
+.main{max-width:1160px;margin:0 auto;padding:28px 36px 80px;position:relative;z-index:1}
+
+/* ── Tabs ── */
+.tabbar{display:flex;gap:0;background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:3px;margin-bottom:28px}
+.tab{flex:1;text-align:center;background:none;border:none;color:var(--text-4);cursor:pointer;font:600 12px/1 var(--font);padding:10px 12px;border-radius:9px;transition:all .15s}
+.tab:hover{color:var(--text-2);background:rgba(255,255,255,.03)}
+.tab.on{color:#fff;background:rgba(37,99,235,.18);border:1px solid rgba(37,99,235,.3)}
+.panel{display:none}.panel.on{display:block}
+
+/* ══════════════════════════════════════════════
+   HERO ROW — gauge + stats, all above the fold
+   ══════════════════════════════════════════════ */
+.hero-row{
+  display:grid;grid-template-columns:auto 1fr;gap:0;
+  background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);
+  overflow:hidden;margin-bottom:20px;
+}
+@media(max-width:800px){.hero-row{grid-template-columns:1fr}}
+/* Gauge cell */
+.gauge-cell{
+  padding:24px 32px;display:flex;flex-direction:column;align-items:center;justify-content:center;
+  position:relative;border-right:1px solid var(--border);
+}
+.gauge-cell::before{
+  content:'';position:absolute;top:50%;left:50%;transform:translate(-50%,-50%);
+  width:200px;height:200px;border-radius:50%;pointer-events:none;filter:blur(60px);opacity:.5;
+}
+.gauge-cell.glow-green::before{background:rgba(16,185,129,.12)}
+.gauge-cell.glow-red::before{background:rgba(239,68,68,.12)}
+.gauge-cell.glow-yellow::before{background:rgba(245,158,11,.1)}
+.gauge-wrap{position:relative;width:160px;height:160px}
+.gauge-wrap svg{display:block}
+.gauge-center{position:absolute;inset:0;display:flex;flex-direction:column;align-items:center;justify-content:center}
+.gauge-pct{font-size:40px;font-weight:900;letter-spacing:-.05em;line-height:1}
+.gauge-pct.green{color:var(--green-bright)}
+.gauge-pct.red{color:var(--red-bright)}
+.gauge-pct.yellow{color:var(--yellow-bright)}
+.gauge-label{font-size:9px;font-weight:700;color:var(--text-3);margin-top:3px;text-transform:uppercase;letter-spacing:.08em}
+.gauge-sub{font-size:12px;color:var(--text-3);margin-top:10px;font-weight:500;text-align:center}
+.gauge-sub b{color:var(--text);font-weight:700}
+.gauge-fill{transition:stroke-dasharray 1.2s cubic-bezier(.4,0,.2,1);stroke-dasharray:0 999}
+/* Stats grid — right side */
+.stats-grid{display:grid;grid-template-columns:1fr 1fr;grid-template-rows:1fr 1fr}
+.stats-grid .ss{padding:16px 20px;border-bottom:1px solid var(--border)}
+.stats-grid .ss:nth-child(odd){border-right:1px solid var(--border)}
+.stats-grid .ss:nth-child(n+3){border-bottom:none}
+.ss-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:6px}
+.ss-num{font-size:22px;font-weight:800;letter-spacing:-.03em;line-height:1;color:var(--text)}
+.ss-num.blue{color:var(--blue-bright)}
+.ss-sub{font-size:11px;color:var(--text-4);margin-top:4px;font-weight:500;line-height:1.3}
+
+/* ── Card ── */
+.card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);padding:20px 22px;margin-bottom:14px;position:relative;overflow:hidden}
+.card-title{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:14px;display:flex;align-items:center;gap:7px}
+.card-title::before{content:'';width:3px;height:11px;border-radius:2px;background:var(--blue-bright)}
+.chart-wrap{position:relative}
+
+/* ── Meta row ── */
+.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-bottom:14px}
+@media(max-width:800px){.meta-row{grid-template-columns:1fr}}
+.meta-card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:14px 18px}
+.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:5px}
+.meta-value{font-size:14px;font-weight:700;color:var(--text)}
+.meta-sub{font-size:11px;color:var(--text-4);margin-top:3px}
+
+/* ── Chart row ── */
+.chart-row{display:grid;grid-template-columns:1fr 200px;gap:12px;margin-bottom:14px}
+@media(max-width:800px){.chart-row{grid-template-columns:1fr}}
+
+/* ── Trace items ── */
+.item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden;transition:border-color .15s}
+.item:hover{border-color:var(--border-light)}
+.item-head{padding:12px 18px;display:flex;align-items:center;gap:10px;cursor:pointer;transition:background .1s}
+.item-head:hover{background:rgba(255,255,255,.015)}
+.item-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
+.item-meta{display:flex;align-items:center;gap:5px;flex-shrink:0;flex-wrap:wrap}
+.mc{display:inline-flex;align-items:center;gap:3px;padding:2px 7px;border-radius:4px;background:rgba(255,255,255,.035);font-size:10px;font-weight:500;color:var(--text-3);white-space:nowrap}
+.chevron{color:var(--text-4);font-size:10px;transition:transform .2s;flex-shrink:0}
+details[open] .turn-chevron{transform:rotate(90deg)}
+.item-body{padding:18px;border-top:1px solid var(--border);background:rgba(0,0,0,.12)}
+.mermaid-box{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-sm);padding:24px 18px;overflow-x:auto;min-height:180px}
+.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
+.mermaid-box .mermaid{min-width:560px}
+
+/* ── Chat turns ── */
+.chat-container{margin-top:16px;padding:14px;background:rgba(0,0,0,.1);border:1px solid rgba(51,65,85,.25);border-radius:var(--r-sm)}
+.chat-header{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:12px;padding-bottom:8px;border-bottom:1px solid rgba(51,65,85,.25)}
+.chat-messages{display:flex;flex-direction:column;gap:3px}
+.chat-bubble{max-width:78%;padding:9px 13px;font-size:13px;line-height:1.5;border-radius:12px}
+.chat-bubble.user{align-self:flex-end;background:rgba(37,99,235,.1);border:1px solid rgba(37,99,235,.18);color:var(--text);border-bottom-right-radius:3px}
+.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.025);border:1px solid rgba(51,65,85,.35);color:var(--text-2);border-bottom-left-radius:3px}
+.chat-meta{display:flex;align-items:center;gap:6px;padding:4px 2px;font-size:10px;color:var(--text-4);font-weight:500}
+.chat-meta.right{justify-content:flex-end}
+.chat-tool-tag{display:inline-flex;padding:1px 6px;border-radius:3px;background:rgba(37,99,235,.07);border:1px solid rgba(37,99,235,.12);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
+.chat-eval{padding:5px 9px;border-radius:6px;font-size:11px;font-weight:600;max-width:78%}
+.chat-eval.pass{align-self:flex-start;background:rgba(16,185,129,.07);border:1px solid rgba(16,185,129,.18);color:var(--green-bright)}
+.chat-eval.fail{align-self:flex-start;background:rgba(239,68,68,.07);border:1px solid rgba(239,68,68,.18);color:var(--red-bright)}
+
+/* ── Diffs ── */
+.diff-item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden}
+.diff-head{padding:12px 18px;display:flex;align-items:center;gap:8px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
+.diff-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
+.diff-cols{display:grid;grid-template-columns:1fr 1fr}
+.diff-col{padding:14px 18px}
+.diff-col+.diff-col{border-left:1px solid var(--border)}
+.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;margin-bottom:7px}
+.tags{display:flex;flex-wrap:wrap;gap:3px;margin-bottom:7px}
+.tag{background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);border-radius:4px;padding:2px 7px;font-size:11px;font-family:var(--mono);font-weight:500}
+.tag.add{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
+.tag.rem{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
+.outbox{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:10px;font:12px/1.6 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:180px;overflow-y:auto}
+.difflines{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:8px;font:11px/1.6 var(--mono);max-height:180px;overflow-y:auto;margin-top:7px}
+.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
+.difflines .r{color:var(--red-bright);background:rgba(239,68,68,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
+.sim{display:inline-flex;align-items:center;gap:4px;font-size:11px;color:var(--text-3)}
+.sim-track{width:40px;height:3px;background:rgba(255,255,255,.06);border-radius:2px;overflow:hidden;display:inline-block;vertical-align:middle}
+.sim-fill{height:100%;border-radius:2px}
+.sim-fill.hi{background:var(--green)}.sim-fill.mid{background:var(--yellow)}.sim-fill.lo{background:var(--red)}
+.pipeline{display:flex;flex-direction:column;gap:5px;padding:12px 18px;border-top:1px solid var(--border)}
+.pipeline-row{display:flex;align-items:center;gap:3px;flex-wrap:wrap}
+.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;width:60px;flex-shrink:0}
+.pipe-step{display:inline-flex;padding:3px 9px;border-radius:4px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);color:var(--text-2);position:relative}
+.pipe-step+.pipe-step{margin-left:5px}
+.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-12px;color:var(--text-4);font-size:9px;font-family:var(--font)}
+.pipe-step.match{border-color:rgba(37,99,235,.2);background:rgba(37,99,235,.04)}
+.pipe-step.added{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
+.pipe-step.removed{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
+.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:10px;margin-top:12px;padding-top:12px;border-top:1px solid var(--border)}
+.traj-col .col-title{padding-bottom:6px}
+
+/* ── Tables ── */
+.ev-table{width:100%;border-collapse:collapse;font-size:13px}
+.ev-table th{text-align:left;padding:7px 10px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
+.ev-table td{padding:9px 10px;border-bottom:1px solid rgba(51,65,85,.25)}
+.ev-table tr:hover td{background:rgba(255,255,255,.012)}
+.ev-table .mono{font-family:var(--mono);font-size:12px}
+.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
+.param-table{width:100%;border-collapse:collapse;font-size:12px}
+.param-table th{text-align:left;padding:5px 9px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
+.param-table td{padding:5px 9px;border-bottom:1px solid rgba(51,65,85,.25)}
+table td,table th{transition:background .1s}
+.empty{text-align:center;padding:64px 40px;color:var(--text-4)}
+.empty-icon{font-size:32px;margin-bottom:10px;display:block;opacity:.25}
+.empty code{background:rgba(255,255,255,.05);padding:2px 7px;border-radius:4px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
+::-webkit-scrollbar{width:4px;height:4px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.07);border-radius:3px}
+</style>
+</head>
+<body>
+
+<header class="header">
+  <div class="logo">
+    <div class="logo-icon">◈</div>
+    <div><div class="logo-text">EvalView Check Report</div><div class="logo-sub">2026-03-18 09:34</div></div>
+  </div>
+  <div class="header-right">
+    <span class="badge b-red">✗ 1 Failed</span><span class="badge b-blue">5 Tests</span>
+  </div>
+</header>
+
+<main class="main">
+  <div class="tabbar">
+    <button class="tab on" onclick="show('overview',this)">Overview</button>
+    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
+    <button class="tab " onclick="show('diffs',this)">Diffs</button>
+    <button class="tab " onclick="show('timeline',this)">Timeline</button>
+    
+  </div>
+
+  <!-- ═══════════ OVERVIEW ═══════════ -->
+  <div id="p-overview" class="panel on">
+    
+
+    <!-- HERO: Gauge + Stats in one row -->
+    <div class="hero-row">
+      <div class="gauge-cell glow-green">
+        <div class="gauge-wrap">
+          <svg width="160" height="160" viewBox="0 0 160 160">
+            <circle cx="80" cy="80" r="68" fill="none" stroke="rgba(255,255,255,.04)" stroke-width="9"/>
+            <circle class="gauge-fill" cx="80" cy="80" r="68" fill="none"
+              stroke="var(--green)"
+              stroke-width="9" stroke-linecap="round"
+              data-target="342.0"
+              style="stroke-dasharray:0 427;filter:drop-shadow(0 0 6px rgba(16,185,129,.35))"/>
+          </svg>
+          <div class="gauge-center">
+            <div class="gauge-pct green">80.0%</div>
+            <div class="gauge-label">Pass Rate</div>
+          </div>
+        </div>
+        <div class="gauge-sub"><b>4</b> of <b>5</b> tests</div>
+      </div>
+      <div class="stats-grid">
+        <div class="ss">
+          <div class="ss-label">Avg Score</div>
+          <div class="ss-num" style="color:var(--yellow-bright)">79.7</div>
+          <div class="ss-sub">out of 100</div>
+        </div>
+        <div class="ss">
+          <div class="ss-label">Total Cost</div>
+          <div class="ss-num blue">$0.017</div>
+          <div class="ss-sub">2,835 tokens (verified)</div>
+        </div>
+        <div class="ss">
+          <div class="ss-label">Avg Latency</div>
+          <div class="ss-num">1360<span style="font-size:12px;color:var(--text-4);font-weight:500">ms</span></div>
+          <div class="ss-sub">per test</div>
+        </div>
+        <div class="ss">
+          <div class="ss-label">Model</div>
+          <div style="font-size:13px;font-weight:600;color:var(--text);margin-top:2px;line-height:1.3">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
+          
+          <div style="margin-top:4px;font-size:10px;color:var(--text-4);font-family:var(--mono)">in 2,170 · out 665</div>
+          
+        </div>
+      </div>
+    </div>
+
+    <!-- Meta cards -->
+    <div class="meta-row">
+      <div class="meta-card">
+        <div class="meta-label">Agent Model</div>
+        <div class="meta-value">openai/gpt-4o-mini, openai/claude-3.5-sonnet</div>
+        <div class="meta-sub">5 tests in this run</div>
+      </div>
+      
+      <div class="meta-card">
+        <div class="meta-label">Token Usage</div>
+        <div class="meta-value">2,835 tokens</div>
+        <div class="meta-sub">in 2,170 / out 665</div>
+      </div>
+      
+    </div>
+    
+    
+    <div class="meta-row">
+      <div class="meta-card">
+        <div class="meta-label">EvalView Judge (gpt-4o-mini)</div>
+        <div class="meta-value">$0.006</div>
+        <div class="meta-sub">1,320 tokens across 5 judge calls</div>
+      </div>
+      <div class="meta-card">
+        <div class="meta-label">Judge Token Breakdown</div>
+        <div class="meta-value">in 1,100 / out 220</div>
+        <div class="meta-sub">Separate from agent trace cost</div>
+      </div>
+    </div>
+    
+
+    <!-- Score chart + donut -->
+    <div class="chart-row">
+      <div class="card">
+        <div class="card-title">Score per Test</div>
+        <div class="chart-wrap" style="height:224px"><canvas id="bars"></canvas></div>
+      </div>
+      <div class="card">
+        <div class="card-title">Distribution</div>
+        <div class="chart-wrap" style="height:180px"><canvas id="donut"></canvas></div>
+      </div>
+    </div>
+
+    <!-- Cost table -->
+    <div class="card">
+      <div class="card-title">Execution Cost per Query</div>
+      <table class="ev-table">
+        
+        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Tokens</th><th>Latency</th><th>Score</th></tr></thead>
+        <tbody>
+          <tr>
+            <td style="font-weight:600">refund-flow</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0034</td>
+            <td class="mono" style="color:var(--text-3)">570 tokens</td>
+            <td style="color:var(--text-3)">1200ms</td>
+            <td class="num" style="color:var(--green-bright)">92.5</td>
+          </tr><tr>
+            <td style="font-weight:600">order-lookup</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0021</td>
+            <td class="mono" style="color:var(--text-3)">415 tokens</td>
+            <td style="color:var(--text-3)">800ms</td>
+            <td class="num" style="color:var(--green-bright)">88.0</td>
+          </tr><tr>
+            <td style="font-weight:600">billing-dispute</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0058</td>
+            <td class="mono" style="color:var(--text-3)">890 tokens</td>
+            <td style="color:var(--text-3)">2400ms</td>
+            <td class="num" style="color:var(--red-bright)">45.0</td>
+          </tr><tr>
+            <td style="font-weight:600">password-reset</td>
+            <td class="mono" style="color:var(--text-4)">openai/gpt-4o-mini</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0012</td>
+            <td class="mono" style="color:var(--text-3)">260 tokens</td>
+            <td style="color:var(--text-3)">600ms</td>
+            <td class="num" style="color:var(--green-bright)">95.0</td>
+          </tr><tr>
+            <td style="font-weight:600">vip-escalation</td>
+            <td class="mono" style="color:var(--text-4)">openai/claude-3.5-sonnet</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0045</td>
+            <td class="mono" style="color:var(--text-3)">700 tokens</td>
+            <td style="color:var(--text-3)">1800ms</td>
+            <td class="num" style="color:var(--yellow-bright)">78.0</td>
+          </tr>
+          <tr style="background:rgba(0,0,0,.08)">
+            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.017</td>
+            <td colspan="3" style="font-size:11px;color:var(--text-4)">avg $0.003400 per query</td>
+          </tr>
+        </tbody>
+      </table>
+      <div style="margin-top:10px;font-size:11px;color:var(--text-4);line-height:1.5">
+        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.04);padding:2px 6px;border-radius:3px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
+         This check also used 5 EvalView judge calls (1320 tokens).
+      </div>
+    </div>
+    
+  </div>
+
+  <!-- ═══════════ TRACE ═══════════ -->
+  <div id="p-trace" class="panel ">
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr1',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">refund-flow</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--green-bright)">92.5/100</span>
+            <span class="mc">💰 $0.0034</span>
+            <span class="mc">⚡ 1200ms</span>
+            <span class="mc">570 tokens</span>
+            <span class="mc">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr1" class="item-body" >
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 450 / out 120 tokens</span><span class="badge b-blue">$0.0034</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Process refund
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Done.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr2',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">order-lookup</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--green-bright)">88.0/100</span>
+            <span class="mc">💰 $0.0021</span>
+            <span class="mc">⚡ 800ms</span>
+            <span class="mc">415 tokens</span>
+            <span class="mc">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr2" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 320 / out 95 tokens</span><span class="badge b-blue">$0.0021</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Order status
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Shipped.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr3',this)">
+          <span class="badge b-red">✗</span>
+          <span class="item-name">billing-dispute</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--red-bright)">45.0/100</span>
+            <span class="mc">💰 $0.0058</span>
+            <span class="mc">⚡ 2400ms</span>
+            <span class="mc">890 tokens</span>
+            <span class="mc">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr3" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 680 / out 210 tokens</span><span class="badge b-blue">$0.0058</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Dispute
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Not found.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr4',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">password-reset</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--green-bright)">95.0/100</span>
+            <span class="mc">💰 $0.0012</span>
+            <span class="mc">⚡ 600ms</span>
+            <span class="mc">260 tokens</span>
+            <span class="mc">🧠 openai/gpt-4o-mini</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr4" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/gpt-4o-mini</span>
+            <span class="badge b-blue">in 200 / out 60 tokens</span><span class="badge b-blue">$0.0012</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Reset pw
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Sent.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr5',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">vip-escalation</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--yellow-bright)">78.0/100</span>
+            <span class="mc">💰 $0.0045</span>
+            <span class="mc">⚡ 1800ms</span>
+            <span class="mc">700 tokens</span>
+            <span class="mc">🧠 openai/claude-3.5-sonnet</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr5" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: openai/claude-3.5-sonnet</span>
+            <span class="badge b-blue">in 520 / out 180 tokens</span><span class="badge b-blue">$0.0045</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>VIP
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Escalated.
+          </div>
+        </div>
+      </div>
+    
+  </div>
+
+  <!-- ═══════════ DIFFS ═══════════ -->
+  <div id="p-diffs" class="panel ">
+    <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
+  </div>
+
+  <!-- ═══════════ TIMELINE ═══════════ -->
+  <div id="p-timeline" class="panel ">
+    <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
+  </div>
+
+  <!-- ═══════════ COMPARE ═══════════ -->
+  
+</main>
+
+<script>
+mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
+  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(37,99,235,.1)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(37,99,235,.25)',lineColor:'rgba(100,116,139,.3)',secondaryColor:'rgba(16,185,129,.06)',tertiaryColor:'rgba(6,182,212,.06)',noteBkgColor:'rgba(37,99,235,.05)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(37,99,235,.15)',actorBkg:'rgba(37,99,235,.08)',actorBorder:'rgba(37,99,235,.2)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
+  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:12,messageFontSize:11,noteFontSize:10,boxTextMargin:8,mirrorActors:false,messageAlign:'center',actorMargin:30,bottomMarginAdj:4}
+});
+function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
+function tog(id,head){const el=document.getElementById(id);const o=el.style.display!=='none';el.style.display=o?'none':'block';head.querySelector('.chevron').style.transform=o?'':'rotate(180deg)'}
+
+/* Animate the gauge on load */
+requestAnimationFrame(()=>{setTimeout(()=>{document.querySelectorAll('.gauge-fill').forEach(c=>{const t=c.dataset.target||0;c.style.strokeDasharray=t+' 427'})},100)});
+
+
+(function(){
+  const passed=4,failed=1;
+  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
+  const tc='rgba(100,116,139,.6)',gc='rgba(255,255,255,.025)';
+  const tt={backgroundColor:'rgba(6,11,24,.95)',borderColor:'rgba(51,65,85,.5)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:11},bodyFont:{family:'Inter',size:11},padding:8,cornerRadius:6};
+
+  new Chart(document.getElementById('donut'),{type:'doughnut',data:{labels:['Passed','Failed'],datasets:[{data:[passed,failed],backgroundColor:['rgba(16,185,129,.6)','rgba(239,68,68,.6)'],borderColor:['rgba(16,185,129,.08)','rgba(239,68,68,.08)'],borderWidth:2,hoverOffset:4}]},options:{responsive:true,maintainAspectRatio:false,cutout:'78%',plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:10,weight:'500'},padding:12,boxWidth:7,boxHeight:7,usePointStyle:true,pointStyle:'circle'}},tooltip:{...tt,callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}});
+
+  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
+  /* Warning stripes for low scores */
+  const barBg=sorted.map(s=>{
+    if(s.score>=80) return 'rgba(16,185,129,.35)';
+    if(s.score>=60) return 'rgba(245,158,11,.35)';
+    return 'rgba(239,68,68,.35)';
+  });
+  const barBorder=sorted.map(s=>{
+    if(s.score>=80) return 'rgba(16,185,129,.55)';
+    if(s.score>=60) return 'rgba(245,158,11,.55)';
+    return 'rgba(239,68,68,.55)';
+  });
+  new Chart(document.getElementById('bars'),{type:'bar',
+    data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),backgroundColor:barBg,borderColor:barBorder,borderWidth:1,borderRadius:3,borderSkipped:false,barPercentage:.55,categoryPercentage:.8}]},
+    options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,
+      scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:9},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.7)',font:{family:'Inter',size:11,weight:'600'},padding:4,mirror:false},border:{display:false},afterFit:function(axis){axis.width=120}}},
+      plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
+})();
+
+
+
+
+
+</script>
+
+<!-- Share bar -->
+<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(6,11,24,.9);backdrop-filter:blur(16px);-webkit-backdrop-filter:blur(16px);border-top:1px solid var(--border);padding:8px 24px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:11px;color:var(--text-4)">
+  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:600">EvalView</a> <span style="opacity:.25;margin:0 5px">|</span> Agent testing &amp; regression detection</span>
+  <span style="display:flex;align-items:center;gap:5px">
+    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(29,155,240,.08);color:#1d9bf0;text-decoration:none;font-weight:600;font-size:10px;border:1px solid rgba(29,155,240,.1)"><svg width="12" height="12" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
+    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(255,255,255,.03);color:var(--text-2);text-decoration:none;font-weight:600;font-size:10px;border:1px solid var(--border)"><svg width="12" height="12" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
+  </span>
+</div>
+<div style="height:40px"></div>
+
+</body>
+</html>
\ No newline at end of file
diff --git a/.evalview/latest-v6c.html b/.evalview/latest-v6c.html
new file mode 100644
index 0000000..5caff22
--- /dev/null
+++ b/.evalview/latest-v6c.html
@@ -0,0 +1,603 @@
+<!doctype html>
+<html lang="en">
+<head>
+<meta charset="UTF-8">
+<meta name="viewport" content="width=device-width, initial-scale=1.0">
+<title>EvalView Check Report</title>
+<link rel="preconnect" href="https://fonts.googleapis.com">
+<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+<link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;500;600;700;800;900&family=JetBrains+Mono:wght@400;500;600&display=swap" rel="stylesheet">
+<script src="https://cdn.jsdelivr.net/npm/mermaid@10/dist/mermaid.min.js"></script>
+<script src="https://cdn.jsdelivr.net/npm/chart.js@4/dist/chart.umd.min.js"></script>
+<style>
+*{box-sizing:border-box;margin:0;padding:0}
+:root{
+  --green:#10b981;--green-bright:#34d399;
+  --red:#ef4444;--red-bright:#f87171;
+  --yellow:#f59e0b;--yellow-bright:#fbbf24;
+  --blue:#2563eb;--blue-bright:#3b82f6;
+  --teal:#0d9488;--teal-bright:#14b8a6;
+  --cyan:#06b6d4;
+  --bg:#060b18;--bg-card:rgba(12,20,36,.75);
+  --border:rgba(51,65,85,.45);--border-light:rgba(71,85,105,.5);
+  --text:#f1f5f9;--text-2:#94a3b8;--text-3:#64748b;--text-4:#475569;
+  --r:16px;--r-sm:12px;--r-xs:8px;
+  --font:'Inter',-apple-system,BlinkMacSystemFont,'Segoe UI',sans-serif;
+  --mono:'JetBrains Mono','Fira Code','SF Mono',monospace;
+}
+html{scroll-behavior:smooth;-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale}
+body{font-family:var(--font);font-size:14px;line-height:1.6;color:var(--text);min-height:100vh;overflow-x:hidden;background:var(--bg)}
+
+/* ── Header ── */
+.header{
+  position:sticky;top:0;z-index:200;
+  background:rgba(6,11,24,.85);border-bottom:1px solid var(--border);
+  backdrop-filter:blur(20px);-webkit-backdrop-filter:blur(20px);
+  padding:0 40px;height:52px;display:flex;align-items:center;justify-content:space-between;
+}
+.logo{display:flex;align-items:center;gap:10px}
+.logo-icon{width:28px;height:28px;border-radius:7px;flex-shrink:0;background:linear-gradient(135deg,var(--blue-bright),var(--teal));display:flex;align-items:center;justify-content:center;font-size:13px;box-shadow:0 2px 10px rgba(37,99,235,.2)}
+.logo-text{font-size:14px;font-weight:700;letter-spacing:-.02em;color:var(--text)}
+.logo-sub{font-size:10px;color:var(--text-4);font-weight:400}
+.header-right{display:flex;align-items:center;gap:6px}
+
+/* ── Badges ── */
+.badge{display:inline-flex;align-items:center;gap:4px;padding:3px 10px;border-radius:20px;font-size:11px;font-weight:600;white-space:nowrap}
+.b-green{background:rgba(16,185,129,.12);color:var(--green-bright);border:1px solid rgba(16,185,129,.25)}
+.b-red{background:rgba(239,68,68,.12);color:var(--red-bright);border:1px solid rgba(239,68,68,.25)}
+.b-yellow{background:rgba(245,158,11,.12);color:var(--yellow-bright);border:1px solid rgba(245,158,11,.25)}
+.b-blue{background:rgba(37,99,235,.12);color:var(--blue-bright);border:1px solid rgba(37,99,235,.25)}
+.b-purple{background:rgba(13,148,136,.12);color:var(--teal-bright);border:1px solid rgba(13,148,136,.25)}
+
+/* ── Layout ── */
+.main{max-width:1160px;margin:0 auto;padding:28px 36px 80px;position:relative;z-index:1}
+
+/* ── Tabs ── */
+.tabbar{display:flex;gap:0;background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:3px;margin-bottom:28px}
+.tab{flex:1;text-align:center;background:none;border:none;color:var(--text-4);cursor:pointer;font:600 12px/1 var(--font);padding:10px 12px;border-radius:9px;transition:all .15s}
+.tab:hover{color:var(--text-2);background:rgba(255,255,255,.03)}
+.tab.on{color:#fff;background:rgba(37,99,235,.18);border:1px solid rgba(37,99,235,.3)}
+.panel{display:none}.panel.on{display:block}
+
+/* ══════════════════════════════════════════════
+   HERO ROW — gauge + stats, all above the fold
+   ══════════════════════════════════════════════ */
+.hero-row{
+  display:grid;grid-template-columns:auto 1fr;gap:0;
+  background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);
+  overflow:hidden;margin-bottom:20px;
+}
+@media(max-width:800px){.hero-row{grid-template-columns:1fr}}
+/* Gauge cell */
+.gauge-cell{
+  padding:24px 32px;display:flex;flex-direction:column;align-items:center;justify-content:center;
+  position:relative;border-right:1px solid var(--border);
+}
+.gauge-cell::before{
+  content:'';position:absolute;top:50%;left:50%;transform:translate(-50%,-50%);
+  width:200px;height:200px;border-radius:50%;pointer-events:none;filter:blur(60px);opacity:.5;
+}
+.gauge-cell.glow-green::before{background:rgba(16,185,129,.12)}
+.gauge-cell.glow-red::before{background:rgba(239,68,68,.12)}
+.gauge-cell.glow-yellow::before{background:rgba(245,158,11,.1)}
+.gauge-wrap{position:relative;width:180px;height:180px}
+.gauge-wrap svg{display:block}
+.gauge-center{position:absolute;inset:0;display:flex;flex-direction:column;align-items:center;justify-content:center}
+.gauge-pct{font-size:44px;font-weight:900;letter-spacing:-.05em;line-height:1}
+.gauge-pct.green{color:var(--green-bright)}
+.gauge-pct.red{color:var(--red-bright)}
+.gauge-pct.yellow{color:var(--yellow-bright)}
+.gauge-label{font-size:9px;font-weight:700;color:var(--text-3);margin-top:3px;text-transform:uppercase;letter-spacing:.08em}
+.gauge-sub{font-size:12px;color:var(--text-3);margin-top:10px;font-weight:500;text-align:center}
+.gauge-sub b{color:var(--text);font-weight:700}
+.gauge-fill{transition:stroke-dasharray 1.2s cubic-bezier(.4,0,.2,1);stroke-dasharray:0 999}
+/* Stats grid — right side */
+.stats-grid{display:grid;grid-template-columns:1fr 1fr;grid-template-rows:1fr 1fr}
+.stats-grid .ss{padding:16px 20px;border-bottom:1px solid var(--border)}
+.stats-grid .ss:nth-child(odd){border-right:1px solid var(--border)}
+.stats-grid .ss:nth-child(n+3){border-bottom:none}
+.ss-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:6px}
+.ss-num{font-size:22px;font-weight:800;letter-spacing:-.03em;line-height:1;color:var(--text)}
+.ss-num.blue{color:var(--blue-bright)}
+.ss-sub{font-size:11px;color:var(--text-4);margin-top:4px;font-weight:500;line-height:1.3}
+
+/* ── Card ── */
+.card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);padding:20px 22px;margin-bottom:14px;position:relative;overflow:hidden}
+.card-title{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:14px;display:flex;align-items:center;gap:7px}
+.card-title::before{content:'';width:3px;height:11px;border-radius:2px;background:var(--blue-bright)}
+.chart-wrap{position:relative}
+
+/* ── Meta row ── */
+.meta-row{display:grid;grid-template-columns:1fr 1fr;gap:12px;margin-bottom:14px}
+@media(max-width:800px){.meta-row{grid-template-columns:1fr}}
+.meta-card{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r-sm);padding:14px 18px}
+.meta-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.08em;margin-bottom:5px}
+.meta-value{font-size:14px;font-weight:700;color:var(--text)}
+.meta-sub{font-size:11px;color:var(--text-4);margin-top:3px}
+
+/* ── Chart row ── */
+.chart-row{display:grid;grid-template-columns:1fr 200px;gap:12px;margin-bottom:14px}
+@media(max-width:800px){.chart-row{grid-template-columns:1fr}}
+
+/* ── Trace items ── */
+.item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden;transition:border-color .15s}
+.item:hover{border-color:var(--border-light)}
+.item-head{padding:12px 18px;display:flex;align-items:center;gap:10px;cursor:pointer;transition:background .1s}
+.item-head:hover{background:rgba(255,255,255,.015)}
+.item-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
+.item-meta{display:flex;align-items:center;gap:5px;flex-shrink:0;flex-wrap:wrap}
+.mc{display:inline-flex;align-items:center;gap:3px;padding:2px 7px;border-radius:4px;background:rgba(255,255,255,.035);font-size:10px;font-weight:500;color:var(--text-3);white-space:nowrap}
+.chevron{color:var(--text-4);font-size:10px;transition:transform .2s;flex-shrink:0}
+details[open] .turn-chevron{transform:rotate(90deg)}
+.item-body{padding:18px;border-top:1px solid var(--border);background:rgba(0,0,0,.12)}
+.mermaid-box{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-sm);padding:24px 18px;overflow-x:auto;min-height:180px}
+.mermaid-box svg{min-width:560px;max-width:100%;height:auto;display:block;margin:0 auto}
+.mermaid-box .mermaid{min-width:560px}
+
+/* ── Chat turns ── */
+.chat-container{margin-top:16px;padding:14px;background:rgba(0,0,0,.1);border:1px solid rgba(51,65,85,.25);border-radius:var(--r-sm)}
+.chat-header{font-size:11px;font-weight:700;color:var(--text-3);text-transform:uppercase;letter-spacing:.06em;margin-bottom:12px;padding-bottom:8px;border-bottom:1px solid rgba(51,65,85,.25)}
+.chat-messages{display:flex;flex-direction:column;gap:3px}
+.chat-bubble{max-width:78%;padding:9px 13px;font-size:13px;line-height:1.5;border-radius:12px}
+.chat-bubble.user{align-self:flex-end;background:rgba(37,99,235,.1);border:1px solid rgba(37,99,235,.18);color:var(--text);border-bottom-right-radius:3px}
+.chat-bubble.agent{align-self:flex-start;background:rgba(255,255,255,.025);border:1px solid rgba(51,65,85,.35);color:var(--text-2);border-bottom-left-radius:3px}
+.chat-meta{display:flex;align-items:center;gap:6px;padding:4px 2px;font-size:10px;color:var(--text-4);font-weight:500}
+.chat-meta.right{justify-content:flex-end}
+.chat-tool-tag{display:inline-flex;padding:1px 6px;border-radius:3px;background:rgba(37,99,235,.07);border:1px solid rgba(37,99,235,.12);font-size:10px;font-weight:600;color:var(--blue-bright);font-family:var(--mono)}
+.chat-eval{padding:5px 9px;border-radius:6px;font-size:11px;font-weight:600;max-width:78%}
+.chat-eval.pass{align-self:flex-start;background:rgba(16,185,129,.07);border:1px solid rgba(16,185,129,.18);color:var(--green-bright)}
+.chat-eval.fail{align-self:flex-start;background:rgba(239,68,68,.07);border:1px solid rgba(239,68,68,.18);color:var(--red-bright)}
+
+/* ── Diffs ── */
+.diff-item{background:var(--bg-card);border:1px solid var(--border);border-radius:var(--r);margin-bottom:8px;overflow:hidden}
+.diff-head{padding:12px 18px;display:flex;align-items:center;gap:8px;flex-wrap:wrap;border-bottom:1px solid var(--border)}
+.diff-name{font-weight:700;font-size:14px;flex:1;letter-spacing:-.02em}
+.diff-cols{display:grid;grid-template-columns:1fr 1fr}
+.diff-col{padding:14px 18px}
+.diff-col+.diff-col{border-left:1px solid var(--border)}
+.col-title{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;margin-bottom:7px}
+.tags{display:flex;flex-wrap:wrap;gap:3px;margin-bottom:7px}
+.tag{background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);border-radius:4px;padding:2px 7px;font-size:11px;font-family:var(--mono);font-weight:500}
+.tag.add{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
+.tag.rem{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
+.outbox{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:10px;font:12px/1.6 var(--mono);color:var(--text-3);white-space:pre-wrap;word-break:break-all;max-height:180px;overflow-y:auto}
+.difflines{background:rgba(0,0,0,.18);border:1px solid rgba(51,65,85,.35);border-radius:var(--r-xs);padding:8px;font:11px/1.6 var(--mono);max-height:180px;overflow-y:auto;margin-top:7px}
+.difflines .a{color:var(--green-bright);background:rgba(16,185,129,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
+.difflines .r{color:var(--red-bright);background:rgba(239,68,68,.04);display:block;padding:1px 4px;margin:0 -4px;border-radius:2px}
+.sim{display:inline-flex;align-items:center;gap:4px;font-size:11px;color:var(--text-3)}
+.sim-track{width:40px;height:3px;background:rgba(255,255,255,.06);border-radius:2px;overflow:hidden;display:inline-block;vertical-align:middle}
+.sim-fill{height:100%;border-radius:2px}
+.sim-fill.hi{background:var(--green)}.sim-fill.mid{background:var(--yellow)}.sim-fill.lo{background:var(--red)}
+.pipeline{display:flex;flex-direction:column;gap:5px;padding:12px 18px;border-top:1px solid var(--border)}
+.pipeline-row{display:flex;align-items:center;gap:3px;flex-wrap:wrap}
+.pipeline-label{font-size:10px;font-weight:700;color:var(--text-4);text-transform:uppercase;letter-spacing:.06em;width:60px;flex-shrink:0}
+.pipe-step{display:inline-flex;padding:3px 9px;border-radius:4px;font-size:11px;font-family:var(--mono);font-weight:600;background:rgba(255,255,255,.035);border:1px solid rgba(51,65,85,.45);color:var(--text-2);position:relative}
+.pipe-step+.pipe-step{margin-left:5px}
+.pipe-step+.pipe-step::before{content:'→';position:absolute;left:-12px;color:var(--text-4);font-size:9px;font-family:var(--font)}
+.pipe-step.match{border-color:rgba(37,99,235,.2);background:rgba(37,99,235,.04)}
+.pipe-step.added{border-color:rgba(16,185,129,.25);color:var(--green-bright);background:rgba(16,185,129,.05)}
+.pipe-step.removed{border-color:rgba(239,68,68,.25);color:var(--red-bright);background:rgba(239,68,68,.05);text-decoration:line-through}
+.traj-grid{display:grid;grid-template-columns:1fr 1fr;gap:10px;margin-top:12px;padding-top:12px;border-top:1px solid var(--border)}
+.traj-col .col-title{padding-bottom:6px}
+
+/* ── Tables ── */
+.ev-table{width:100%;border-collapse:collapse;font-size:13px}
+.ev-table th{text-align:left;padding:7px 10px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
+.ev-table td{padding:9px 10px;border-bottom:1px solid rgba(51,65,85,.25)}
+.ev-table tr:hover td{background:rgba(255,255,255,.012)}
+.ev-table .mono{font-family:var(--mono);font-size:12px}
+.ev-table .num{font-weight:700;font-variant-numeric:tabular-nums}
+.param-table{width:100%;border-collapse:collapse;font-size:12px}
+.param-table th{text-align:left;padding:5px 9px;color:var(--text-4);font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;border-bottom:1px solid var(--border)}
+.param-table td{padding:5px 9px;border-bottom:1px solid rgba(51,65,85,.25)}
+table td,table th{transition:background .1s}
+.empty{text-align:center;padding:64px 40px;color:var(--text-4)}
+.empty-icon{font-size:32px;margin-bottom:10px;display:block;opacity:.25}
+.empty code{background:rgba(255,255,255,.05);padding:2px 7px;border-radius:4px;font-family:var(--mono);font-size:12px;border:1px solid var(--border)}
+::-webkit-scrollbar{width:4px;height:4px}::-webkit-scrollbar-track{background:transparent}::-webkit-scrollbar-thumb{background:rgba(255,255,255,.07);border-radius:3px}
+</style>
+</head>
+<body>
+
+<header class="header">
+  <div class="logo">
+    <div class="logo-icon">◈</div>
+    <div><div class="logo-text">EvalView Check Report</div><div class="logo-sub">2026-03-18 09:37</div></div>
+  </div>
+  <div class="header-right">
+    <span class="badge b-red">✗ 1 Failed</span><span class="badge b-blue">5 Tests</span>
+  </div>
+</header>
+
+<main class="main">
+  <div class="tabbar">
+    <button class="tab on" onclick="show('overview',this)">Overview</button>
+    <button class="tab " onclick="show('trace',this)">Execution Trace</button>
+    <button class="tab " onclick="show('diffs',this)">Diffs</button>
+    <button class="tab " onclick="show('timeline',this)">Timeline</button>
+    
+  </div>
+
+  <!-- ═══════════ OVERVIEW ═══════════ -->
+  <div id="p-overview" class="panel on">
+    
+
+    <!-- HERO: Gauge + Stats in one row -->
+    <div class="hero-row">
+      <div class="gauge-cell glow-green">
+        <div class="gauge-wrap">
+          <svg width="180" height="180" viewBox="0 0 180 180">
+            <circle cx="90" cy="90" r="76" fill="none" stroke="rgba(255,255,255,.04)" stroke-width="10"/>
+            <circle class="gauge-fill" cx="90" cy="90" r="76" fill="none"
+              stroke="var(--green)"
+              stroke-width="10" stroke-linecap="round"
+              data-target="382.0"
+              style="stroke-dasharray:0 478;filter:drop-shadow(0 0 6px rgba(16,185,129,.35))"/>
+          </svg>
+          <div class="gauge-center">
+            <div class="gauge-pct green">80.0%</div>
+            <div class="gauge-label">Pass Rate</div>
+          </div>
+        </div>
+        <div class="gauge-sub"><b>4</b> of <b>5</b> tests</div>
+      </div>
+      <div class="stats-grid">
+        <div class="ss">
+          <div class="ss-label">Avg Score</div>
+          <div class="ss-num" style="color:var(--yellow-bright)">79.7</div>
+          <div class="ss-sub">out of 100</div>
+        </div>
+        <div class="ss">
+          <div class="ss-label">Total Cost</div>
+          <div class="ss-num blue">$0.017</div>
+          <div class="ss-sub">2,835 tokens (verified)</div>
+        </div>
+        <div class="ss">
+          <div class="ss-label">Avg Latency</div>
+          <div class="ss-num">1360<span style="font-size:12px;color:var(--text-4);font-weight:500">ms</span></div>
+          <div class="ss-sub">per test</div>
+        </div>
+        <div class="ss">
+          <div class="ss-label">Model</div>
+          <div style="font-size:13px;font-weight:600;color:var(--text);margin-top:2px;line-height:1.3">anthropic/claude-sonnet-4-6</div>
+          
+          <div style="margin-top:4px;font-size:10px;color:var(--text-4);font-family:var(--mono)">in 2,170 · out 665</div>
+          
+        </div>
+      </div>
+    </div>
+
+    <!-- Meta cards -->
+    <div class="meta-row">
+      <div class="meta-card">
+        <div class="meta-label">Agent Model</div>
+        <div class="meta-value">anthropic/claude-sonnet-4-6</div>
+        <div class="meta-sub">5 tests in this run</div>
+      </div>
+      
+      <div class="meta-card">
+        <div class="meta-label">Token Usage</div>
+        <div class="meta-value">2,835 tokens</div>
+        <div class="meta-sub">in 2,170 / out 665</div>
+      </div>
+      
+    </div>
+    
+    
+
+    <!-- Score chart + donut -->
+    <div class="chart-row">
+      <div class="card">
+        <div class="card-title">Score per Test</div>
+        <div class="chart-wrap" style="height:224px"><canvas id="bars"></canvas></div>
+      </div>
+      <div class="card">
+        <div class="card-title">Distribution</div>
+        <div class="chart-wrap" style="height:180px"><canvas id="donut"></canvas></div>
+      </div>
+    </div>
+
+    <!-- Cost table -->
+    <div class="card">
+      <div class="card-title">Execution Cost per Query</div>
+      <table class="ev-table">
+        
+        <thead><tr><th>Test</th><th>Model</th><th>Trace Cost</th><th>Tokens</th><th>Latency</th><th>Score</th></tr></thead>
+        <tbody>
+          <tr>
+            <td style="font-weight:600">refund-flow</td>
+            <td class="mono" style="color:var(--text-4)">anthropic/claude-sonnet-4-6</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0034</td>
+            <td class="mono" style="color:var(--text-3)">570 tokens</td>
+            <td style="color:var(--text-3)">1200ms</td>
+            <td class="num" style="color:var(--green-bright)">92.5</td>
+          </tr><tr>
+            <td style="font-weight:600">order-lookup</td>
+            <td class="mono" style="color:var(--text-4)">anthropic/claude-sonnet-4-6</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0021</td>
+            <td class="mono" style="color:var(--text-3)">415 tokens</td>
+            <td style="color:var(--text-3)">800ms</td>
+            <td class="num" style="color:var(--green-bright)">88.0</td>
+          </tr><tr>
+            <td style="font-weight:600">billing-dispute</td>
+            <td class="mono" style="color:var(--text-4)">anthropic/claude-sonnet-4-6</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0058</td>
+            <td class="mono" style="color:var(--text-3)">890 tokens</td>
+            <td style="color:var(--text-3)">2400ms</td>
+            <td class="num" style="color:var(--red-bright)">45.0</td>
+          </tr><tr>
+            <td style="font-weight:600">password-reset</td>
+            <td class="mono" style="color:var(--text-4)">anthropic/claude-sonnet-4-6</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0012</td>
+            <td class="mono" style="color:var(--text-3)">260 tokens</td>
+            <td style="color:var(--text-3)">600ms</td>
+            <td class="num" style="color:var(--green-bright)">95.0</td>
+          </tr><tr>
+            <td style="font-weight:600">vip-escalation</td>
+            <td class="mono" style="color:var(--text-4)">anthropic/claude-sonnet-4-6</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.0045</td>
+            <td class="mono" style="color:var(--text-3)">700 tokens</td>
+            <td style="color:var(--text-3)">1800ms</td>
+            <td class="num" style="color:var(--yellow-bright)">78.0</td>
+          </tr>
+          <tr style="background:rgba(0,0,0,.08)">
+            <td style="font-weight:800">Total</td><td style="color:var(--text-4)">—</td>
+            <td class="mono num" style="color:var(--blue-bright)">$0.017</td>
+            <td colspan="3" style="font-size:11px;color:var(--text-4)">avg $0.003400 per query</td>
+          </tr>
+        </tbody>
+      </table>
+      <div style="margin-top:10px;font-size:11px;color:var(--text-4);line-height:1.5">
+        Trace cost comes from the agent execution trace only. Mock or non-metered tools will show <code style="background:rgba(255,255,255,.04);padding:2px 6px;border-radius:3px;font-family:var(--mono);font-size:11px;border:1px solid var(--border)">$0</code> even when EvalView used a separate judge or local model during evaluation.
+        
+      </div>
+    </div>
+    
+  </div>
+
+  <!-- ═══════════ TRACE ═══════════ -->
+  <div id="p-trace" class="panel ">
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr1',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">refund-flow</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--green-bright)">92.5/100</span>
+            <span class="mc">💰 $0.0034</span>
+            <span class="mc">⚡ 1200ms</span>
+            <span class="mc">570 tokens</span>
+            <span class="mc">🧠 anthropic/claude-sonnet-4-6</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr1" class="item-body" >
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: anthropic/claude-sonnet-4-6</span>
+            <span class="badge b-blue">in 450 / out 120 tokens</span><span class="badge b-blue">$0.0034</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Process refund
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Done.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr2',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">order-lookup</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--green-bright)">88.0/100</span>
+            <span class="mc">💰 $0.0021</span>
+            <span class="mc">⚡ 800ms</span>
+            <span class="mc">415 tokens</span>
+            <span class="mc">🧠 anthropic/claude-sonnet-4-6</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr2" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: anthropic/claude-sonnet-4-6</span>
+            <span class="badge b-blue">in 320 / out 95 tokens</span><span class="badge b-blue">$0.0021</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Order status
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Shipped.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr3',this)">
+          <span class="badge b-red">✗</span>
+          <span class="item-name">billing-dispute</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--red-bright)">45.0/100</span>
+            <span class="mc">💰 $0.0058</span>
+            <span class="mc">⚡ 2400ms</span>
+            <span class="mc">890 tokens</span>
+            <span class="mc">🧠 anthropic/claude-sonnet-4-6</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr3" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: anthropic/claude-sonnet-4-6</span>
+            <span class="badge b-blue">in 680 / out 210 tokens</span><span class="badge b-blue">$0.0058</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Dispute
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Not found.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr4',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">password-reset</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--green-bright)">95.0/100</span>
+            <span class="mc">💰 $0.0012</span>
+            <span class="mc">⚡ 600ms</span>
+            <span class="mc">260 tokens</span>
+            <span class="mc">🧠 anthropic/claude-sonnet-4-6</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr4" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: anthropic/claude-sonnet-4-6</span>
+            <span class="badge b-blue">in 200 / out 60 tokens</span><span class="badge b-blue">$0.0012</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>Reset pw
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Sent.
+          </div>
+        </div>
+      </div>
+    
+      <div class="item">
+        <div class="item-head" onclick="tog('tr5',this)">
+          <span class="badge b-green">✓</span>
+          <span class="item-name">vip-escalation</span>
+          <div class="item-meta">
+            <span class="mc" style="color:var(--yellow-bright)">78.0/100</span>
+            <span class="mc">💰 $0.0045</span>
+            <span class="mc">⚡ 1800ms</span>
+            <span class="mc">700 tokens</span>
+            <span class="mc">🧠 anthropic/claude-sonnet-4-6</span>
+          </div>
+          <span class="chevron">▾</span>
+        </div>
+        <div id="tr5" class="item-body" style="display:none">
+          <div style="display:flex;flex-wrap:wrap;gap:4px;margin-bottom:12px">
+            <span class="badge b-blue">Model: anthropic/claude-sonnet-4-6</span>
+            <span class="badge b-blue">in 520 / out 180 tokens</span><span class="badge b-blue">$0.0045</span>
+            
+            
+            
+          </div>
+          
+          <div style="background:rgba(37,99,235,.05);border:1px solid rgba(37,99,235,.12);border-radius:var(--r-xs);padding:9px 12px;margin-bottom:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Query</span>VIP
+          </div>
+          <div style="text-align:center;padding:18px 0;font-size:12px;color:var(--text-4)">◎ Direct response — no tools invoked</div>
+          
+          
+          <div style="background:rgba(16,185,129,.04);border:1px solid rgba(16,185,129,.1);border-radius:var(--r-xs);padding:9px 12px;margin-top:12px;font-size:13px;color:var(--text-2)">
+            <span style="font-size:10px;font-weight:700;text-transform:uppercase;letter-spacing:.06em;color:var(--text-4);margin-right:6px">Response</span>Escalated.
+          </div>
+        </div>
+      </div>
+    
+  </div>
+
+  <!-- ═══════════ DIFFS ═══════════ -->
+  <div id="p-diffs" class="panel ">
+    <div class="empty"><span class="empty-icon">✨</span>No diffs yet — run <code>evalview check</code> to compare against a baseline</div>
+  </div>
+
+  <!-- ═══════════ TIMELINE ═══════════ -->
+  <div id="p-timeline" class="panel ">
+    <div class="empty"><span class="empty-icon">⏱</span>No step timing data</div>
+  </div>
+
+  <!-- ═══════════ COMPARE ═══════════ -->
+  
+</main>
+
+<script>
+mermaid.initialize({startOnLoad:true,theme:'dark',securityLevel:'loose',useMaxWidth:true,
+  themeVariables:{darkMode:true,background:'transparent',primaryColor:'rgba(37,99,235,.1)',primaryTextColor:'#e2e8f0',primaryBorderColor:'rgba(37,99,235,.25)',lineColor:'rgba(100,116,139,.3)',secondaryColor:'rgba(16,185,129,.06)',tertiaryColor:'rgba(6,182,212,.06)',noteBkgColor:'rgba(37,99,235,.05)',noteTextColor:'#94a3b8',noteBorderColor:'rgba(37,99,235,.15)',actorBkg:'rgba(37,99,235,.08)',actorBorder:'rgba(37,99,235,.2)',actorTextColor:'#e2e8f0',signalColor:'#64748b',signalTextColor:'#cbd5e1'},
+  sequence:{useMaxWidth:true,width:180,wrap:false,actorFontFamily:'Inter,sans-serif',noteFontFamily:'Inter,sans-serif',messageFontFamily:'Inter,sans-serif',actorFontSize:12,messageFontSize:11,noteFontSize:10,boxTextMargin:8,mirrorActors:false,messageAlign:'center',actorMargin:30,bottomMarginAdj:4}
+});
+function show(id,btn){document.querySelectorAll('.panel').forEach(p=>p.classList.remove('on'));document.querySelectorAll('.tab').forEach(t=>t.classList.remove('on'));document.getElementById('p-'+id).classList.add('on');btn.classList.add('on')}
+function tog(id,head){const el=document.getElementById(id);const o=el.style.display!=='none';el.style.display=o?'none':'block';head.querySelector('.chevron').style.transform=o?'':'rotate(180deg)'}
+
+/* Animate the gauge on load */
+requestAnimationFrame(()=>{setTimeout(()=>{document.querySelectorAll('.gauge-fill').forEach(c=>{const t=c.dataset.target||0;c.style.strokeDasharray=t+' 478'})},100)});
+
+
+(function(){
+  const passed=4,failed=1;
+  const scores=[92.5, 88.0, 45.0, 95.0, 78.0],names=["refund-flow", "order-lookup", "billing-dispute", "password-reset", "vip-escalation"];
+  const tc='rgba(100,116,139,.6)',gc='rgba(255,255,255,.025)';
+  const tt={backgroundColor:'rgba(6,11,24,.95)',borderColor:'rgba(51,65,85,.5)',borderWidth:1,titleFont:{family:'Inter',weight:'700',size:11},bodyFont:{family:'Inter',size:11},padding:8,cornerRadius:6};
+
+  new Chart(document.getElementById('donut'),{type:'doughnut',data:{labels:['Passed','Failed'],datasets:[{data:[passed,failed],backgroundColor:['rgba(16,185,129,.6)','rgba(239,68,68,.6)'],borderColor:['rgba(16,185,129,.08)','rgba(239,68,68,.08)'],borderWidth:2,hoverOffset:4}]},options:{responsive:true,maintainAspectRatio:false,cutout:'78%',plugins:{legend:{position:'bottom',labels:{color:tc,font:{family:'Inter',size:10,weight:'500'},padding:12,boxWidth:7,boxHeight:7,usePointStyle:true,pointStyle:'circle'}},tooltip:{...tt,callbacks:{label:ctx=>` ${ctx.label}: ${ctx.raw}`}}}}});
+
+  const sorted=names.map((n,i)=>({name:n,score:scores[i]})).sort((a,b)=>b.score-a.score);
+  /* Warning stripes for low scores */
+  const barBg=sorted.map(s=>{
+    if(s.score>=80) return 'rgba(16,185,129,.35)';
+    if(s.score>=60) return 'rgba(245,158,11,.35)';
+    return 'rgba(239,68,68,.35)';
+  });
+  const barBorder=sorted.map(s=>{
+    if(s.score>=80) return 'rgba(16,185,129,.55)';
+    if(s.score>=60) return 'rgba(245,158,11,.55)';
+    return 'rgba(239,68,68,.55)';
+  });
+  new Chart(document.getElementById('bars'),{type:'bar',
+    data:{labels:sorted.map(s=>s.name),datasets:[{label:'Score',data:sorted.map(s=>s.score),backgroundColor:barBg,borderColor:barBorder,borderWidth:1,borderRadius:3,borderSkipped:false,barPercentage:.55,categoryPercentage:.8}]},
+    options:{indexAxis:'y',responsive:true,maintainAspectRatio:false,
+      scales:{x:{min:0,max:100,grid:{color:gc},ticks:{color:tc,font:{family:'Inter',size:9},stepSize:25},border:{display:false}},y:{grid:{display:false},ticks:{color:'rgba(203,213,225,.7)',font:{family:'Inter',size:11,weight:'600'},padding:4,mirror:false},border:{display:false},afterFit:function(axis){axis.width=120}}},
+      plugins:{legend:{display:false},tooltip:{...tt,callbacks:{label:ctx=>` Score: ${ctx.raw}/100`}}}}});
+})();
+
+
+
+
+
+</script>
+
+<!-- Share bar -->
+<div style="position:fixed;bottom:0;left:0;right:0;z-index:100;background:rgba(6,11,24,.9);backdrop-filter:blur(16px);-webkit-backdrop-filter:blur(16px);border-top:1px solid var(--border);padding:8px 24px;display:flex;align-items:center;justify-content:space-between;font-family:var(--font);font-size:11px;color:var(--text-4)">
+  <span>Built with <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="color:var(--blue-bright);text-decoration:none;font-weight:600">EvalView</a> <span style="opacity:.25;margin:0 5px">|</span> Agent testing &amp; regression detection</span>
+  <span style="display:flex;align-items:center;gap:5px">
+    <a href="https://twitter.com/intent/tweet?text=Testing%20my%20AI%20agent%20with%20EvalView%20%E2%80%94%20catches%20regressions%20before%20they%20ship.%20%F0%9F%9B%A1%EF%B8%8F&url=https%3A%2F%2Fgithub.com%2Fhidai25%2Feval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(29,155,240,.08);color:#1d9bf0;text-decoration:none;font-weight:600;font-size:10px;border:1px solid rgba(29,155,240,.1)"><svg width="12" height="12" viewBox="0 0 24 24" fill="currentColor"><path d="M18.244 2.25h3.308l-7.227 8.26 8.502 11.24H16.17l-5.214-6.817L4.99 21.75H1.68l7.73-8.835L1.254 2.25H8.08l4.713 6.231zm-1.161 17.52h1.833L7.084 4.126H5.117z"/></svg>Share</a>
+    <a href="https://github.com/hidai25/eval-view" target="_blank" rel="noopener" style="display:inline-flex;align-items:center;gap:3px;padding:4px 10px;border-radius:5px;background:rgba(255,255,255,.03);color:var(--text-2);text-decoration:none;font-weight:600;font-size:10px;border:1px solid var(--border)"><svg width="12" height="12" viewBox="0 0 16 16" fill="currentColor"><path d="M8 0c4.42 0 8 3.58 8 8a8.013 8.013 0 0 1-5.45 7.59c-.4.08-.55-.17-.55-.38 0-.27.01-1.13.01-2.2 0-.75-.25-1.23-.54-1.48 1.78-.2 3.65-.88 3.65-3.95 0-.88-.31-1.59-.82-2.15.08-.2.36-1.02-.08-2.12 0 0-.67-.22-2.2.82-.64-.18-1.32-.27-2-.27-.68 0-1.36.09-2 .27-1.53-1.03-2.2-.82-2.2-.82-.44 1.1-.16 1.92-.08 2.12-.51.56-.82 1.28-.82 2.15 0 3.06 1.86 3.75 3.64 3.95-.23.2-.44.55-.51 1.07-.46.21-1.61.55-2.33-.66-.15-.24-.6-.83-1.23-.82-.67.01-.27.38.01.53.34.19.73.9.82 1.13.16.45.68 1.31 2.69.94 0 .67.01 1.3.01 1.49 0 .21-.15.45-.55.38A7.995 7.995 0 0 1 0 8c0-4.42 3.58-8 8-8Z"/></svg>Star</a>
+  </span>
+</div>
+<div style="height:40px"></div>
+
+</body>
+</html>
\ No newline at end of file

From 393741614430ad5429958546a9f533e78bfe6da4 Mon Sep 17 00:00:00 2001
From: gxt <gauravkthakur2002@gmail.com>
Date: Mon, 20 Apr 2026 20:32:44 +0530
Subject: [PATCH 5/5] Fix type error by adding explicit annotation

---
 evalview/commands/check_display.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/evalview/commands/check_display.py b/evalview/commands/check_display.py
index 1be9f4b..ff2b582 100644
--- a/evalview/commands/check_display.py
+++ b/evalview/commands/check_display.py
@@ -491,7 +491,7 @@ def _display_check_results(
 
     if json_output:
         token_summary = _aggregate_token_summary(results, golden_traces)
-        output = {
+        output: Dict[str, Any] = {
             "summary": {
                 "total_tests": len(diffs),
                 "unchanged": sum(1 for _, d in diffs if d.overall_severity == DiffStatus.PASSED),
@@ -561,7 +561,7 @@ def _display_check_results(
             output["summary"]["token_usage"] = token_summary["token_usage"].model_dump()
             output["summary"]["total_cost"] = token_summary["total_cost"]
             if token_summary.get("baseline_token_usage") is not None:
-                output["summary"]["baseline_token_usage"] = token_summary["baseline_token_usage"].model_dump()  # type: ignore[union-attr]
+                output["summary"]["baseline_token_usage"] = token_summary["baseline_token_usage"].model_dump()
             if token_summary.get("token_delta_pct") is not None:
                 output["summary"]["token_delta_pct"] = token_summary["token_delta_pct"]
         if healing_summary: