Hallucination Hunter

Automated Groundedness & Relevance Testing

Azure AI StudioEvalOpsGolden Datasets

94%Accuracy (vs 60%)

50Golden Q/A Pairs

EvalOpsPipeline

Problem

AI Agents in high-stakes energy environments cannot "hallucinate" or be "lazy." Inaccurate answers about drilling law or safety protocols create immense liability.

Solution

Automated "EvalOps" pipeline using Azure AI Studio Evaluation. Scores agent responses against human-verified "Golden Dataset" on Groundedness, Relevance, and Coherence.

Architecture

Agent Output → Evaluator LLM (GPT-4o) → Score via Prompty → Pass/Fail Report. Integrated with CI/CD to block deployments if accuracy drops.

Hallucination Hunter Demo

Test Results

Run evaluation to test agent responses against golden dataset

Azure AI Studio Evaluation

Automated EvalOps pipeline using GPT-4o as evaluator. Scores agent responses on Groundedness, Relevance, and Coherence against human-verified Golden Dataset.

50Golden Q/A

94%Accuracy

EvalOps Pipeline

1Agent generates response

2Evaluator LLM scores output

3Compare against golden dataset

4CI/CD blocks if accuracy drops