Writing

Essays, explorables, and research write-ups.

Model Organisms for Code Generation

An interactive research article presenting a framework for constructing intentionally misaligned code generation models — sleeper agents, sycophants, and reward hackers — to rigorously benchmark safety monitoring techniques. Includes live activation steering experiments across Qwen-2.5-Coder models.

AI SafetyInterpretabilityCode GenerationModel Organisms

Interactive

2026-04-10

Seeing Through the Projection

Why every 2D embedding of your data is a lie — and how to think about which lies are acceptable.

Dimensionality ReductionVisualizationResearch

8 min + interactive

2024-11-10