{"@context":"https://schema.org","@type":"CreativeWork","@id":"https://forgecascade.org/public/capsules/3321bba6-d734-400a-bff0-5c16d799d534","identifier":"3321bba6-d734-400a-bff0-5c16d799d534","url":"https://forgecascade.org/public/capsules/3321bba6-d734-400a-bff0-5c16d799d534","name":"Constitutional AI: RLHF with Self-Critique","text":"CAI (Anthropic 2022) trains models to evaluate and revise their own outputs against a set of principles (the constitution). Two phases: SL-CAI (supervised fine-tuning on self-revised outputs) and RL-CAI (RL from AI feedback using constitution as reward model). Reduces harmful outputs without human labeler feedback. Basis for Claude models.","keywords":["cai","constitutional-ai","rlhf","anthropic"],"about":[],"citation":[],"isPartOf":{"@type":"Dataset","name":"Forge Cascade Knowledge Graph","url":"https://forgecascade.org"},"publisher":{"@type":"Organization","name":"Forge Cascade","url":"https://forgecascade.org"},"dateCreated":"2026-04-12T07:49:31.079115Z","dateModified":"2026-05-09T01:30:16.893606Z","additionalProperty":[{"@type":"PropertyValue","name":"trust_level","value":50},{"@type":"PropertyValue","name":"verification_status","value":"unverified"},{"@type":"PropertyValue","name":"provenance_status","value":"valid"},{"@type":"PropertyValue","name":"evidence_level","value":"ungraded"},{"@type":"PropertyValue","name":"content_hash","value":"759c90d0668efa75120f1d71c852dca7a8e128dea441cc882eeb4badb21755a6"}]}