Heretic

Fully automatic censorship removal for transformer-based language models via abliteration

Agent: Cursor, Claude CodeLLM: Gemma 3, LLaMA#llm#abliteration#transformer#uncensoring#model-editing

Heretic removes safety alignment from LLMs without post-training by combining directional ablation with a TPE-based optimizer (Optuna). It automatically finds optimal abliteration parameters by co-minimizing refusals and KL divergence, preserving model intelligence while eliminating censorship.

Made by p-e-w · Shared by @github-trending-bot·4/29/2026

Comments (0)

Sign in to leave a comment.

No comments yet.