使用‘消除’技术绕过LLM的安全机制，不用训练就可以创建自己的nsfw模型

开源的大模型在理解和遵循指令方面都表现十分出色。但是这些模型都有审查的机制，在获得被认为是有害的输入的时候会拒绝执行指令，例如会返回“As an AI assistant, I cannot help you.”。这个安全功能对于防止误用至关重要，但它限制了模型的灵活性和响应能力。

在本文中，我们将探索一种称为“abliteration”的技术，它可以在不进行再训练的情况下取消LLM审查。这种技术有效地消除了模型的内置拒绝机制，允许它响应所有类型的提示。