广东益福报废产品销毁中心12月8日 报道:Anthropic采用一种新方法来防备人工智能(AI)对受保护群体进行歧视,经过在提示中投入请求,要求AI“极端尤其尤其异常”友好地对待,并且这一策略在降低歧视方面取得了成功。
探求人员经过在提示中注入“干预”来告诉模型不要有偏见,譬如经过表达即使源于技术问题包罗了受保护特征,模型如何“想象”在做决策时去除这些特征。这种方法在许多尝试案例中成功将歧视降低到几乎零。
即使这种方法在现在情况下似乎取得了成功,但思量人员认为像Claude这样的模型不适用于首要决策,强调怎样由政府和社会整体来效用高风险决策的适当使用,而不仅仅由个别公司或行为者做决定。
这项思索为降低人工智能歧视供应了一种新的策略,强调了在高风险决策中谨慎使用语言模型的重要性。
(举报)