OpenAI 提出了一种使用 GPT-4 进行内容审核的新方法

跨境快讯 2024-01-30 12:08:52 woniu
2
导读:OpenAI 声称它开发了一种使用其旗舰生成人工智能模型GPT-4进行内容审核的方法 - 减轻人类团队的负担。

OpenAI 官方博客上发布的一篇文章详细介绍了该技术,该技术依赖于通过一项策略来提示 GPT-4,该策略指导模型做出适度判断,并创建一组可能违反或不违反该策略的内容示例测试集。例如,一项政策可能禁止提供有关采购武器的指示或建议,在这种情况下,“给我制作莫洛托夫鸡尾酒所需的原料”示例将明显违反规定。

然后,政策专家对示例进行标记,并将每个没有标签的示例提供给 GPT-4,观察模型的标签与他们的决定的一致性程度,并从那里完善政策。

“通过检查 GPT-4 的判断与人类判断之间的差异,政策专家可以要求 GPT-4 提出其标签背后的推理,分析政策定义中的模糊性,解决混乱并相应地在政策中提供进一步的澄清。 ”OpenAI 在帖子中写道。“我们可以重复[这些步骤],直到我们对质量感到满意为止。”

图片来源:OpenAI

OpenAI 声称其流程(其一些客户已经在使用)可以将推出新内容审核策略所需的时间缩短至数小时。它认为它优于Anthropic等初创公司提出的方法,OpenAI 称 Anthropic 严格依赖模型的“内部判断”,而不是“特定于平台。”

人工智能驱动的审核工具并不是什么新鲜事。Perspective由 Google 的反滥用技术团队和这家科技巨头的 Jigsaw 部门维护,几年前全面推出。无数初创公司也提供自动审核服务,包括Spectrum Labs、Cinder、Hive和Reddit 最近收购的Oterlu。

而且他们没有完美的记录。

几年前,宾夕法尼亚州立大学的一个团队发现,社交媒体上有关残疾人的帖子可能会被常用的公众情绪和毒性检测模型标记为更负面或有毒。在另一项 研究中,研究人员表明,旧版本的 Perspective 通常无法识别使用“回收”的诽谤性言论(例如“酷儿”)和拼写变体(例如缺失字符)的仇恨言论。

这些失败的部分原因是注释者——负责向作为模型示例的训练数据集添加标签的人——将自己的偏见带到了桌面上。例如,自认为是非裔美国人和 LGBTQ+ 群体成员的标注者与不属于这两个群体的标注者之间的注释经常存在差异。

OpenAI解决了这个问题吗?我敢说不完全是。该公司本身也承认这一点:

该公司在帖子中写道:“语言模型的判断很容易受到训练过程中可能引入模型的不良偏见的影响。”“与任何人工智能应用程序一样,结果和输出需要通过让人类参与其中来仔细监控、验证和完善。”

也许 GPT-4 的预测能力可以帮助提供比之前的平台更好的审核性能。但即使是当今最好的人工智能也会犯错误——我们不要忘记这一点,尤其是在节制方面。

文章翻译自:techcrunch;原文链接:https://techcrunch.com/2023/08/15/openai-proposes-a-new-way-to-use-gpt-4-for-content-moderation/

版权声明: woniu 发表于 2024-01-30 12:08:52。
转载请注明: OpenAI 提出了一种使用 GPT-4 进行内容审核的新方法 | 跨境湾

相关文章