您的位置:首页 >生活 >

人工智能应如何描绘边缘化群体技术专家期待更具包容性的未来

导读 随着人工智能变得越来越复杂,越来越能够贴近现实,卡内基梅隆大学人机交互研究所(HCII)的研究人员正在努力确保大型语言模型的输出能够代表...

随着人工智能变得越来越复杂,越来越能够贴近现实,卡内基梅隆大学人机交互研究所(HCII)的研究人员正在努力确保大型语言模型的输出能够代表它们所参考的社区。

这项工作是WilliamAgnew的主要工作重点。他是卡内基博世的博士后研究员,也是QueerinAI的主要组织者之一。除了卡内基梅隆大学外,QueerinAI还是美国国家标准与技术研究院人工智能安全研究所联盟的成员,该联盟致力于提高人工智能系统的可信度和安全性。

阿格纽和QueerinAI的其他组织者在关于人工智能风险管理的论文中写道:“研究人员、企业和政府长期以来一直将边缘群体排除在技术开发、部署和监督之外,这令人痛苦不已。结果,这些技术对少数群体来说用处不大,甚至有害。”

自从大约八年前开始与该组织合作以来,Agnew一直利用他的专业知识来分析大型语言模型训练数据集的完整性。通过他的工作,他帮助人工智能开发人员识别和克服跨媒介(生成的文本、图像、语音和音乐)的偏见,最终目标是帮助技术在应用中更加公平。

“这些审计的目的实际上是要问,它们是否具有代表性?”阿格纽说。“它们是包容性的还是有偏见的?它们是否包含有害的刻板印象?它们是否在未经许可的情况下窃取了人们的知识产权或其他工作成果?社区是否不想出现在这些数据集中?”

要回答所有这些问题,就需要深入研究内容背后的数据。“通过了解数据集,我们可以真正了解所有下游模型中将会发生什么,”他说。

这项工作的最终目标是赋予那些之前在人工智能实施过程中被排除在隐私和安全讨论之外的人权力。

“许多社区希望控制自己的数据和形象。他们不希望公司决定他们在媒体或人工智能中的形象。他们想控制这些,”阿格纽说。“这是合理且重要的。边缘化群体在媒体中遭受了数十年甚至数百年的刻板印象、讽刺和歪曲。”

阿格纽还解释说,任何创作最终会在网上看到的内容的人(不仅仅是边缘化社区)都可以从选择不将其纳入这些数据集中的能力中受益,并举了新闻业在未经作者同意的情况下对作者的写作进行模型训练的趋势日益明显的例子。

人工智能时代的代表性与过去有何不同?

直到最近,代表性和归属感的问题——最值得注意的是边缘化群体如何描绘和看待自己——已经落入传统艺术家、社区领袖和历史学家的研究范围。

匹兹堡酷儿历史项目创始人、美术学院弗兰克-拉奇创意探究工作室副主任哈里森·阿普尔指出,历史档案本身在记录事件和情况方面发挥着“归属技术”的作用——通过共同的经历来识别群体成员。对于档案管理员来说,这种体验以共享和本地化过去的形式出现。对于技术人员和社交媒体用户来说,这是一种即时的、全球可访问的现在。

在这两种情况下,个人通常被用作识别或划分整个社区的参考点,即使他们无法同意。“着手组建一个社区是一项艰巨的任务。社区由任何使用这个词的人部署——保护,摧毁——但它始终是一个有限制的概念,”阿普尔说。

苹果在一篇批评社区档案的文章《我等不及你去》中指出,能够利用图像来引导话题讨论是一种特权。例如,档案展览通常关注那些已故的人,目的是帮助现代旁观者培养一种社区意识和身份认同感。然而,由于已故者不能同意使用他们的故事或肖像,因此对于那些被赋予个人材料的人来说,可能会出现道德问题。

作为公共历史学家,Apple对这一问题的解决方案是MS'89放映系列,该系列放映捐赠的LGBTQ+档案录像带,其创作者也出席了放映。这种档案工作方法旨在弥合过去与现在之间的差距,鼓励当地社区成员积极参与自我定义。

他们补充说,档案管理员确实有责任投资于创新的、可能赋予权力的想法,但任何以表现为中心的技术都应该谨慎对待。

“我不相信任何技术天生就具有解放性,”苹果说。“它只能成为使我们独特的使命更加优雅和深远的一部分。在你改变世界之前,你必须弄清楚你到底想要什么。”

Apple解释说,MS'89为社区问题提供了一种社区解决方案。“就我而言,我想让人们聚集在一起,让他们明白,改变我生活的不是得到录像带,而是和捐赠者一起观看录像带,”Apple补充道。“这是我考虑专门制作Web2.0时代之前的夜总会档案视频片段的重要部分。这些录像带不是为点对点数字公众制作的,我们无法回到过去为他们做出决定。”

生成性人工智能和社交媒体的联合力量给社区档案管理员带来了与所面临的类似困境:几乎所有在线生成和共享的内容都是专门为点对点公众制作的,而公众并不总是同意这一点。

身份和同意的问题变得更加紧迫,因为个人可以根据需求(通常只需单击按钮即可)请求边缘化人群的描述。

技术通常如何影响表现?

当今人工智能和代表性的故事与社交媒体在近代历史中发挥的作用密不可分。

“社区与网络空间,尤其是公共网络空间的关系非常复杂,”阿格纽说。“一方面,它们是者的重要社区基础,特别是因为我们中的许多人在年轻时没有任何特定的社区。只有我们和我们在谷歌或Reddit上能找到的东西,这些是非常有价值的,往往可以改变生活或拯救生命的联系和关系。”

卡内基梅隆大学HCII的博士生乔丹·泰勒(JordanTaylor)研究边缘化人群如何利用技术,以及技术设计师和研究人员如何看待边缘化人群。他的导师是技术团结实验室负责人助理教授莎拉·福克斯(SarahFox)和社交人工智能小组负责人朱海一(HaiyiZhu)副教授。

泰勒最近的研究包括对Reddit等社交媒体平台上的在线社区的考察,以及他们如何应对被称为“解释不公正”的问题——由于外部社会限制,边缘群体在历史上无法理解自己。

当观察这些空间时,他发现数字环境为用户创造了一个独特的机会来互动并看到自己的影子。

“我查看了r/bisexual这个subreddit,试图了解这个群体中的人们在做什么,”泰勒说。“我们发现人们正在构建一种特殊的方式来理解自己在这个世界上的地位。这包括发展群体语言和群体刻板印象。人们正在构建这些方式来对自己进行分类,并了解双性恋在更广阔的世界中的地位。”

然而,社区在数字环境中聚集和建立身份的能力往往很复杂,而且在许多情况下,受到科技公司既有动机和框架的阻碍。“当我们谈论技术设计时,这种群体内差异往往会被削弱和抹去,”泰勒说。

在最近的研究中,泰勒转向研究人工智能生成的内容与在线交互的边缘化社区之间不断变化的关系,特别关注LGBTQ+艺术家与DALL-E3、Midjourney和StableDiffusion等生成模型的互动。

例如,网站的协议可能会将LGBTQ+群体发布的内容或为LGBTQ+群体发布的内容认定为有害或不当内容。Taylor表示,图像生成器通常就是这种情况,它会将某些输出标记为包含露骨图像,有时这种标记方式不一致,而且很少考虑输入的背景。

他说,不考虑内容的文化意义而全面删除内容一直是​​内容审核算法的一个长期问题,尽管最近有所创新,但这个问题仍然存在。

“边缘化群体经常使用(并且长期以来一直使用)技术,而这些技术的设计不一定是为他们考虑的,或者根本没有考虑过特定​​用户。你最终会适应常态,而这种常态往往是白人、异性恋、富有的西方人,”泰勒说。“这就是我们了解这些群体的视角。”

阿格纽的博士后研究目前主要集中在音乐数据集上,他表示凝视往往被用来汇总数据。“我们研究的初步结果表明,我们在人工智能中随处可见的偏见也存在于这些数据集中:男性被提及的次数远远高于女性。白人被提及的次数高于其他种族和群体。对酷儿和其他边缘群体的提及往往更为负面。这导致下游模型的表现不同。”

生成式人工智能如何塑造表征的未来?

随着身份在训练数据集中融合,个人如何认同内容或同意某些表述的问题变得更加复杂,尤其是当这些表述是根据外部品味和标准量身定制时。苹果在其文章中引用了作者的观点,他们讨论了好莱坞和国会对边缘群体的描述如何让他们所代表的人大失所望。他们说,硅谷(以及整个科技界)现在可以合理地被添加到这个名单中。

生成内容依赖于人类想象力的先前产物,并继承了源内容创建者的偏见。对于Apple来说,这些偏见和生成内容的日益普及也对档案工作产生了影响。

“我所研究的档案很可能被分成几部分,如果这些图片被拍摄下来并用于其他用途,就会被整理成数据集,”苹果说。“我还没有看到证据表明它能够想象或创造出人们不想看到的东西。”

这种有偏见的理想化是泰勒在他自己持续的研究中注意到的一个问题。

“我研究中的许多艺术家都提到,他们使用DALL-E3创作的所有艺术作品都非常精致、优美和对称。它在某种程度上蕴含了企业美学价值观,但人们一直在努力寻找将这些非常精致的图像融入其艺术实践的方法,”他说。

生成式人工智能是否会对边缘化群体造成危害?

卡内基梅隆大学对安全、责任和公平的承诺是该大学所有人工智能研究领域的指导原则、方法和组成部分。

在卡内基梅隆大学,科学家和工程师与哲学家、艺术家、经济学家、伦理学家、社会科学家和政策专家一起探讨人工智能带来的各种影响和道德障碍以及它所带来的激动人心的机遇。

设计师、政策制定者和其他人都有责任确保算法的安全、公平应用。人工智能安全研究所联盟的合作努力是行业领导者和利益相关者如何实现这一目标的典型例子之一。

苹果表示:“人工智能正在加速任何快速廉价的写作工具对社会归属过程的帮助。它创造了可共享的内容,这些内容由熟悉的符号和风格组成,似乎在向我们招手。”

Apple提到,对此类工具持怀疑态度是明智的,因为它们极有可能被滥用。而Agnew表示,恶意行为者非常普遍,自动化可能会加剧当前剥夺个人对自己身份控制权的做法,包括人肉搜索、骚扰、出柜和名。QueerinAI正在进行的工作重点是保护所有领域的LGBTQ+人群,最近还包括帮助人在学术和出版界保持对自己身份的控制。

“处理代表权的紧张关系可能很困难,有时当有人失去对自己代表权的控制时,这种紧张关系就会爆发灾难性后果,”阿格纽说。“这会给他们带来非常可怕的后果。”

对于泰勒来说,对Reddit的研究让他了解到采用更分散的算法应用方法的潜在好处,这种方法关注的是每个社区的需求和体验,而不是对在线平台采用一刀切的解决方案。

“我认为,总的来说,人们往往过于简单地以二元论来看待技术是好是坏。问题是,对谁来说是好是坏,在什么情况下才是好是坏?”泰勒说。

他早期的研究结果表明,艺术家对作品的看法与设计或运行平台的人有很大不同。

“有人说过,在艺术领域对生成式人工智能最感兴趣的人是那些希望用最少的钱做最多工作的首席执行官,而艺术家则相反,即使他们想靠自己的作品谋生,但他们仍然会在创作过程中找到乐趣。

泰勒说:“我认为,快乐与人们如何决定是否使用科技有关,但这种快乐常常被低估。”

免责声明:本文由用户上传,如有侵权请联系删除!