拍下一张照片,iPhone会记住拍摄的时间、位置和设备;买一杯果汁饮料,营养成分表会介绍有多少水和糖浆。那么一张AI合成的图片,能不能也打上“成分标签”,说明清楚它的属性?
C2PA(内容来源与真实性联盟)正在做的就是这件事。上周谷歌透露,计划把C2PA标准整合到谷歌搜索和广告中,之后用户在搜索某张图片时,会在“关于此图片”的栏目中看到图片是否通过 AI 工具创建或编辑。这可以说是AIGC“成分标签”一次最大规模的尝试。
互联网越来越无法眼见为实,区分AI生成内容和真实内容成为全球刚需:国家网信办最近发布《人工智能生成合成内容标识办法(征求意见稿)》,要求AI内容加上显性和隐性标识;美国上周通过的《加州人工智能透明度法案》也做出了类似规定;欧盟则在督促大型科技平台,必须为AI生成的内容进行标记......
但问题在于,还没有一项技术,能完全可靠地标识出AI内容。
C2PA因此吸引了许多目光。从OpenAI等大模型公司,到Facebook等社交平台,都在过去一年里密集接入了C2PA技术标准。该组织主席Andrew Jenks 介绍,过去六个月内,会员人数增加了 56%。
火热的C2PA是什么?能不能为国内推广AI标识打个样?
AIGC“成分表”
2021年时,有两家科技巨头都在关注互联网的虚假信息问题:一家是Adobe,建立了内容真实性计划(CAI);一家是微软,发起了内容归属和验证计划(Project Origin)。
当年2月,这两家联盟合并成为了现在的C2PA,由非营利性质的基金会支持运作。
该组织推行的协议也因此得名。简单来说,C2PA是一种开源互联网协议,依靠加密的技术手段编码信息,类似于给内容创建一份“出生证明”,说明内容是何时、何地、由谁、如何创建的。
有两家巨头牵头,C2PA刚推出时就得到了知名公司的支持,发起者还有英特尔、BBC、软银旗下的Arm、图像验证公司Truepic。之后有1500家公司陆续加入,包括尼康、索尼等国际公司。
不过C2PA在公众视野里频繁出现,还是在生成式AI普及之后。主席Andrew Jenks去年7月介绍,过去六个月内,会员人数增加了 56%。
21记者梳理发现,在2024年里,从生产内容的大模型公司到传播内容的社交平台,除了Twitter,科技巨头基本接入了C2PA标准(Twitter在马斯克接手后,主动退出了该组织)。滚雪球式的推广,得益于巨头带动,打通上下游生态。
从技术角度看,C2PA协议可以分为“捕捉(capture)”“签名(sign)”“审查(inspect)”三个步骤:
首先,当用户使用支持C2PA协议的设备创建一份文件时,C2PA协议会“捕捉”该文件的时间、地点、创建工具等关键信息;之后,设备会使用加密算法、数字证书和密钥等技术,加密处理信息并提供出处;最后,该声明会被数字签名并封装进清单之中,以保证内容的真实和完整。
以一张照片为例,如果使用支持C2PA协议的相机拍摄一张照片时,相机会自动将拍摄的时间、地点等信息记录下来,对照片的编辑也会被捕获,并由编辑软件进行数字签名——所有这些信息都以加密的方式与图像绑定。
面对一份这样的文件,用户可以利用C2PA提供的工具来验证和查看文件的历史信息,以此为依据,判断信息的可靠性和真实性。
拿谷歌的构想来说,C2PA整合进谷歌搜索后,图片的右上角会出现“i”的角标,能够进一步查看该照片的拍摄日期、地点、镜头等更为详细的信息。若图片曾被Photoshop、AI等技术修改过,用户可以得到修改之前的原图。
全球都在呼吁,还有哪些难题?
对外经济贸易大学法学院教授张欣此前告诉21记者,加了标识后,才可以从终端的角度,让用户知道自己接收到的内容到底是人还是机器生产的。这样的信息区分原则,是互联网信息内容治理一个较为基础性的原则。
中国、美国、欧洲都已经对AI内容标识提出了要求:
9月14日,国家网信办起草的《人工智能生成合成内容标识办法(征求意见稿)》开始向社会公开征求意见,要求AI内容加上显性和隐性标识,强制性国标的征求意见稿也同时发布。类似的,欧盟今年落地的《AI法案》规定了AI技术供应商应该保证AI输出内容可以被标记、有效检测。
去年美国拜登政府发布的AI行政令中,着重强调了水印和内容认证。在美国国家标准技术研究院(NIST)发布的《数字内容透明度技术方法概述》中,标记合成内容的技术分为主动披露和间接披露两种,前者有内容标签,后者有隐形水印、嵌入元数据等。
需要注意的是,美国的相关规定为自愿执行,非强制性标准。但上周美国加州最新通过的《加州人工智能透明度法案》要求,AIGC提供者需要在大模型系统中包含隐形AI标识,并为使用者提供一个选项,选择是否以肉眼可见的方式标注出人工智能。
但AI内容标识还面对不少争议和挑战,问题一方面来自技术本身——对于显形标识,稍加截图和裁剪便可以隐去。隐形标识虽然使用哈希函数加密,有一定篡改难度,但也并非完全可靠。
更大的问题来自AI内容标识跨平台、跨地域的推广。从C2PA的发展背景中不难发现,需要足够多的内容生产者和平台使用协议,建立一条完整的使用链,这类协议才能发挥效果。
最简单的,如果最下游的传播平台没采用相同的协议,AIGC内容的来源数据就不会显示。此外,AI大模型搭上终端设备是必然趋势,此前Photoshop等软件流行时,索尼、莱卡等相机品牌陆续植入了C2PA标准,但目前苹果手机或者安卓手机会不会支持C2PA,都还没提上日程。
此前国内抖音发布了《关于人工智能生成内容标识的水印与元数据规范》,就是希望不同的平台及工具能够互认标识元数据,达到通用识别的效果。本次谷歌搜索的使用,可能是目前C2PA在AI内容上一次最大规模的推广,最终目的也是鼓励整个互联网生态。
一位长期跟踪AI治理的专家还向21记者提出,来自ChatGPT、Midjourney等AI内容要如何为国内平台识别,也会是一个问题。
“如果是互联网公开的标识协议或标准,(技术上)识别起来没有太大问题。但直接利用国外大模型生成内容,怎么让传播者主动履行标识义务?这个问题很难完全解决。”