随着机器学习模型对海量数据的依赖日益增加,使得合成数据市场需求持续增长。但它和真实数据一样好吗?
10 亿张照片用于训练 Meta[1] 最新的照片识别算法 ,有力地证明了当前对数据的需求。 对于那些无法访问 Instagram 等平台的公司,还有另一个答案:合成数据。
相关阅读:
合成数据是由计算机人工创建的,而不是从现实世界中收集的。这些计算机生成的图像可以由创建它们的机器自动注释。注释是 AI 训练的重要组成部分,是对照片中的重要点(例如人或物体)进行标记的过程,以帮助机器学习模型理解图像所描绘的内容。由于是没有真实人物的原始图片,它们还避免了任何合规性或隐私相关问题。
这种技术使公司免于采购和收集数千张真实世界图像的挑战,同时也避免了围绕隐私、 GDPR[2]和版权的问题。
英国合成数据初创公司 Mindtech Global 的首席执行官史蒂夫哈里斯(Steve Harris)说:“人工智能的最大瓶颈是缺乏符合隐私要求的现实世界数据,即使是一个简单的图像识别应用程序也需要多达10万张训练图像,并且每张图像都需要符合隐私要求并由人工进行完美注释。现实世界数据的采购、注释和清理是一项艰巨的任务,可能占用数据科学家高达 80% 的时间。”
Marek Rei 是伦敦帝国理工学院的机器学习教授,他说:“收集手动数据既耗时又昂贵,如果您能够从头开始生成数据,那么您基本上可以创建无穷无尽的数据。对于一些罕见的事件,即使获得10个真实的例子也很困难,而合成数据可能会提供无限的例子。”
Gartner 预测,由于这些优势,到2024年,用于开发人工智能和分析项目的数据 60% 将是生成式合成数据,Gartner 公司将其描述为“人工智能的未来 ”。
相关阅读:
相关阅读:
对于以前AI模型,开发过程包括收集数据、训练模型、对其进行测试以及在再次测试之前进行任何必要的更改。
合成数据公司 Datagen 的首席执行官兼联合创始人 Ofir Chakon 表示说:“这种方法的问题在于使用的数据保持不变。从这种以模型为中心的方法中获得的性能提升相对较低,为了真正显着提高AI算法的性能,你需要改变思维方式。需要迭代数据本身,而不是迭代模型的参数。”
Datagen 为人工智能应用提供一系列生成式合成数据,从面部识别技术到驾驶员监控系统、安全摄像头甚至手势识别。 Chakon 相信,随着更多的公司向元宇宙扩张,合成数据将变得越来越受欢迎。
为了面部识别系统生成所需的合成数据,Datagen 扫描了来自不同年龄和人口统计群体的真实人的面部。基于这些3D信息,它的 AI 开始学习人脸的数据特征,然后生成全新的人脸图像数据。仅通过扫描 100 个人脸样本,就可以创建数百万个不同且全新的人脸图像。
例如,有了足够的信息,可以要求生成模型创建一张 30 岁的棕色头发白人男性的脸;它每次都会吐出一个全新的图像。
相关阅读:
“根据它从现实世界的扫描中学到的东西和所置入的条件,它可以生成一个全新的身份,与原始面部集合中的内容完全不相关,”Chakon 说。
合成数据的支持者表示,这有助于减少在训练阶段经常渗透到算法中的偏差。哈里斯(Harris)说:“有偏见的训练数据可能会导致技术解决方案和产品强化和延续现实世界的歧视。例如,人工智能系统在许多情况下被发现在识别较深的肤色方面很差。这是因为所讨论的人工智能已经在缺乏多样性的数据集上进行了训练。”
2015年,谷歌的图像识别算法因将黑人图像错误地标记为“大猩猩”。有了合成数据,人工智能开发人员理论上可以生成无数个不同种族的人脸来训练其模型,这意味着人工智能理解中出现这种偏见的可能性将会变得极小。
哈里斯(Harris)声称,它的一些客户使用 Mindtech 的 AI 培训平台 Chameleon 从头开始生成各种数据,而其他客户则使用它来解决现有现实世界数据集中缺乏多样性的问题。“通过使用计算机来训练 AI,我们正在消除人类进步的最大障碍:人类偏见。”
相关阅读:
使用计算机生成的图像来训练人工智能在现实世界中的应用不可避免地存在问题
使用计算机生成的图像为现实世界的应用训练AI,会存在不可避免的问题。Rei 教授解释说:“合成数据给出的结果基本不会与数量相当的真实数据结果完全相同。因为我们通常必须做出一些假设和简化,以便对数据生成过程进行建模。不幸的是,这也意味着丢失了真实数据中存在的许多细微差别和复杂性。”
只要仔细地看一下合成的人脸,就很容易识别出来,不太可能让人误以为它们是真实的。Datagen 目前正在投资于图片的真实感,但 Chakon 认为,真实感并不是对每个应用程序都至关重要。 他说:“如果你正在开发一款用于化妆的瑕疵检测人工智能,那么细节很重要。但如果你正在开发一个安全系统,那么你能否识别一个人脸上的小细节就没有那么重要了。”
合成数据也不是 AI 偏见的灵丹妙药,它依赖于生成数据的人负责任地使用这些平台。 Rei 教授补充道:“数据生成过程中存在的任何偏见,无论是有意还是无意的,都会被训练有素的模型发现。”
亚利桑那州立大学的一项研究表明,当对工程教授的白人男性图像进行训练时,它的生成模型放大了数据集中的偏差,这意味着它产生少数模式图像的频率较低。更糟糕的是,人工智能在生成新面孔时开始“淡化非白人面孔的肤色,并将女性面部特征转化为男性化”。
借助合成数据程序,开发人员可以访问无限量的数据,如果在生成过程中的任何时候出现错误,这有可能大大加剧偏见问题。
如果使用得当,合成数据可能依旧有助于提高某些数据集的多样性。Rei 教授说:“如果数据分布非常不自然——例如,它不包含任何来自特定种族的人的例子,那么合成创建这些例子并将它们添加到数据中,总比什么都不做要好,但它可能不如收集更准确地涵盖所有种族的真实数据那么好。”
虽然合成数据可以使程序员创建 AI 模型的过程更快、更便宜、更容易,但它依旧面临许多与现实世界中的对应物相同的挑战。“合成数据是否比真实世界的数据更好并不是一个真正正确的问题,”哈里斯说。“人工智能开发人员需要做的是找到或创建足够数量的适当数据来训练他们的系统。” 真实数据和合成数据结合使用可能是真正的答案。
参考文献[3]
推荐阅读:
——用数据智慧加速人工智能