韩国的“发明”：“先发制人”AI大模型监管大法

xunana 2024-10-15 09:48

不得不承认，韩国是人工智能监管的一股清流！

韩国个人信息保护委员会（PIPC）还立志，到 2024 年，韩国要被公认为隐私和数据保护领域重要的全球参与者和国际合作的新枢纽。

2024年10月11日，韩国个人信息保护委员会（"PIPC"）召开第 16 次全体会议，认为包括OpenAI、Google LLC、Microsoft Corporation、Meta Platforms Inc、Naver 和 Wrtn Technologies 在内的六家人工智能大模型LLM服务提供商已积极制定各自的计划，以执行今年PIPC3月发布的人工智能合规整改令。

这种发现问题先整改的方法，被韩国称为“先发制人”（preemptive inspection）大法。

就在 9 月 25 日举行的第 16 次全体会议上，PIPC 全面检查了针对 43 家实体（包括人工智能企业经营者和公共机构）发出的 44 份纠正令和建议的执行情况，并宣布已完成 41 项任务，提交了开展相关活动以纠正其做法的计划。

包括 OpenAI、Google、Meta 在内的人工智能企业经营者已经或将要根据 PIPC 就人工智能模型在数据上的训练提出的建议，对其做法进行如下补救：

一是删除由 PIPC 和 KISA（韩国互联网和安全局）提供的包含个人数据的网页，并从公开数据中过滤居民登记号码 (RRN)后，才允许用于训练人工智能模型；

二是明确告知数据主体，人工审核人员参与了使用数据集训练人工智能模型的工作，并通过加强用户通知，以提供拒绝接受人工智能模型的功能；

三是补充完善隐私政策，引入报告人工智能模型生成的不当答案的功能，以防止和应对隐私威胁。

各人工智能企业在先期接受检查后，均制定了详细合规实施整改计划，如下：

（1）从公开数据中删除个人信息以训练 AI 模型

OpenAI	在改进数据训练流程的过程中审查和使用 PIPC 和 KISA 提供的 URL
Google	采取措施删除暴露 PIPC、KISA 及其用户提供的个人信息的 URL，采取措施过滤 RRN 和护照号码
Meta	在审核 URL 后的 90 天内采取措施。

（2）将用户数据告知数据主体，尽量减少对隐私的侵犯

OpenAI、Google 和 Naver

在同意书或提示中包括了人工审核者参与的事实；在同意表单或提示中提供选择退出设置

（3）采取措施预防和应对个人数据泄露

OpenAI	为韩国用户提供有关已运营的个人数据的其他信息，供用户提供反馈，例如请求特定答案或隐私保护等。
Google	建立在 Gemini 应用程序中唯一适用的隐私政策。打开常见问题页面，并提供有关如何以用户身份行使权利的其他信息。
MS	在其隐私政策中新设立了关于“AI 和 MS Copilot”的条款。运行页面以获取有关 Copilot 界面中各个交互的反馈。

以上整改情况源自于2024年3月的监管指导。

2024 年 3 月 27 日，韩国个人信息保护委员会（PIPC）召开本年度第 6 次全体会议，决定向开发或部署大型语言模型（LLMs）或提供由此类模型驱动的人工智能（AI）服务的六家企业发出建议，以解决其个人数据保护实践中发现的漏洞。一些重要的人工智能企业，包括OpenAI、谷歌、微软、Meta、Naver和Wrtn Technologies，都是PIPC先发制人检查的对象。

大规模生成式人工智能模型所带来的服务迅速扩散，引发了公众对其可能对个人数据隐私构成潜在风险的担忧。自去年 11 月起，PIPC 开始进行先期检查，监测主要人工智能服务提供商与数据相关的做法现状，以促进安全的数据处理。

2023年7月，在审查 ChatGPT 服务的隐私政策和用户注册流程后，韩国PIPC 发现 OpenAI 在多个方面没有完全满足 PIPA 的要求。其中包括：没有韩文版的隐私政策；不符合获得适当用户同意的法定要求；对数据控制者与处理者的关系、个人数据的处置以及被指定代表公司行事的韩国代表的定义和/或描述不明确。此外，OpenAI 要求注册服务的最低年龄为 13 岁，这不符合韩国法律的规定，即 14 岁以下的用户注册服务需要得到法定监护人的同意。

在调查过程中，OpenAI解释了其作为一家刚刚向全球更广泛的受众推出服务的相对较新的企业的立场，并正式提交了其与PIPC合作并在修订后的法律生效（即2023年9月15日）之前遵守最近修订的PIPA的意向。考虑到这些情况，PIPC 决定在此时提出改进建议，并继续监督这些建议的落实情况和 PIPA 要求的遵守情况。

另外，同年7月26日，韩国个人信息保护委员会还召开全体会议，决定对Meta Platforms, Ireland Limited（"Meta Ireland"）处以约65亿韩元（约合510万美元）的行政罚款，对Instagram LLC（"Instagram"）处以8.86亿韩元（约合70万美元）的行政罚款。

在对潜在漏洞进行检查后，PIPC 认定这些公司大部分符合《个人信息保护法》（PIPA）的要求。例如，这些公司在制定适当的隐私政策、应用预处理程序或去识别个人数据以及承认数据主体控制其数据的权利等方面表现出良好的做法。

不过，在以下方面似乎还有改进的余地：更彻底地删除和消除培训数据（通常来自互联网）中的个人数据；处理用户输入的数据；采取某些预防和补救措施，以及提高透明度。

以下三节概述了 PIPC 提出的监管建议：

I.处理公开数据中的个人数据

人工智能系统的开发者和部署者经常从互联网上获取公开数据，用于人工智能模型训练。韩国先发制人的检查发现，在某些情况下，韩国数据主体的重要个人信息（如居民登记号码和信用卡号码）被包含在公开采购的数据集中。

OpenAI、谷歌和 Meta 正在实施某些保障措施，例如：防止将来自预计包含大量个人数据的网站的数据纳入人工智能训练数据；参与个人数据的去重工作；以及防止人工智能模型将个人数据纳入其生成的响应中。不过，研究发现，还可以采取进一步的保障措施，预先从训练数据集中删除 RRN 等个人数据。

根据调查结果，PIPC 建议人工智能服务提供商在人工智能服务开发和部署的每个阶段实施更强的保障措施。此外，为确保韩国数据主体的个人数据在预培训阶段被删除，PIPC 打算提供涉嫌以非法方式包含韩国个人数据的网站的 URL 信息。

II.处理用户输入的数据

经证实，LLM的人工智能服务提供商正在雇用人工审核员，他们可以直接查看、评估和修改用户输入的提示和人工智能生成的答案，以此确保模型回答的准确性和可靠性。通常情况下，以这种方式创建的数据也被用于训练人工智能模型和提高服务质量。

然而，从用户的角度来看，他们很难意识到自己提供的数据可能会被人工审核人员处理。这可能会导致用户无意中输入个人数据或敏感内容，如电子邮件中的文本。如果不采取足够的保障措施，在用户输入的数据被纳入培训数据库之前安全地删除个人标识符，这可能会造成侵犯隐私的风险。

根据 PIPC 的建议，人工智能服务提供商应实施明确的用户通知，告知用户他们提交的数据可能会由人工审查员进行审查，以提高服务质量。此外，建议这些公司提高用户对方便删除所输入数据的功能的可及性。

III.整体服务，包括预防和补救措施

人工智能服务在处理数据的方式上与传统服务有很大不同，例如在收集的数据类型、处理方法、收集目的和保留期限等方面。此外，由于 LLMs 可以作为开源软件复制或分发，因此在发现漏洞时立即实施补救措施可能具有挑战性。另外，数据保护措施的程度--特别是如何应对儿童的个人数据或敏感数据--在不同的人工智能服务中可能会有所不同，这取决于具体的服务提供商，即使是基于相同的LLM。

PIPC 强调，人工智能服务提供商需要在其隐私政策中详细明确地概述其数据处理做法，并建议他们建立健全的报告机制，使用户能够轻松地标记不适当的输出。此外，PIPC 还强调了建立有效流程以迅速解决模型漏洞的重要性。

另外，在先期检查过程中，发现一些人工智能服务在运营时没有对 14 岁以下的用户进行适当的年龄核实程序。这些提供商已纠正了这一问题。

人工智能检查具有重要意义，因为它标志着 2023 年修订的韩国《个人信息保护法》中引入的先发制人检查制度首次应用于私营部门。该制度旨在主动解决个人数据保护方面的漏洞，同时促进新兴人工智能产业的发展。检查发现并解决了需要立即改进以保护数据隐私的紧迫漏洞，同时考虑到涉及人工智能的技术进步速度很快。

面对不断发展的人工智能技术和行业趋势，如人工智能模型的复杂化和开源模型的普及，PIPC 打算迅速结束对其余人工智能服务的持续检查，并实施持续监测，以确保个人数据得到妥善保护。