返回首页  设为首页  加入收藏  今天是:
网站首页人工智能商业智能智能家居智能手表智能手机智能通信智能电视智能汽车智能机器人
相关文章
 AI时代数据的制度困境与应对…
 以AI为翼助力博物馆腾飞
 瑞泊: 华人科学家 正站在世…
 BI仪表盘的真正使命:不只是…
 双汇通过数字化转型赋能肉类…
 贵州银行2024年高质量发展答…
 卡诺亚“臻享五一·礼遇国补…
 华为手机朗读文本的使用方法
 联发科天玑8200处理器规格参…
 2025年智能手表对比评测:Ap…
 湖北文理学院新增智能车辆工…
 厦门理工学院新增智能车辆工…
 科融综合高中部krxg123驶向未…
 济南PPP项目基坑坍塌3人死亡…
 斗门学校学区划分出炉!这个…
 京基宸悦府(天荟)福田轻资…
 2025电子信息类全解析:芯片…
 7月7日股市内参
 2025志愿填报必看:九大类工…
 《奔跑吧邵阳》音乐MV:一曲…
 日本女性票选十大美女红星!…
 拿了龙标却没能上映7年连续翻…
 干翻日韩巨头终结中国“少屏…
 璧合广告曹炜:CMO的KPI定错…
 2025年全球智能电视行业发展…
 红潮涌动A股“新势力”与“老…
 网达软件(603189)5月8日主…
 久其软件(002279)7月11日主…
 深化大数据应用、消除无人机…
 《法治日报》 北京延庆检察运…
 医疗数据在保险行业的应用案…
 家居行业产业指南_行业指南_…
 2025年“中品榜”全屋定制十…
 痛车、痛巴、痛包出没!7月上…
 vivo WATCH 5上手:平价、精…
 2025男士手表推荐品牌排行大…
 年度世界名表销量榜劳力士有…
 哈啰驶向「无人区」
 马斯克不再爱车了
 上海长宁区又一无人驾驶“独…
 荣耀400系列一发布Magic 7性…
 4000元预算手机推荐:2025年…
 导购手机频道_天极网
 5G基站覆盖范围与设备升级:…
 基站设备板块龙头名单(2025…
 通信设备:互联网时代塑造现…
 WinnCafe稳因咖啡获数千万元…
 汇博机器人集团高端园区机器…
 法国Mistral AI推出新模型Me…
 第一次来厦门旅游五天四晚大…
专题栏目
网络
您现在的位置: 智能制造网 >> 人工智能 >> 正文
高级搜索
AI时代数据的制度困境与应对策略 法观
作者:佚名 文章来源:本站原创 点击数: 更新时间:2025/7/13 16:02:52 | 【字体:

  傅艺伟和金巧巧当前,数据已经成为人工智能快速发展的催化剂。党的二十届三中全会提出,要完善推动新一代信息技术、人工智能等战略性产业发展政策和治理体系,引导新兴产业健康有序发展;建设和运营国家数据基础设施,促进数据共享。

  从我国产业实践来看,相关数据法律制度在应对人工智能发展方面还存在一定的滞后性,导致数据“不能用”“不够用”“不好用”等问题,一定程度上制约了我国人工智能技术和产业发展。从国际社会来看,主要国家和地区积极通过立法修法、发布指南等方式为解决人工智能数据制度“瓶颈”提供法律依据和实践指引。

  面向新一代人工智能发展需求,我国需尽快调整完善相关数据法律规则,推动数据合法高效利用,为人工智能高质量发展提供制度支撑。

  人工智能是发展新质生产力的重要引擎,正在成为整个经济社会发展变革的基础性力量。随着人工智能技术的快速发展和经济效用的逐步体现,算力、算法、数据作为人工智能核心三要素的重要性日渐凸显,“而在这三大核心要素中,数据值得特别关注”。大模型时代的到来,加速推动人工智能发展从以模型为中心向以数据为中心转变,数据资源成为人工智能尤其是大模型发展中最核心、最基础的要素。构建合理适宜的法律制度是促进人工智能健康发展的重要基础,立法通过明确权利和义务为人工智能的创新和规范提供确定性、激励性和指导性。

  在数据领域,目前我国已经建立以《数据安全法》《个人信息保护法》等法律法规为核心,涵盖数据安全与发展、个人信息保护、商业数据流通等多方面的数据法律制度体系,也在《生成式人工智能服务管理暂行办法》等部门规章中规定了相关数据处理要求。

  人工智能技术的突破式发展对高质量数据提出了巨大需求,但现有的数据制度规则并未及时作相应调整,部分领域还存在制度空白,出现数据“不能用”“不够用”“不好用”等问题,导致当前人工智能技术产业发展中面临数据资源的“掣肘”。

  党的二十届三中全会通过的《中共中央关于进一步全面深化改革 推进中国式现代化的决定》提出,完善推动人工智能等战略性产业发展政策和治理体系,引导新兴产业健康有序发展;加快建立数据产权归属认定、市场交易、权益分配、利益保护制度,提升数据安全治理监管能力等。

  随着全球人工智能持续快速发展,我国亟须进一步构建完善数据合规处理、数据安全保障以及数据质量管理等相关法律制度规则,为人工智能创新发展提供有力法治保障。

  当前,人工智能发展正处在以大模型为代表的生成式人工智能阶段,大规模、高质量、多样性的数据集是提升人工智能大模型性能的关键。

  实践中,人工智能大模型训练数据来源主要包括公开数据集、企业内部数据、合作伙伴数据、购买第三方数据以及用户生成内容等。目前我国大模型企业在获取和使用高质量数据资源及语料库时,存在有效数据量不足、部分数据作为训练数据合法性存疑、数据质量无法保障等问题,成为制约新一代人工智能发展的数据“瓶颈”。

  目前,我国相关法律法规对数据安全保护、数据收集使用规则等作了明确规定。例如,《网络安全法》规定任何个人和组织不得从事窃取网络数据等危害网络安全的活动,《个人信息保护法》明确了个人信息处理的合法性基础。随着人工智能技术的快速发展,诸如数据爬取合法性、公开个人信息的合法使用等问题不断涌现,但相关制度规则尚未及时作出回应调整,导致人工智能大模型在获取和使用数据时可能存在合法性问题,部分类型数据“不能用”问题突出。

  从互联网公开渠道获取数据是人工智能大模型训练数据的重要来源,如根据OpenAI披露的数据统计,GPT3的训练数据大多来自Common Crawl等网络爬虫数据集。然而,目前大量网站采用Robots协议、验证码登录等方式限制爬取行为,企业通过爬取数据进行人工智能大模型训练可能存在违法风险。

  从我国司法实践看,近年涉数据不正当竞争案例已显示出数据权益保护的复杂性,关于数据授权使用、设置Robots协议限制他人爬取数据、不同类型数据保护等问题仍处于讨论中。在监管立法方面,2024年5月国家市场监督管理总局公布的《网络反不正当竞争暂行规定》明确指出,经营者不得利用技术手段,非法获取、使用其他经营者合法持有的数据。

  从司法和监管实践看,由于人工智能大模型训练中公开爬取数据来源多样、数量巨大,判断爬取数据行为是否合法变得更为复杂。

  此外,爬取数据的行为若产生危害计算机信息系统安全、数据安全等破坏性后果,还有可能被认定为相关刑事犯罪。由于爬取数据进行人工智能大模型训练存在这些合法性风险,人工智能训练数据集的构建面临法律上的不确定性。

  人工智能大模型训练数据来源广,可能包含大量个人信息。我国《个人信息保护法》《生成式人工智能服务管理暂行办法》明确了使用个人信息训练人工智能大模型的合法性基础,包括取得个人同意或者为履行法定职责或者法定义务所必需、为应对突发公共卫生事件或者紧急情况下为保护自然人的生命健康和财产安全所必需等情形。除法律法规明确规定的特定情形外,“告知—同意”被认为是处理个人信息的必需要件,但实践中存在个人同意形式化的问题,也导致了其他处理个人信息的合法性基础被忽视。从实践来看,在获取用户同意方面,由于大模型语料库可能包含的个人信息量巨大,逐一获得个人信息主体的同意十分困难。同时,对于使用个人同意公开的个人信息、训练人工智能大模型的行为是否属于《个人信息保护法》第27条规定的“在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息”存在不确定性,促进个人信息合理利用面临实践困难。

  人工智能大模型需要高质量训练数据作为性能的保证,但高质量的训练数据集可能包含大量版权作品。目前,关于人工智能大模型使用未获得著作权人授权的作品进行训练是否构成侵权已成为争议焦点,相关诉讼纠纷屡见不鲜。在域外,包括OpenAI、Stability AI、Meta、Anthropic等大模型公司均因在人工智能大模型训练中使用版权数据深陷纠纷。如2023年年底,《纽约时报》向OpenAI和微软提起诉讼,认为OpenAI在训练大语言模型时未经授权复制和使用了《纽约时报》的文章,构成版权侵权。2024年2月,我国广州互联网法院对某人工智能公司在提供生成式人工智能服务过程中侵犯著作权人对奥特曼作品所享有的复制权和改编权一案作出生效判决。广州互联网法院认为,经营人工智能生成绘画服务的被告侵害了原告对涉案奥特曼作品享有的复制权、改编权,应承担停止侵害、赔偿损失等民事责任。判决书指出,“考虑到生成式人工智能产业正处于发展的初期,需要同时兼顾权利保障和产业发展,不宜过度加重服务提供者的义务”。目前,产业界、学术界、法律实务界就人工智能背景下解释适用著作权法,特别是关于人工智能大模型在训练阶段使用版权数据是否构成“合理使用”、在现有法律规定下推进版权数据授权等问题进行了诸多讨论。

  在人工智能大模型训练对巨量、优质数据需求增长的同时,产业界、学术界也提出数据“不够用”的担忧。研究机构Epoch估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。美国加州大学伯克利分校计算机科学教授、《人工智能——现代方法》作者斯图尔特·罗素(Stuart Russell)发出警告称,ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”,通过收集大量文本来训练机器人的技术“开始遇到困难”。数据流通共享是释放数据要素价值的关键,也是扩容人工智能大模型语料库的重要方式。“数据融合汇聚不仅是人工智能发展的基础,而且对消除人工智能偏见、促进社会公平具有重要意义。”

  目前,我国在数据共享、数据交易及数据开放等方面仍存在薄弱点和空白区,亟须打通数据共享流通在法律制度上的卡点堵点,“构建满足人工智能发展需要的数据开放、共享、流通、交易的模式”。

  头部人工智能企业很多也是传统大型互联网企业或平台企业,其基于原有互联网服务掌握了大量的数据资源,并以自有数据对人工智能大模型进行训练,在发展中形成了一定的竞争优势。与此同时,部分头部企业已明确禁止其他企业获取、使用其大模型数据。如谷歌公司、OpenAI等在其生成式人工智能服务使用协议中均明确规定,禁止利用其服务开发竞争性产品或服务,禁止未经允许爬取数据等。

  此外,也有互联网企业设置“栅栏”或“高墙”,防止其他企业特别是有竞争关系的企业获取其数据。互联网企业的这类做法有打造自身生态系统、增加竞争优势、增强安全等目的,但也导致行业数据孤岛现象加剧,数据无法互联互通,影响数据流动和利用。对于人工智能发展而言,此类情形已经造成了明显的影响。

  向第三方购买的数据、合作伙伴数据是人工智能大模型训练中的重要数据来源。据中国信息通信研究院《数据要素白皮书(2023年)》统计,目前场外交易仍是数据交易的主要形式。我国《数据安全法》中明确了国家建立健全数据交易管理制度,规定了数据交易中介服务机构的具体义务和相应的法律责任,但该法侧重于数据安全,较少涉及数据交易市场规则和具体制度。

  目前,数据场外交易在数据安全管理、数据定价规则、交易双方权利义务等方面缺乏明确规则指引,导致数据提供方、使用方难以就数据共享交易达成共识,或者存在数据定价不合理或不公平等问题,一定程度上阻碍了数据交易流通的实现,制约了大模型企业构建多样化训练数据集。

  公共数据是人工智能产业发展和模型训练的重要数据来源。从全球范围来看,主要国家和地区深入推进公共数据开放,欧盟《人工智能法》前言中强调以欧洲共同数据空间为人工智能发展提供数据资源,美国商务部等适应人工智能发展提升公共数据开放水平和质量。据《全球数据晴雨表》最新统计,我国公共数据开放排名第41。目前,我国立法层面仅有《数据安全法》对政务数据开放进行原则性规定,但对于公共数据开放主体、范围、方式及法律责任等尚未出台具体规则,一定程度上影响了公共数据开放推进。

  数据是人工智能的基石,数据的质量关乎人工智能发展水平。高质量的数据集可以帮助人工智能大模型更好地理解和捕捉不同的概念、语义和语法结构,使模型在各种任务和领域中表现出更好的泛化能力,推动大模型的价值跃迁。简言之,高质量数据是提升模型的准确性、稳定性和可解释性的关键。目前,对数据质量的管理要求主要停留在行业自律、标准规范等层面,相关立法对数据质量的规定较少,仅有《生成式人工智能服务管理暂行办法》规定选择训练数据要采取有效措施防止歧视,增强训练数据的真实性、准确性、客观性、多样性等。训练数据质量管理尚缺乏统一、可执行的标准,一定程度上影响了人工智能大模型训练质效。

  以低质量数据训练人工智能大模型会对模型能力产生破坏性影响,使人工智能大模型记忆有偏差信息,发生事实性错误,导致人工智能产生“幻觉”等问题。目前,人工智能大模型训练中大量数据是从公开渠道获取,或多或少存在噪音问题。标注数据的质量也会受到标注人员自身素养、文化水平等主观因素影响。此外,人工智能大模型采用“人类反馈强化学习”的训练方法,在缺乏对齐标准的情况下,反馈提供者的个人观点可能被人工智能大模型学习和加强,导致生成结果缺乏客观性。

  人工智能大模型训练中需要学习大量多样的知识和价值观层的数据,以保证人工智能大模型在全球化背景下实现多样性和独特性。但有研究显示,在全球网站中,英文占59.8%,而中文仅占1.3%。ChatGPT的中文语料库占比不足0.1%。除体量上的差距外,数据背后的价值观差异也是影响我国人工智能大模型发展的重要因素。例如,有研究指出,当询问对某些事件的评价时,ChatGPT可能生成蕴含西方价值观的内容。

  时效性是数据质量的关键属性。错误或过时的数据可能导致错误的决策。但人工智能大模型通常使用历史数据进行训练,缺乏对最近发生的事情或正在发生的事情的了解。语料库中数据的时效性不足导致数据质量低,尤其针对新闻出版、法律或者金融等对数据时效性要求较高的行业而言,由于语料库中的数据没有及时更新,可能导致生成的内容缺乏准确性。

  当前,全球人工智能产业进入加速发展阶段,世界主要国家和地区纷纷加速战略布局,抢占人工智能发展高地。在数据方面,多个人工智能发展领先的国家和地区积极出台相关立法、指南文件,力图为人工智能发展提供更为充足、质量更高的数据资源。

  为促进数据的开放、共享和流通,向人工智能发展提供充分的数据供给,以欧盟、美国为代表的经济体在立法中对数据开放和流通进行了明确规定。在欧盟,2024年8月1日生效的欧盟《人工智能法》明确规定,欧洲共同数据空间为人工智能提供可信、负责、非歧视的高质量数据访问;提供或支持数据访问的主管部门为AI提供数据访问。2024年4月生效的《欧洲互操作法》中也指出,要建立跨境互操作的治理框架,加强欧洲公共部门间的数据跨境交换。此外,欧盟《数据法》明确了企业和个人访问、获取、共享数据的具体规则,《数据治理法》规范欧盟及成员国公共部门持有数据的再使用等,均为构建人工智能训练数据集提供了合法支撑。在美国,推动政府数据开放、促进数据流通一直是相关立法、政策、标准方面的发力点。2024年4月,美国商务部发布关于《人工智能就绪的开放政府数据资产》的信息请求,以改进政府数据资产的创建和使用,为生成式人工智能技术发展提供高质量数据。

  2024年以来,为解决人工智能发展中以相关类型数据作为训练数据合法性不明的问题,部分国家和地区出台相关指引、指南及法律解释,为人工智能合法合规收集使用相关数据提供规范指引。如2024年5月,荷兰数据保护机构发布《数据爬取指南》,为进行数据爬取时遵守欧盟《通用数据保护条例》(GDPR)要求提供具体指引。2024年6月,法国国家信息和自由委员会(CNIL)发布《AI系统开发的数据保护指南》,从AI系统开发全周期入手,结合欧盟《通用数据保护条例》和《人工智能法》为相关技术人员、业务决策者等提供数据保护的具体指引,包括确认职责、明确数据处理的合法性基础。2024年6月,欧盟数据保护监督机构(EDPS)发布《生成式AI数据合规指引》,通过对人工智能是否涉及个人信息处理、何时进行数据保护影响评估等关键问题进行说明,结合具体实例,为欧盟机构使用和开发生成式人工智能工具提供数据保护的具体指导。

  随着生成式人工智能的快速发展,数据质量问题成为各国关注的重点,相关立法开始对人工智能训练数据质量进行强制要求,以数据质量为人工智能大模型质量提升提供基础保障。

  欧盟《人工智能法》明确高风险人工智能系统的训练数据集应当满足多方面要求:

  (1) 应当遵循适当的数据治理和管理实践,如对所需数据集的可得性、数量和适用性进行事先评估,审查可能的偏见等;

  (2) 应具有相关性、代表性、无差错和完整性,还应具有适当的统计学意义;

  (3) 在预期目的要求的范围内,考虑高风险人工智能系统只在特定地理范围、行为或功能设置的特定特征或元素使用;

  (4) 为了避免AI系统中的偏见可能导致的歧视,供应商应处理特殊类别的个人数据,以确保对高风险AI系统的偏见进行监测、检测和纠正。

  此外,美国白宫科技政策办公室发布的《人工智能权利法案蓝图》也提出,人工智能的训练数据应当具有相关性、高质量并适合当前任务,应当对部署地的社群具有代表性,并经过历史偏见和社会偏见的审查等,跟踪和审查派生数据源,对敏感领域数据提供额外监督。

  近年来,我国高度重视网络法律规范体系建设,持续完善新兴领域立法,为人工智能规范发展夯实制度基础。下一步,面对实践中存在的数据制度“瓶颈”,建议顺应新一代人工智能技术快速发展浪潮,持续优化完善数据治理法律体系,调整和细化相关制度规则,为人工智能发展扫清数据制度障碍。

  人工智能时代的数据治理应把握发展和规范两条主线,明确安全底线,结合权益保护与产业发展需求,构建促进型数据制度。在方法上,以完善现有法规为核心,通过修改、解释现有法律规范,在保持法律体系的稳定性基础上,明确数据利用规范要求。在理念上,可考虑以鼓励创新为目标,关注数据权益保护和数据流通利用制度对创新主体的激励,以数据要素发展促进人工智能等行业创新。

  在提升训练数据量的问题上,分别考虑爬取数据、个人信息数据、版权数据的特殊性。可针对人工智能大模型爬取数据进行训练的客观需求,通过修订现行立法放宽对第三方数据服务商数据爬取的限制,对于商业数据及公众可以无偿获取的数据等明确制度要求,为人工智能大模型开发者合法的数据爬取和使用留出制度空间。

  在实现人工智能大模型训练中个人信息合法使用方面,可考虑在《个人信息保护法》框架下,针对人工智能大模型训练阶段、生成阶段、应用阶段个人信息保护的具体问题出台细则和指引,考虑使用已公开个人信息训练的合法性,帮助相关企业合法地研发、部署、应用人工智能大模型。

  在协调人工智能创新和著作权保护方面,可考虑通过拓展合理使用条款或完善授权机制等方式,允许企业出于发展人工智能的公共利益需要,在不影响作品的正常使用,不减损著作权人合法权益的基础上,使用作品进行模型训练。

  数据可谓人工智能时代的公共性难题,其症结在于如何在保护个体或企业合法权益的同时,实现数据的聚合与互联。为应对人工智能发展对巨量数据的需求,需进一步畅通数据开放、数据共享和流通的渠道,释放存量数据潜力。

  建议以立法明确公共数据开放要求,将更多公共数据投入人工智能训练过程中。可考虑加快从国家层面出台公共数据开放相关立法,明确公共数据开放范围、开放主体、开放方式等具体规则,编制公共数据开放目录及相关责任清单,推进公共数据开放利用,加速高质量公共数据在人工智能背景下进一步释放价值。以立法明确数据共享、数据交易合法性,促进企业间数据资源互通聚合。相关部门可出台规则指引、实践指南、最佳实践案例等,以行政指导、行业自律等方式支持鼓励企业间数据互联互通。此外,可由数据交易较为先进的地区先行探索,制定数据产权、数据流通、数据定价等相关规则、标准,引导和促进数据依法高效流通,让数据“供得出、流得动、用得好”,真正成为人工智能发展的催化剂。

  高质量数据可以更好地模拟世界,将其作为训练数据可以增强模型能力,提升模型准确性、稳定性、鲁棒性和泛化能力。

  在强化数据质量管理方面,需软硬兼施全方位提升数据质量管理水平。一方面,人工智能相关法律法规、政策文件可进一步明确数据质量要求,规范人工智能研发者、数据提供者、数据标注者等的数据质量管理义务。“对于生成式人工智能而言,研发者应就模型训练时的数据类型、数据来源、数据处理方式、数据质量、数据标注规则、减少数据中潜在偏见和歧视的措施,以及数据输入后可能对个人、系统以及社会产生的影响与后果履行全面的告知义务。”另一方面,我国相关主管部门、行业组织可通过发布实践指引、行业标准的形式,明确对具体行业、具体类型数据质量的具体要求。围绕数据标准化、数据合规化、数据完整性、数据一致性等要求,构建数据集质量评测基准体系,开发数据标注管理工具,为提升数据质量提供明确指引。

  此外,可探索构建数据标注行业管理制度,完善数据标注规则,包括标注目标、标注格式、标注方法以及数据质量指标等。同时,构建数据标注从业者的资格准入制度,针对数据标注、数据审核等不同职能明确不同的任职要求等。

  整体来看,大规模、高质量的数据资源对于以生成式人工智能为代表的新一代人工智能发展的重要性日益凸显。

  在持续探索构建数字经济时代数据基础制度的背景下,有必要重新审视我国现有数据制度体系,“将规制目标从权利保护进阶为公平使用,将规制路径由命令控制转变为包容审慎”,在明确监管底线红线的基础上,通过优化完善个人信息处理、版权数据保护、公共数据开放等法律制度,强化数据爬取行为规范性要求,健全数据流通交易规则,促进数据合规流通,激发数据要素价值,为人工智能创新发展提供源源不断的优质数据资源。返回搜狐,查看更多

人工智能录入:admin    责任编辑:admin 
  • 上一个人工智能:

  • 下一个人工智能: 没有了
  •  
     栏目文章
    普通人工智能 AI时代数据的制度困境与应对策略 法观 (07-13)
    普通人工智能 以AI为翼助力博物馆腾飞 (07-13)
    普通人工智能 瑞泊: 华人科学家 正站在世界AI浪潮的中心 (07-13)
    普通人工智能 红潮涌动A股“新势力”与“老炮儿”的冰与火之… (07-12)
    普通人工智能 网达软件(603189)5月8日主力资金净买入219亿… (07-12)
    普通人工智能 久其软件(002279)7月11日主力资金净买入356… (07-12)
    普通人工智能 沙漠风暴:30年后(下) (07-11)
    普通人工智能 倒计时16天|报名人数达11W+|2025第十届数维… (07-11)
    普通人工智能 -V292514-绿色资源网 (07-11)
    普通人工智能 推动人工智能产业迈向更高水平 (07-09)
    普通人工智能 人工智能(AI)的崛起 (07-09)
    普通人工智能 ST赛为(300044)7月7日主力资金净买入60243万… (07-09)
    普通人工智能 2025年燃料电池行业发展现状全景分析及市场前… (07-08)
    普通人工智能 全球区块链中的人工智能应用前景和地区分布情… (07-08)
    普通人工智能 重新定义人工智能:从怀疑到构建可持续能源未… (07-08)
    普通人工智能 人工智能(AI)正在深刻改变我们的生活方式 (07-07)
    普通人工智能 大力推动我国人工智能大模型发展 (07-07)
    普通人工智能 人工智能可以带来哪些好处 (07-07)
    普通人工智能 AIGC是当下人工智能发展主路线了解他前世今生… (07-06)
    普通人工智能 人工智能如何重塑人类对“智能”的理解 (07-06)