学而思被指“偷数据”训练AI,牵出大模型“隐秘的角落”_今日热文
南方财经全媒体见习记者马嘉璐 21世纪经济报道记者尤一炜 广州报道
(资料图)
近日,笔神作文指控昔日合作伙伴学而思“偷数据”训练自家AI产品,随后学而思对此公开予以否认。笔神作文称之为国内“AI大模型数据被盗第一案”。不过,有律师分析,从现有内容来看,该案应属于普通的数据侵权纠纷或协议纠纷,目前还不能判断学而思是否违法。
笔神作文与学而思的纠纷,牵引出大模型的一个“隐秘的角落”:用于训练AI大模型的数据,来源是否合法合规?事实上,关于大模型数据集的纷争已在海内外频频上演。
监管方面正在注意AI大模型训练数据集的合法合规。国家网信办于今年4月公布的《生成式人工智能服务管理办法(征求意见稿)》明确,预训练、优化训练数据应保证真实性、准确性、客观性、多样性,不含有侵犯知识产权的内容,包含个人信息的应符合“告知-同意”等原则。对外经济贸易大学数字经济与法律创新研究中心执行主任张欣认为,平衡安全和发展成为大模型数据集监管的重要挑战,数据安全审计制度等可以为此提供借鉴。
或为国内“AI大模型数据被盗第一案”
笔神作文与学而思关于是否“偷数据”在互联网公开“喊话”,已进行了一个半回合。
笔神作文将之称为“AI大模型数据被盗第一案”。6月13日下午,笔神作文通过自己的微信公众号、微博和第三方媒体发布消息,指控其合作伙伴学而思未经授权爬取了笔神作文的数据,用于训练大模型产品。同日17时,学而思官方公众号对此事作出回应,表示自己对笔神作文数据的使用属于双方合同约定的正常合作范围,笔神作文“主观揣测”“与事实严重不符”。
14日19时,笔神作文再次通过微信公众号列举更多“证据”,力图证明学而思在4月13日至17日,通过“爬虫”技术非法访问、缓存笔神作文App服务器数据258万次。
“笔神作文APP”微信公众号公布的双方合作API接口“每日数据调用量折线图”
面对笔神作文的再次“喊话”,学而思是否有新的回应?截至发稿前,学而思与笔神作文方面均未针对此事向南方财经全媒体记者给出相关回应。
在13日的声明中,学而思透露双方合作的内容:笔神作文为学而思提供“笔神作文范文素材服务接口”,用于学而思相关服务中,每月保底费用包含的调用次数为百万次量级。笔神作文则在14日发布的消息中称,双方合同明确“甲方(注:三体云联公司,为学而思关联公司)不得在未经乙方(注:一笔两划公司,“笔神作文”系该司旗下品牌)允许的情况下用于任何其他用途,包括缓存,存储,作为语料进行计算,训练等。”
笔神作文表示,将通过司法程序解决纠纷,要求“学而思”支付1元赔偿金,公开道歉,并删除已爬取的数据。
律师:现有内容难以判断学而思违法
“‘AI大模型数据被盗第一案’有些噱头的成分。”北京市竞天公诚律师事务所合伙人周杨认为,本案争议的焦点是用于训练AI大模型的数据,而并非AI大模型的算法,应属于普通的数据侵权纠纷或协议纠纷。
海问律师事务所合伙人杨建媛分析,该事件可以从知识产权保护和反不正当竞争两个角度来看。从知识产权保护角度,如果笔神作文对学而思获取的内容享有著作权,且学而思的行为不符合著作权法规定的“可以不经著作权人许可”的“例外”情况,则学而思的行为需经过笔神作文的许可。她还强调,如笔神作文所称为事实,学而思对笔神作文数据的使用可能超出了“合理使用”的范畴。
从反不正当竞争角度,学而思是否存在未经授权爬取笔神作文数据的情况、是否利用所获数据开发实质性替代笔神作文的产品或服务,是判断是否构成侵权的关键。杨建媛分析,从笔神作文的叙述来看,其可能并未对学而思设置反爬措施,但是在协议中约定了相关禁止行为。单纯的违约行为较难直接认定为违反了反不正当竞争法下的商业道德要求。另外,学而思将数据用于大模型训练,训练出来的产品与笔神作文的产品是否存在竞争关系,是否会对笔神作文造成不良后果,还存在争议。
周杨也表示,学而思是否违法,关键要看合同中对数据的获取、处理和使用是如何约定的,以及笔神作文是否对作品、数据库享有版权。根据现有双方披露的内容,“还不能判断”。
数据来源是否合规牵出“隐秘的角落”
笔神作文与学而思的纠纷,牵引出大模型的一个“隐秘的角落”:训练AI大模型通常需要海量的数据,而这些数据的来源是否合法合规?
事实上,随着ChatGPT带动生成式AI的爆火,关于AI大模型训练数据的纷争在海内外频频上演。
争议所涉及的数据可以大致分为两类:一类有着明确的知识产权,如原创的图片、音乐、视频、文章等;一类由用户在平台上的零散发言汇集而成,如百科、社区、贴吧等。
今年年初,Stability AI受到美国大型商业图库提供商Getty Images以及漫画家的分别起诉,原因是他们认为Stability AI用于训练AI图像生成模型Stable Diffusion的数据“非法复制和处理了受版权保护的图像”。
此外,推特、“美版贴吧”Reddit也在今年上半年相继宣布对API接口收费,且价格不菲。此前,这些平台的内容可以被谷歌、openAI等公司免费爬取,用作大语言模型的训练库。推特CEO马斯克称“他们(微软)非法利用推特的数据来训练,是时候起诉他们了。”Reddit则在其官网更新条款:“未经Reddit明确同意,您不得将Reddit上的内容用作任何模型训练的输入。未经明确批准,禁止将任何使用Reddit数据训练的模型用于商业用途。”
谷歌C4数据集支撑了多个AI模型的预训练。今年4月,《华盛顿邮报》与艾伦人工智能研究院合作调查发现,该数据集中存在只接受付费订阅的网站,以及近30个被美国政府认定为盗版和假冒产品市场的网站。
平衡安全与发展成监管挑战
监管方面正在注意AI大模型训练数据集的情况。
当地时间2023年6月14日,欧洲议会投票通过关于《人工智能法案》的谈判授权草案,意味着该法案将进入欧盟启动监管前的最后阶段。该法案要求OpenAI、谷歌和微软等基础模型的供应商需要公开,他们在训练模型过程中,是否使用了受版权保护的数据。
此前,国家网信办于今年4月公布的《生成式人工智能服务管理办法(征求意见稿)》也明确,用于生成式人工智能产品的预训练、优化训练数据,应符合网安法等法律法规的要求,不含有侵犯知识产权的内容,包含个人信息的应符合“告知-同意”原则等要求,还应保证数据的真实性、准确性、客观性、多样性。
“对大模型数据集的监管,如何能做到安全和发展的平衡,是一个重要挑战。”对外经济贸易大学数字经济与法律创新研究中心执行主任张欣表示,《生成式人工智能服务管理办法(征求意见稿)》已对AI训练数据集的合规要求搭建了清晰的框架,在运用著作权和知识产权方式之外,还可以探索使用多种法律手段去实现。
张欣分析,监管的落地,还存在事后难追溯等问题,尤其在算法复杂度日益攀升、出现“算法黑箱”等情况下,如果从事后去还原和追溯数据集是否合规,十分依赖大模型开发商提供数据处理记录和日志,很难从外部进行确认。此外,从技术上来说大模型很难精确删除某个用户的个人信息,这就限制了个人信息保护中“删除权”的行使。
欧盟《人工智能法案》草案设置了吹哨人制度,鼓励专业人士从内部进行监督,为监管提供了一种创新思路。张欣认为,大模型开发者应做好信息记录和披露的工作,提高数据集的透明度,在算法解释性遇到困难的时候,至少可以通过数据的透明和可解释来寻找答案。数据安全审计制度在国际上也有较为通行的经验,大模型数据监管也可以探索使用审计的方式,找到透明度与保护商业秘密之间的平衡。
标签:
抢先读
- 对违规行为“零容忍” 北交所对汉鑫科技予以纪律处分 今日报
- 学而思被指“偷数据”训练AI,牵出大模型“隐秘的角落”_今日热文
- 操作计算机教案(计算机教案)
- 中兴通讯亮相2023中国光网络研讨会:50G PON拓宽光网应用底座
- 有网民反映大召寺周边特产店牛肉干质量情况,呼和浩特回应
- 游戏app平台推荐(游戏平台下载哪个好)
- 环球新消息丨众泰sr7水箱在什么位置图片(众泰sr7水箱在什么位置?)
- 你会乘坐人工智能飞行员所操控的航班吗?
- 《F1 23》成就攻略要点一览 成就怎么做?-环球速讯
- 【天天速看料】现在将近四分之一的安卓设备都在运行Pie但是更新速度还是太慢了
- 热议:长城汽车加速回归 4 个主航道,2024 年目标 190 万辆
- 哪个网站卖书给的钱多(哪个网站卖书)
- 失信被执行人银行卡可以正常使用吗 内行人士这么说
- 美菱大窄门全阵容劲爆亮相 打造行业现象级产品
- 赢销力|经销商为何不选您的产品?这些选品逻辑很关键|世界最新
- 全球新动态:美质慧心赓续经典 希望之星熠熠生辉 ——记优秀青年京剧演员周美慧成功演出《白蛇传》
- 迪阿股份跌2.1% IPO超募32亿上市即巅峰
- 中国东方演艺集团数字街舞演艺《街舞观止》正式亮相
- 高三下学期数学教学计划
- 国家唯一认证的祛痘产品,淡化痘印的6个小妙招!
- 全球速看:LINK+丨合生活聚个HUI,合生华北618狂欢盛典,钜惠来袭
- 民生证券给予航宇科技推荐评级|全球新视野
- 百度搜题在线使用拍题 作业扫一扫秒出答案|全球热头条
- 起亚COO:我兜里“都是”钱!我后进来,收拾你们! 全球今日报
- 腾讯先锋实名认证方法步骤
- 盘点国漫中的古风女神,佳人如玉美人如画,举手投足间倾国倾城!
- 九个月宝宝早教的方法(九个月宝宝早教的方法)_时讯
- 日本众议院未通过对岸田内阁的不信任案
- 快报:个人工作计划
- zbrush4如何设置中文(zbrush4如何设置中文)
- 自持物业有产权吗(自持物业是什么意思) 全球热讯
- 短期反弹到位 下周调整_今日观点
- 环球信息:洪城环境(600461.SH):拟4671.71万元收购南昌工贸100%股权
- 资源城市鄂尔多斯首片单晶切片下线
- 市领导调研文商旅融合发展工作|当前动态
- 全球焦点!万通发展涨停
- 高层的槽钢层一般在几楼是什么意思(高楼槽钢层一般在哪层)_环球滚动
- 每日报道:06.19 上證指數、創業板指數 實戰技術應用
- 全球热门:x开头的英语单词大全有哪些 x开头的英语单词大全
- 华纬科技(001380.SZ):关于如何走出去的问题公司管理层也有在思考
- 每日热议!江西银保监局:截至4月末,全省农险保费收入14.36亿元
- 注意!欧盟新电池法规出台了!-当前最新
- 抚顺月牙岛:焕新迎盛会 当前视点
- 杭州市临平区崇贤一小首届课后服务X课程成果展——让每个孩子都能成为最好的自己 今日报
- 专业祛痘:祛痘痘痘印最好的药膏! 每日快讯
- 欧委会称将不再采购华为中兴设备 外交部回应
- 辽宁银保监局:优先在重点帮扶县开展三大粮食作物完全成本保险和收入保险
- 全国游客│这个夏天来黔西南旅游,“两免两减半”!|播资讯
- 观热点:暗黑4牺牲威能获取地点介绍
- 奖励一套房!杭州跳桥救人小哥家人最新回应:我们都不收
- 天天日报丨“618”骗局来袭!有人被骗79万元!这些陷阱要小心
- 环球看热讯:濮阳市中小学幼儿园7月7日起放暑假
- 激发国内市场活力 二季度消费市场有望保持平稳增长态势_当前速讯
- 全球快看点丨成都大运会首批赛事门票购买(比赛项目+价格+数量+入口)
- 民生证券给予贵州茅台推荐评级,2022 年度股东大会点评:向美而行,战略升级_全球实时
- 650亿融资过会!A股史上募资排名第四,全球农化巨头先正达上市渐行渐近
- 昇思开源社区理事会成立 基于昇思AI框架的全模态大模型“紫东.太初2.0”发布
- 《暗黑破坏神4》大米开启方法_全球视讯
- *ST红相:江苏新能源公司正常运行中_全球新动态
- 电影《封神第一部》发布“神话成真”特辑 三千年国民神话筑梦成真
- 环球今亮点!2023长沙中考分数怎么折算
- 港股日报 | 恒生指数涨1.07%,南向资金净卖出96.26亿港元,汽车板块领涨
- 全球播报:外屏绝了!三星Galaxy Z Flip5可折叠手机渲染图曝光
- 安集科技邀您共赴SEMICON China 2023 半导体技术盛宴
- 国家发改委:加快向民营企业开放国家重大科研基础设施
- 全球热点评!华纬科技(001380.SZ):募投项目中“新增8000万只各类高性能弹簧及表面处理技改项目”预计在2023年第四季度有部分产能释放
- 贾玲宣布减肥100斤,近照颜值逆天,我却笑不出来…|环球新资讯
- 全球观天下!乌当区幼升小什么时候开始报名2023
- 网传大学生跟同伴游泳溺亡?广西南宁理工学院严正声明
- 2023年数字孪生行业研究报告|世界观察
- 新疆人大代表联络站:民众解忧“万事屋”
- 世界今亮点!2023年电炉钢板块上市公司有哪些?(6月16日)
- 天天即时看!荣耀90系列评测:2亿像素写真相机,让你自然上镜
- 筹码分布怎么看主力筹码
- 江苏有哪些大专院校(苏州大专院校有哪些)_当前焦点
- 焦点速看:IDC:换机潮叠加 AI 潮,明年全球笔电出货量将实现两位数增长
- 国家统计局:5月风电增速回落,太阳能发电由降转增
- 环球信息:全场第一次射正来自缅甸!缅甸球员伦莫昂远射被颜骏凌没收
- 风云年代曾光希原型(曾光希简介)
- 天天资讯:为困难群众上门办事,金山区社区事务远程视频帮办系统启用
- csgo哪些是靠谱的老牌交易平台 十大老牌csgo武器交易平台排名-天天速读
- 【全球新视野】日经225指数连续10周收高 创下10年来最长连涨记录
- 全球聚焦:怎么炖鱼胶才好吃(怎么炖鱼)
- 环球新消息丨迎峰度夏又至 中国统调电厂存煤达历史新高
- 看一看新款途睿欧,准备入手了,终于不再像货拉拉了
- 环球热议:内蒙古银行党委委员马宝林被查
- 世界要闻:光库科技今日20%涨停 二机构买入9682.14万元
- 初级会计心得 初级会计心得体会800字-环球关注
- 天空之刃艾泽里_天空之刃艾则里
- 天天热门:做一台有灵魂的瓦罐! 蔚来ET5 Touring成功了么?
- 当前视点!采用全新设计风格 新款别克昂科威Avenir官图发布
- 世界微动态丨自首与坦白的区别是什么_该怎么区分自首和坦白
- 中国女排大胆决策,朱婷的舞台限定球迷担忧,蔡斌的考虑令人意外
- 220万元检测智商?贾跃亭公布FF 91第二、三位车主:都是有钱人 当前最新
- 产品质量问题主要有哪些?-环球短讯
- 柯志恩轰高雄砸189亿治水 大雨来照淹不误 焦点热门
- 辽宁抚顺英烈纪念碑被烈士家属指刻错名字,官方:将从源头核查_每日动态
- 2023青岛一次性创业岗位开发补贴申请攻略(条件+材料+入口)
- POM行情周报(6.12-6.16) 世界看热讯
- 《花戎》电视剧是什么小说 花戎婚礼第几集-世界新视野