环球焦点!AI大模型数据被盗第一案?学而思和笔神作文“开撕”
6月13日,笔神作文发布“关于‘学而思’ AI大模型侵权事件的声明”。声明称,4月13日至17日,学而思通过“爬虫”技术非法访问、缓存笔神作文APP服务器数据多达258万次。严重侵犯了笔神作文APP的数据权益。
(资料图)
对此,学而思官方微博发文回应称:“首先,MathGPT是专注于数学领域的自研大模型,没有任何作文相关数据;其次,‘作文AI助手’目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。”
6月14日,笔神作文再度发文,在这篇题为《学而思,你做了一次标准的扒库示范》的声明中,其表示“我们认为学而思方所述并非事实”,并列出了相关证据。
受访专家向记者分析,本次风波的实质是授权合同违约纠纷,涉及到对于合同授权范围条款的解释。AIGC产品获得训练模型数据授权是合规的根基。
学而思AI大模型疑盗取合作商数据?
“学而思在今年4月13日至4月17日,通过‘爬虫’技术非法访问、缓存笔神作文APP服务器数据多达258万次。”笔神作文在6月13日声明中表示。
笔神作文认为,这一行为不仅违反了双方的合同条款,也违反了《数据安全法》相关规定,严重侵犯了笔神作文APP的数据权益。事后其曾向学而思方面进行取证,并且对方承认是他们的算法组在爬取数据并作为己用,但在收到律师函后始终没有实质性答复。
记者了解到,笔神作文是隶属于北京一笔两划科技有限公司的品牌,据其官网介绍,笔神是一款人工智能辅助写作软件,拥有千万级写作素材库。笔神作文与学而思之间有着多年的合作基础。
笔神作文称,在不到一个月的时间,学而思的AI大模型MathGPT里包含的新产品“作文AI助手”就即将上线。疑似指后者作文AI产品使用了其数据。
笔神作文还表示会通过法律途径来维护自身权益,但目前国内并没有“AI大模型数据盗取”的判决先例。“希望学而思就此支付1元赔偿金,并公开道歉,同时删除已爬取的数据。”
各执一词:正常合作还是“扒库”行为?
6月13日晚,学而思发布声明,从三方面进行回应:
一是,学而思和笔神作文于2020年12月开始合作,合作协议明确约定:笔神作文为学而思提供“笔神作文范文素材服务接口”,用于学而思相关服务中,每月保底费用包含的调用次数为百万次量级。合作至今,双方一直按照调用量进行正常结算。
二是,学而思对笔神作文接口的调用,属于双方合同约定的正常合作范围,对笔神素材内容的使用均符合合同要求,并未用于合同以外的任何用途。
三是,笔神作文在公开声明中提及学而思正在研发的数学大模型MathGPT以及学而思学习机“作文AI助手”,并主观揣测学而思使用其数据用于两款产品的训练和研发,这与事实严重不符。
“首先,MathGPT是专注于数学领域的自研大模型,没有任何作文相关数据;其次,作文AI助手目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。”学而思称。
6月14日,笔神作文发布《学而思,你做了一次标准的扒库示范》,表示“我们认为学而思方所述并非事实”,并列出相关证据。
笔神作文称,学而思在声明里提到调用数据为正常使用,笔神作文在合同中明确“甲方(注:三体云联公司)不得随意泄露、使用、传播或缓存乙方(注:一笔两划公司)服务接口中的作文范本及相关内容,否则造成的损失将由甲方全额赔偿”。同时,在合同中提出“甲方不得在未经乙方允许的情况下用于任何其他用途,包括缓存,存储,作为语料进行计算,训练等。”
但在2023年4月13日至4月17日之间,笔神作文检测到服务器接口出现大量有规律的异常访问,导致服务器承载压力快速升高。通过查阅服务器日志发现:三体云联公司未经一笔两划公司授权许可,用单一IP通过“爬虫”技术非法访问一笔两划公司服务器数据多达 258 万次。
(图源:笔神作文APP微信公众号)
“而且,从这个IP的访问日志来看,每次访问的搜索词都是作文相关的高频搜索词,我们每页会返回30篇作文,每次访问都是用搜索词从第一页逐页向后翻,这种方式基本上把库里同个题目的所有作文全部抓取完了,这种行为不是正常人使用的方式。而且很多访问的间隔都是100毫秒左右,也不可能是正常人访问的速度。”笔神作文表示。
(图源:笔神作文APP微信公众号)
笔神作文认为,这种对数据库的搜刮式访问,与以往正常的访问方式完全不同,按业内的通常说法,这就是一种典型的“扒库”行为。
网络安全专家陈业炫告诉记者,所谓“扒库”是一个口语化的形容词,用于形容大规模爬取数据。“数据爬虫过程中,爬取的规模大了、频率高了,就会被认为是非正常行为。通常情况下,高频率的请求,大规模、每一篇都会访问的遍历式行为都需引起关注。”
据陈业炫介绍,爬虫本身就是程序化的自动行为,比如每秒10次的访问量可以看作是超出普通用户的行为频率,正常用户不会大规模、高频率的访问相关网页。
在这个事件中,哪些行为是被允许的?哪些是不被允许的?“笔神允许相关合作方查询、查看数据,但是不能本地化存储用于机器学习的素材。”陈业炫说。
据笔神作文介绍,基于双方的合作精神,笔神作文自己的技术团队设计了完备的安全机制,正常情况下,可以防止黑客们进行爬虫攻击。而只有提供给合作伙伴学而思的接口是不设防的。
如何理解接口不设防?陈业炫介绍,笔神作文方面未对学而思设置反爬虫措施。“日常的合作中,开放数据的一方通常需要限制访问的行为,包括频率和总量,给自己留以一定的反应时间,以防全部数据被快速抓走。”
记者多次通过官方电话尝试联系事件双方,截至发稿前未得到回复。
AIGC伴生侵权风险 获得数据授权是关键
AIGC火爆出圈,与之伴生的侵权风险问题也引发各界关注。国家网信办今年4月发布的《生成式人工智能服务管理办法(征求意见稿)》提到,提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。用于生成式人工智能产品的预训练、优化训练数据不得含有侵犯知识产权的内容。
中伦律师事务所合伙人王飞指出,以ChatGPT为代表的生成式AI,底层是一款通用的自然语言生成模型,通过互联网海量的语料库训练,对语言文本进行概率建模来预测下一段输出内容的概率,从而实现根据用户输入的文字内容生成对应文字回答的功能。
具体到本次学而思和笔神作文的“AI大模型数据窃取”风波,王飞表示,这个事件实质是授权合同违约纠纷,涉及到对于合同授权范围条款的解释。AIGC产品获得训练模型数据授权是合规的根基,授权的内容和范围、使用的形式等一般会在签订授权合同时予以明晰,但鉴于AIGC作为新生产物,怎样进行约定还要再进行探索,也会是未来AIGC产品纠纷产生的主要原因之一。
陕西华格律师事务所律师葛伟超也认为,这主要是基于合同目的而产生的问题。“双方可能会因为合同中关于数据使用的范围、方式、程度等条款约定不明产生不同理解,而对簿公堂。”
那么,构成AI大模型“数据盗取”行为,有哪些主要的判断因素?
“AI数据抓取案件本质上与近年来司法判决的典型数据抓取案件并无差别,都需要判断抓取数据行为是否损害数据持有者的商业利益与市场竞争优势、是否属于未经许可使用他人劳动成果、是否违背商业道德、抓取数据是否有合理理由。”王飞说。
在法律责任方面,葛伟超指出,利用抓取技术破坏他人市场竞争优势,具有并存在为自己谋取竞争优势的主观故意,违反诚实信用原则,扰乱竞争秩序的数据抓取行为,可能构成不正当竞争行为。同时也直接违反了《数据安全法》相关规定。
“如果合作协议中有约定违约责任条款,则依其处理。如果没有约定该种情形,则属于侵权范围,要承担相应侵权责任,包括但不限于赔礼道歉、停止侵权、赔偿损失等。”葛伟超说。
大模型的开发离不开海量数据(603138)助力。当前,数据来源的知识产权已经成为大模型发展的阿喀琉斯之踵。AI模型开发主体以何种方式、需要承担何种程度的法律义务以获取训练数据,是当前产业需要解决的核心问题。
值得关注的是,传统的“授权许可模式”对于大模型的数据训练存在天然困境,不仅在于实操层面难以落地,更在于对产业研发的长期影响。业界有观点认为,可以将数据纳入合理使用的范畴进行规制。
目前来看,日本、英国、欧盟等已对将数据挖掘作为合理使用的情形进行了立法确认:日本以“计算机信息分析”的名义规定了文本数据挖掘的著作权例外,英国同样引入文本和数据挖掘的版权许可或例外情况,欧盟则选择“非科研目的”例外的谨慎方案。中国业内也在探讨是否可以通过数据的合理使用解决数据权属带来的问题。
对于如何厘清数据合理使用和保护的边界,葛伟超认为,“首先,要明确拥有数据的经营者权利,即拥有数据所有权还是数据用益权。其次,明确数据抓取行为的性质。再次,明确该种行为损害的法益是数据财产还是竞争优势。最后,需要明确规制该种行为到底适用于竞争法、民法、或者著作权法的保护。”
标签:
抢先读
- 聚焦“天府菜油”丨另辟蹊径 中豪粮油开辟黄菜籽油全新赛道 快讯
- 外媒:英特尔将从德国政府获得近110亿美元的补贴 世界观点
- 暗访|谁“偷”了我的信息:星巴克扫码点餐时3次弹窗加会员,“Wagas”霸王要位置
- 环球热消息:国企招聘应届毕业生有80后?回应来了
- 聚焦服务高成长创新型企业 2023年创业军机处启动
- amd确认mi300xgputbp为750w|天天播资讯
- 全球速讯:商务部部长助理陈春江会见嘉吉公司全球总裁兼首席执行官尚博远
- COSMO态度:流行下去,才是传统
- 杭州最新规划了42处郊野公园 来看看分布在哪些地方?
- 每日聚焦:DraftKings(DKNG.US)出价1.95亿美元收购PointsBet美国业务 较Fanatics报价高30%
- 每日报道:23068期大乐透晒票,无论跌了多少次,你都要坚强地再次站起来
- 第十五届海峡论坛准备就绪 邀请台湾嘉宾5000余人
- 宝骏云朵续航曝光:2款车型 续航360/460km_世界快讯
- 全球今头条!伊朗媒体:美国打造“亚洲版北约”是场危险游戏 注定以失败收场
- 我省首批城市公园绿地开放共享清单 225个公园可供休闲游憩
- 【天天速看料】肌底液可以天天用吗 ?使用要规律
- 宁夏固原警方打掉一集资诈骗犯罪团伙 涉案资金1.8亿余元
- 小小说短篇小说_小小说作家网_当前关注
- 微资讯!DIGITIMES Research:印度电信行业将在2023年快速部署5G
- 中国人寿海外公司获批注册资本变更为110.56亿元|天天播报
- 中国香港老戏骨张英才去世:曾出演张卫健版《西游记》|每日资讯
- 2023小米徕卡影像大赛特展开幕,小米携手周云蓬用影像讲述心里的故事 世界看热讯
- 直击梅西中国行,快手上线独家专访,60分钟累计观看人数达1.5亿
- 6月16日华泰柏瑞匠心臻选混合A净值上涨1.29%
- 6月18日起,胜利西街清平路交叉口将半封闭施工
- 微动态丨警方通报“球迷冲场拥抱梅西”:邸某某,18岁,行拘
- 6月16日中石化西布尔丁腈橡胶价格下调 每日信息
- 东方精工:嘉腾机器人是国内领先的AGV及智能物料配送解决方案提供商
- 深圳宝安新桥街道:筑牢全社会安全生产防线保障高质量发展
- 五部门:加强种业振兴等农业关键核心技术攻关金融支撑|速读
- 保护千年古城 安徽黟县向全球聘贤
- 【世界播资讯】助力汽车产业高质量发展 第十四届山东汽博会开幕
- 焦点!发布千亿投资机会 成都未来公园社区沪上“吸金”
- 全球快消息!莎莎国际2023财年实现扭亏为盈 内地版图正加速缩减
- 环球微速讯:《封神第一部》《超能一家人》等80余部影片鏖战暑期档!
- 英德市气象台发布暴雨黄色预警【III级/较重】【2023-06-16】
- 复星医药(02196):注射用拉氧头孢钠获药品注册批准_热消息
- 赣锋锂业:终止与PMI代加工合作协议
- 环球视讯!(成都大运纪事)成都大运会5个项目53个场次门票首批开售
- 快看点丨什么水果维生素C含量高 维生素c含量最高的十种水果
- 德固特(300950.SZ)股东上海青望及魏锋合计减持225万股 减持数量过半|天天资讯
- 环球视点!注意!下周要调仓换股了!
- 刚刚,“中特估”狂飙!更大行情已开始? 世界微速讯
- 当前滚动:河南省渑池县发布大风蓝色预警
- 自媒体:梅西今晚启程去罗萨里奥,预计参加里克尔梅的退役赛_全球即时
- 全球热文:婴幼儿奶粉板块股票有哪些?婴幼儿奶粉板块股票一览
- 【天天报资讯】房企“门外汉”逆势入场,房地产市场格局迎来深度调整?
- 江门深入推进专项整治标本兼治 大力加强执法队伍建设-快资讯
- 鼎信通讯:预中标4亿元电网采购项目 环球快报
- 独家对话天文学家邓李才:在冷湖仰望星空 打造国际最好的天文台-每日消息
- 我国首艘海陆一体化生产运营的智能FPSO“海洋石油123”交付
- 今亮点!生态环境部:从未授权“生态环境导向的开发(EOD)模式”项目相关活动
- 前沿资讯!巨星待遇!孙兴慜替补待命,记者纷纷将相机对准替补席的韩国天王
- 世界观点:每日优鲜再被执行215万,未履行总金额2396万余元
- 慈利:释青春活力 展运动风采 环球快讯
- 环球简讯:中国科学家发现沙漠变土壤“密码”
- 焦点热门:发言人来了|个个会应急!江北区11人获评“最美应急人”
- SHEIN产品环保问题惹争议,在法国发展受阻
- 形容大树生长茂盛的词语_形容大树生长的词语 环球热点评
- 一图读懂“亮剑浦江”上海个人信息保护专项行动:为期半年,“剑”指八大消费场景-前沿资讯
- 世界看热讯:埃曼纽尔施_埃曼纽尔 施
- 北向资金今日大幅净买入105.46亿元
- 天天视点!莫桑比克主要反对党最后一座军事基地关闭
- 仰望登临粤港澳大湾区车展,仰望U8、U9成展会焦点|简讯
- 天天新动态:试车日志 | 凯迪拉克GT4:面子和里子我都要
- 用户故事 | 思看科技 X 东芝水电:协同创新,聚力能源数字化未来
- 世界银行新行长彭安杰:中国不是竞争对手 全球热头条
- 伊朗媒体:美国打造“亚洲版北约”是场危险游戏 注定以失败收场
- 河北藁城:强筋麦成为农民的“增收麦”
- 花都区打造全省唯一“互联网+”现代农业产业园 当前资讯
- 全新首发!40年前考古镜头记录了什么?|全球热资讯
- 世界热点评!4层以上住户留意了,新规下,高层住宅将消失?这“3类人”将受益
- “长沙GDP被郑州反超?”——综合因素分析 观天下
- 今头条!国家发改委:统调电厂存煤达历史新高 迎峰度夏电力保供基础坚实
- 郑尧:爱学习的妈妈
- 动力参数亮眼/调校有待提升 凯翼昆仑500试驾体验
- 呼和浩特:校园足球联赛点燃夏日激情 世界信息
- 心意之礼 致敬父爱 尼康诚意佳作献礼父亲节 天天观速讯
- 【世界聚看点】许金泉获批担任富邦财险董事长
- 每日简讯:通信设备板块涨2.91% 光库科技涨20%居首
- 瀚铠RX 7900 XT次旗舰显卡 直降1320元! 世界热闻
- 每日热点:国产开放世界游戏《仙剑世界》开启预载,推荐 RTX 3060 显卡
- “法律援助进校园”活动走进西安高新第二小学 全球微动态
- 橱柜专家融合技艺创新 海南砖体橱柜引领行业潮流
- 央企入局,中海抄底摘得紫兰苑地块 世界信息
- 焦点快播:东吴证券:二季度相对明确的基本面拐点确立 建议重视保险板块回调带来的布局机会
- 每日焦点!南岭民爆:子公司中标工程项目 中标金额47亿元
- 【全球时快讯】大通县气象台发布雷电黄色预警信号【2023-06-16】
- 克宫:不打算提前终止粮食协议
- 快手616全民商品讲解任务操作指南是什么?附攻略-世界速读
- 环球速看:物业应履行安全管理职责!武汉一市场监管所组织开展电梯安全宣传及应急演练活动
- 1-5月,全省规模以上工业增加值同比增长2.9%_即时看
- 热推荐:英国将向乌克兰提供6000万英镑援助
- 星纪魅族集团董事长沈子瑜、京东集团副总裁吴双喜齐聚生日会 共庆京东魅族 20 周年
- 福元医药:公司获得化学原料药利多卡因上市申请批准通知书-今日报
- 上海银行同业公会发自律公约:不应以利率为单一手段争揽客户
- 环球热头条丨全球首个干细胞合成人类胚胎模型,会引发伦理危机吗?
- 共建世界旅游目的地|美宿贵州③:悬崖酒店观奇景 当前快报
- 华菱线缆:控股股东变为湘潭钢铁集团有限公司
- 北京中考倒计时!提醒各位考生,这些事项要注意_热点聚焦