国内最小的大模型创业团队,靠另类创新出位 天天通讯
拥有多年NLP经验的虎博科技,凭借自身独特的技术创新,打破“成本魔咒”,重新定义“短小精悍”。
国内大模型创业迎来了新面孔。
(资料图片仅供参考)
包含70亿参数和1800亿参数两个版本的大模型TigerBot正式亮相,一经推出,就以独特的实力,引起了外界瞩目。
从评测结果可见,TigerBot与OpenAI同规模模型的得分十分接近
作为一款国产自研的多模态大语言模型,TigerBot不仅能进行编程、画图、翻译,还支持多种办公场景下的任务,具有高效的学习能力、创造力和可控性。
更重要的是,借助更先进的微调算法,TigerBot在只使用少量参数的情况下,就能快速理解人类的问题,提升回答的准确性。
在同样50万条数据训练的情况下,TigerBot的收敛速度比斯坦福推出的Alpaca快5倍,在公开数据集上评测显示性能提升17%。
有点难以置信的是,研发了如此强劲大模型的团队,最初只有5个人,身为CEO兼首席科学家的团队Leader陈烨,担任了最核心的代码工作。
后来成员规模虽有扩充,但也只控制在了10人左右。
那么,这个在激烈的大模型竞争中,TigerBot背后的中国企业——虎博科技,究竟是怎样凭借犀利小团队杀出一条血路的呢?
01 重新定义“精悍”
众所周知,训练大模型所需的高昂算力、成本,一度使得ChatGPT这样的通用大模型,成为了少数科技巨头的专利。
然而,拥有多年NLP经验的虎博科技,却凭借自身独特的技术创新,打破了这一“成本魔咒”,并重新定义了何谓“短小精悍”。
具体来说,为了降低模型的训练成本和难度,虎博科技在以下几个方面进行了创新:
指令完成监督微调
所谓指令完成监督微调,主要就是让模型更加理解人类提出的各种问题。
如果模型像一个学生,那么问题就像一个作业。
如果老师只是给学生一个作业,不告诉他这个作业要考察什么知识点,要用什么方法来解答,那么学生可能会很困惑,于是有些问题的回答质量往往就不佳。
面对这样的问题,以往人们想到的办法,是通过微调和提示的方式,来让模型变得“更通人性”。
具体来说,微调是在大量的任务相关的数据上,重新训练模型的参数,这就像给了学生一本厚厚的辅导书,虽然可以让他学得更好,但也会花费很多时间和精力。
而提示则是在每个问题前加上一些特殊的单词或符号,就像给学生一个小抄,让小抄引导他写出正确答案,但这一方法也需要老师花心思制作小抄,而且小抄的内容也会限制学生的应变能力。
对此,TigerBot的应对之策,是使用一种标记语言(Mark-up Language),在每个问题前加上一些特殊的符号。
这相当于给每个作业打上了“标签”。
如此一来,学生就能明白,这个作业是数学题,要用加减乘除来解答;那个作业是英语题,要用翻译来解答;从而让模型快速地理解了各种问题。
但别看只是个“打标签”的小小改动,真正要践行这样的技术创新,却绝非易事。
因为标记语言并不是一种简单的任务标签,它需要有一定的语法规则和语义表达能力,才能让 LLMs(大模型) 准确地理解和执行指令。
其次,标记语言并不是一种独立的技术,要让 LLMs 能够有效地利用标记语言来完成各种任务,还需要借助预训练、微调、元学习等其他多种技术。
因此,整合各种技术并设计一种通用且易用的标记语言,是一项具十分前沿的创新性工作,涉及多个方面的挑战和难点。
唯有那些具备深厚理论基础和实践经验的团队,才能做出这类突破。
突破并行训练难关
除了模型的底层架构上的改进外,TigerBot另一大降低训练难度和成本的创新,就是突破了deep-speed等主流框架中的若干内存和通信问题,实现了千卡环境下训练数月无间断。
在此之前,要想千卡环境下进行数月无间断的训练,会面临很大的技术难点。
这里可以用一个形象的比喻说明:
想象一下,在一个拥挤的马路上,用很多辆小车来运送一座大山,要花费多大的时间和精力?要面对怎样的拥堵和阻碍?
在这里,“小车”就象征着每个 GPU 的内存空间,“大山”象征着模型的参数和梯度。
虽然我们有一千辆小车可以用,但是每辆小车的载重能力都很有限,远远不够装下整座大山。
另一方面,模型的参数和梯度需要在多个 GPU 之间频繁地交换和更新,需要消耗很多的通信资源。
这就像是要把一座大山从一个地方运到另一个地方,需要经过很多次的装卸和转运,不仅会耽误时间,还会消耗大量的资源。
对此,TigerBot主要使用了三个技术,来进行并行训练的优化。
首先,TigerBot 使用了一种叫做ZeRO的技术,它可以把模型的参数和梯度分散到多个 GPU 上,从而减少每个 GPU 的内存占用。
这就像是把大山分成很多小块,然后用不同的小车来运送一部分小块。这样,每辆小车就不会超载了,而且可以同时出发,提高训练的效率。
其次,TigerBot 使用了一种叫做DeepSpeed的技术,它可以根据模型的参数和梯度的大小和分布,自动地选择最合适的通信方式和路径。
这就像是一个智能导航系统,它可以根据货物的重量和目的地,自动地选择最快的交通工具和路线,从而大大节约了时间和资源。
再次,TigerBot 使用了一种叫做BF16的技术,它可以降低模型的精度要求,从而减少计算的复杂度和内存的需求。
这就像是将同等大小的山体碎块换成了塑料或纸板,从而大大从降低运输的负担。
借由着这些技术,虎博科技每月在训练上的开销,能够节省数十万。
这也是为什么,他们能以10人左右小团队,在几个月时间内实现“媲美”OpenAI壮举的原因之一。
02 正向突变
除了上述提到的技术外,虎博科技在大模型方面,还运用ensemble和probabilistic modeling的方法,让模型在创造性和可控性上做出了适当的权衡。
同时,针对中文连续性强、多义歧义情况多等问题,虎博科技通过不断吸取开源模型和代码中的优点,从tokenizer到训练算法上,都做了相应优化。
而这些提升性能、降低成本的技术创新,和自然界中的生物面临环境压力时,所激发出的“突变”和“进化”,有着异曲同工之妙。
面对训练大模型所需的巨量算力、数据时,实力并不强劲的中小企业,也感到了某种“演化压力”。
为了在这场AI竞赛中不被时代抛弃,部分中小企业,只能被倒逼着选择了一种更能降本增效的技术策略。
然而,这样的“压力”,却并不总是能激发正向的“突变”与“进化”,部分实力羸弱的企业,可能直接倒在了这场残酷的大模型竞争中,还有的企业干脆选择了投机取巧,以炒作和公关来吸引融资。
既然如此,那虎博科技是如何在这样的压力下,完成正向“突变”的呢?
谈到这个问题,我们就不得不提起虎博科技的创始人兼CEO——陈烨。
某种程度上,与OpenAI的Sam Altman一样,陈烨也是一个心怀科技理想的天才创业者。
在AI领域的造诣上,陈烨不仅三次获得人工智能顶级会议(KDD和SIGIR)最佳论文奖,在人工智能和机器学习领域发表了20余篇具有业界影响的论文,并拥有10余项专利。
并且还曾在美国的微软、eBay和Yahoo担任主任科学家和研发总监等职位,成功实施过多个深具业界影响力的人工智能系统。
而每一个对AI技术进行过深度研究的人,都明白这项技术的远大意义。
这样的人,如果想在AI领域干一番事业,就绝不会仅仅只是为了赚钱。
在2017年,陈烨成立了虎博科技,开始专注于NLP技术的应用落地,愿景是用AI赋能下一代搜索引擎,连接人与全球信息,让人们获取知识更简单。
然而,再远大的理想,也要有现实的支撑。
深谙AI技术发展路径的陈烨明白,人工智能的进步与迭代,需要漫长的研发周期,虽然短期来看,资本市场对这类技术有着很大热情,也产生了很多泡沫,但如果长时间未能看见实际的应用或产出,各路资本就都会纷纷人走茶凉。
面对这个问题,理性而成熟的陈烨,选择了一条更为稳健的道路,来坚守自己的理想。
在彼时的国内AI赛道上,智能金融成为了陈烨首先瞄准的目标。
这是因为,金融行业的运转,往往伴随着巨大的数据量,且与教育、医疗等行业相比,金融领域的很多数据都是公开、且易于获取的。
于是,结合自身的NLP技术,虎博科技研发的新一代智能金融信息搜索引擎——虎博搜索诞生了。
虎博搜索的数据覆盖 了A 股、港股及美股,包括行情、公告、研报、新闻等多维度信息。
利用语义挖掘、知识图谱、机器翻译等核心技术,虎博搜索不仅实现了口语化交流问答,并且还通过精确的数据抽取,以及跨越语言的功能,从海量信息中挖掘到深层次信息,并提供了本地编辑、报告全文、溯源定位等多种功能。
而这些功能背后的深度学习、知识图谱、文本生成等技术,都是未来大模型所必将涉及的关键点。
在此后的发展历程中,虎博科技又自主研发了各大金融领域的关键技术,包括智能推荐、翻译、舆情分析等,而由此积累的NLP经验,也为后来的TigerBot的诞生夯实了工程基础。
03 总结
纵观TigerBot诞生的过程,我们可以发现,这是一个既守住了饭碗,又赢得了理想的故事。
科研出身的陈烨,有技术,也有情怀,但却并没有在现实与理想之间顾此失彼,而是以用户需求为导向,结合自身的技术优势,开发出多种适用于不同场景的AI产品。在此过程中,其依据对技术前沿趋势的敏锐洞察,逐步提高了自身的开发能力和工程化水平,从而在后来的大模型研发中,突破了主流框架中的技术难点和瓶颈。
如果说,当下的大模型竞争,是一场物竞天择的竞赛,那么唯有那些在广泛的产品和服务中,积累了足够多技术因子的企业,才能在压力和挑战面前,完成“进化”与“突变”。
标签:
抢先读
- GTA 之父成立新公司 Absurd Ventures,希望打造“每个人都讨厌的公司”
- A股平均股价11.02元 84股股价不足2元
- 山乡吹来艺术风(千万工程 一线探访)_每日报道
- 云器科技完成连续两轮总计数亿元融资:打造多云及一体化数据平台
- 618清洁电器销售火热,石头新品洗地机首销有望抢占更大市场
- 虫虫大作战2最强流派推荐大全攻略
- 欧委会称将不再采购华为中兴设备,外交部:有罪推定,坚决反对-今日观点
- 许家印倒下后,39的他成为广州新首富,靠卖衣服年赚1600亿-天天快播报
- 如何做好广告投放?广告投放思路和技巧|全球聚看点
- 《F1 23》成就攻略要点一览 成就怎么做?|环球新消息
- 填埋建筑垃圾、突击倒土复垦……苏鲁交界毁田盗采砂石调查_天天百事通
- 世界即时看!非法制售军服,查!
- 当前资讯!2023年9月全国计算机等级考试报名将于6月26日开始
- 广安:提升国际农业发展基金项目队伍建设 世界新消息
- 成都大运会官方门票发布!实名购票、实名入场-天天新要闻
- 机器人概念再度活跃!中大力德斩获3连板 新时达等涨停
- 世界实时:滴滴出行推出"橙意保障计划" 以保障网约车司机权益
- 强观察|这些返回舱里的“神器”为航天员保驾护航
- 法兰泰克(603966)6月16日主力资金净卖出17.63万元
- 科幻恐怖游戏《索利斯堡》北美PS5实体版公布 焦点
- 环球讯息:动画 | 宝“藏”朋友圈
- 1-5月中国汽车类零售总额同比小幅增长 世界今头条
- 生物谷回复年报问询函,内容涉及多个问题回复
- 全球快播:城市更新|城南生活主城 供应添新主力
- 4月份巴西油气产量同比增长4.45%
- 梁衡作品连续四十年入选人教版中小学语文教材纪念仪式在京举行-全球观天下
- 少年冲进球场抱梅西,为何安保追不上他?_世界独家
- data.ai 5 月中国非游戏厂商及应用出海收入 30 强:视频编辑 App FacePlay 上升 43 位,收入环比增长 278%
- 四会人才网招聘信息_四会全职招聘(四会潜力英才网)_微动态
- 美菱新鲜研学游 “研”和“游”比翼齐飞|天天头条
- 【全球报资讯】最新消息!拆了!
- 信阳市住建局标准造价技术中心:精准施策解难题 优化营商环境服务重点企业 今日快看
- 小米logo设计|当前看点
- 重庆建工:子公司签订巫山县绿色转型发展及新型城镇化PPP项目施工总承包合同_天天即时看
- 暗黑破坏神4弹道威能位置一览
- 安德利(605198)6月16日主力资金净卖出656.97万元_焦点观察
- 全球微速讯:职教改革:标准、课程、教材需拧成一股绳
- 马桥镇四门楼村:共建美丽河流 共享美好村湾-天天热闻
- bugreport.exe是什么(klo bugreport是什么软件) 世界滚动
- 世界短讯!海外new things|「GetHarley」完成5200万美元融资,打造优质的远程医疗护肤平台
- 当前视讯!南阳市宛城区实验幼儿园开展“浓情端午,爱心义卖”主题活动
- 海南“6·16”安全宣传咨询日暨安全文化嘉年华活动在海口启幕
- 当前短讯!A股房企挣扎退市,高管已经很淡定:退了也好,关起门来悄悄地干
- 焦点信息:越夜越精彩!广深酒吧带动夜间消费规模大幅增长
- 视讯!亚米契斯简介200字(亚米契斯简介)
- 财政部:1-5月证券交易印花税891亿元 同比下降36.9%
- 石家庄萃华金店周五(6月16日)黄金价格580元/克
- 环球即时看!2023注会《审计》第十八章高频考点1:评价审计过程中识别出的错报
- 焦点速递!迎峰度夏又至 中国统调电厂存煤达历史新高
- 山乡吹来艺术风-环球速递
- 最高一次性支持500万元,郑州加快高能级科创平台建设_天天快播报
- 《巫师3》8K纹理包 更高清的杰洛特和叶奈法_今日精选
- 【环球新视野】金铲铲之战s9裁决潜行劫如何玩 s9裁决潜行劫阵容玩法攻略
- 今日快讯:门徒张静初吴彦祖真做在几分钟(门徒张静初)
- 全球新动态:2023注会缴费网址-中国注册会计师协会
- 四川宣汉一小区业主自发砸掉占用盲道停车线,当地:停车位应退离盲道-世界新消息
- 曹绍(关于曹绍介绍)
- 耶稣为什么被控告_天天滚动
- 世界聚焦:祝颢(关于祝颢介绍)
- 天天观速讯丨寻仙金刚力士技能搭配(寻仙手游金刚力士职业分析及加点推荐)
- 普洱市2023年防范非法集资宣传活动启动
- 世界动态:镜面动作要相反方向吗(镜面动作是否要相反方向)
- 国内最小的大模型创业团队,靠另类创新出位 天天通讯
- 洛克王国粉粉星可以培育吗(洛克王国粉粉星怎么刷出来)_世界热资讯
- 黄山文明网全新改版上线
- 艺游味境·点亮乡村 “2023 浉河远方非遗主题创意展”启动
- 牡丹鹦鹉一年繁殖几窝(牡丹鹦鹉怎么繁殖)|环球实时
- 世界微头条丨2000公里寻亲路 24年终团圆
- 焦点速读:浩欧博: 华泰联合证券有限责任公司关于江苏浩欧博生物医药股份有限公司高级管理人员、核心技术人员离职暨认定核心技术人员的核查意见
- Meta首席AI科学家杨立昆:ChatGPT还没有狗聪明 全球热点评
- 琼海市气象台发布雷电黄色预警【Ⅲ级/较重】【2023-06-16】-世界今日讯
- 新年祝福要红包 新年祝福要红包的句子 全球视点
- 2022洛阳老城区电动自行车上牌指南(洛阳老城区电动车上牌点)
- 天天动态:许昌魏都区市场监管局开展大型游乐设施应急演练
- 每日视讯:对赌协议是什么意思
- 每日观点:元通铜钱是哪个朝代的
- 阿里要建“欧洲版”天猫? 回应:天猫APP在欧洲本身就可以提供服务 当前短讯
- 民生银行南宁分行开展“金融知识万里行 快乐童年民生相伴”儿童爱心义卖活动
- 今日视点:菜满园、果飘香!竹山这所“袖珍小学”有了“幸福农场”
- 环球今热点:拒绝交易!状元换不来榜眼!球迷直呼好家伙
- 回天新材锂电池用聚氨酯胶生产线建成投产 天天滚动
- 嘴巴干缺什么维生素(嘴巴干)
- 保障性住房审核资格复审公示,北京西城:如有异议,请反映 动态
- 全球新动态:2023金融品牌和声誉风险管理首期沙龙在上海成功举办
- 多重跨界活动今夏齐聚京西首钢园·六工汇
- 【世界热闻】杭州亚运村内部功能区首次公开亮相 一起全景感受无限好“村”光
- 五部门:探索完善农村产权确权颁证、抵押登记、流转交易、评估处置机制-环球视讯
- 劳动教育有实效,关键要建设高品质的劳动教育文化|全球热头条
- 【播资讯】切口感染原因分析及整改措施(切口感染)
- 公示!上流•金诺商务中心项目规划变更,层数、车位等调整|热门
- 张志丹:今天是重要跨周窗口!这个龙头机会值得关注
- 韩媒评论:日本排了核污水,也丢了良心_全球视讯
- 丛书主编蒋寅和业内著名专家畅谈古典文学的普及与传承|热闻
- 全球聚焦:元宵节有什么风俗传统,元宵节美食
- 新资讯:中圣科技科创板招股,拟募资20亿元投入清洁能源和节能装备制造项目
- 天天看点:河姆渡居民在哪个流域(河姆渡聚落居民发现地在哪个地区)
- 最新:16日晚 《奔跑吧11》延吉篇开播 看兄弟团在延吉默契开玩!
- 当前快报:外屏绝了!三星Galaxy Z Flip5可折叠手机渲染图曝光
- 铁皮石斛粉一斤多少钱(铁皮石斛粉的功效与作用) 前沿热点
- 世界速读:跌跌跌 资阳猪肉价格跌破每斤10元 原因何在?