设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 手机 数据 公司
当前位置: 首页 > 大数据 > 正文

2022,大模型还可以走多远

发布时间:2022-06-08 11:37 所属栏目:125 来源:互联网
导读:2021 年是大模型层出不穷的一年。从去年 OpenAI GPT-3 发布开始,今年华为、谷歌、智源、快手、阿里、英伟达等厂商先后推出自己的大模型,人工智能产业开始了新一轮的激烈角逐,而且有愈演愈烈之势。作为探索通用人工智能的路径之一,AI 大模型不仅本身是一
  2021 年是大模型层出不穷的一年。从去年 OpenAI GPT-3 发布开始,今年华为、谷歌、智源、快手、阿里、英伟达等厂商先后推出自己的大模型,人工智能产业开始了新一轮的激烈角逐,而且有愈演愈烈之势。作为探索通用人工智能的路径之一,AI 大模型不仅本身是一个可能产生原始创新与长期影响的领域,还将成为一个平台,催生更多世界级的成果。
 
  概述
  自 2018 年 Bert 大模型 的横空问世以来,华为、阿里、腾讯、谷歌、微软、英伟达等国内外各巨头纷纷重兵投入打造自己的大模型,将其视为下一个 AI 领域的必争的高地。
 
  如此百家争鸣,这背后一定有着深层次且必然的原因。
 
  众所周知,“难以落地”已成为制约人工智能“技术上水平”,“应用上规模”,“产业上台阶”的最大瓶颈。而进一步深究,则是高昂的开发成本和技术门槛形成了一道无形的壁垒,使得技术链与产业链严重脱节。这种生态上的脱节,必然导致“小作坊式”的 AI 开发模式。这就意味着耗时耗力、复杂繁琐的数据的收集、标注和训练工作需要重新来过,无疑加重了开发者的负担,企业的应用成本也随之增高。
 
  而大模型的出现,意味着“工业化”开发模式的到来。
 
  得益于大模型的高泛化能力和高通用性,它能把 AI 开发重新整合建立起一套通用的“预训练大模型 + 下游任务微调”流水线。面对不同的应用场景,这套流水线可以得到有效复用。开发者只需要少量行业数据就可以快速开发出精度更高、泛化能力更强的 AI 模型。
 
  大模型的分类
  1、按照模型架构划分:单体模型和混合模型。单体模型中比较出名的有:其中 OpenAI 推出的「GPT-3」、微软 - 英伟达推出的「MT-NLG」模型、浪潮推出的「源 1.0」等。混合模型包括谷歌的「Switch Transformer」、智源研究院的「悟道」、阿里的「M6」、华为云的「盘古」等。
 
  其中,谷歌「Switch Transformer」采用 Mixture of Experts (MoE,混合专家) 模式,将模型进行切分,其结果是得到的是一个稀疏激活模型,大大节省了计算资源。
 
  而智源「悟道 2.0」1.75 万亿参数再次刷新万亿参数规模的记录,值得关注的是它不再关注单一领域的模型开发,而是各种领域的融合系统。
 
  2、按照应用领域划分:目前,大模型的热门方向包括 NLP(中文语言)大模型、CV(视觉)大模型、多模态大模型和科学计算大模型等。
 
  目前,自然语言处理领域内热门单体大模型有:「GPT-3」、「MT-NLG」以及「源 1.0」等。惊喜的是,有研究表明,将 NLP 领域大获成功的自监督预训练模式同样也可以用在 CV 任务上,效果十分拔群。
 
  大模型的卡点
  大模型性能取得的一系列突破的同时,其背后逐渐凸显的卡点也开始备受社会关注。
 
  首先,打造大模型并非易事,需要消耗庞大的数据、算力、算法等各种软硬件资源。而短期看,这种巨大的资源消耗,不仅对于企业和科研机构来说,无疑是一项沉重的负担,更与全球节能环保以及我国提出的双碳(碳达峰、碳中和)目标,是有所矛盾的。如何在有限资源的条件下实现大模型的低能耗进化,是一个不小的挑战。
 
  其次,大模型尚缺乏统一的评价标准和模块化流程。大模型的研发尚处于初步探索阶段,市场中有条件的企业和机构纷纷展开角逐的同时,不可避免地会造成高质量的集中资源的再度分化,进而产生各种烟囱式的评判标准、分散的算法模型结构,进而可能导致的割裂的探讨评价体系。
 
  再次,创新力度不足。大模型应用价值取决于其泛化能力,而不是参数规模越大越好。大模型是否优秀,不仅依赖数据的精度与网络结构,也是对其与行业结合软硬件协同能力的比拼。目前业界过度强调高参数集、强算力模型的研发,而忽视了网络模型的创新、与行业的协同创新等问题。
 
  最后,落地应用缓慢。业界人士普遍认为:AI 大模型最大挑战在于,如何让更多行业和场景真正付诸落地。目前看应用仍处于企业内部项目为主。如何改变这种闭门造车的局面,如何快速适配给应用场景,才是大模型的最大价值和难点。
 
  大模型会有哪些商业模式
  更多人关心大模型未来会有哪些商业模式。可以从三个层面想象:
 
  1、把大模型作为底座。既可以把底座出售或租售给国家的创新中心、政府机构,也可以与之联合合作,做上层开发。
 
  2、做开源。大模型涉及的许多技术问题单靠一家企业来解决是比较难的,可以通过开放技术的方式,用社区的力量共同解决,共享 IP,互惠互利。
 
  3、提供给一般的 ISV(独立软件开发商)。让大模型从实验室走出来,直接去面对千行百业的客户,不太可行。通过把能力开放给 ISV,他们再去接触下游更多客户。有两种接触方式:一种是通过流量计费、或按项目计费;再一种是让使用者免费使用,通过流量广告变现。
 
  大模型何去何从
  1、大模型参数红利仍在
  从百万、千万、亿再到千亿,万亿,大模型随着参数规模的增加,性能也如研究者预期一样,一直在不断接近人类水平。可以预见,未来一段时间,大模型的规模依旧有待提升。可能出现的变化是,人们不再仅仅增加算力,而更多是通过并行计算、软硬件协同等技术的支撑。值得关注的是,由于实际落地方面的考虑,一些小参数模型也在悄然兴起。
 
  2、大模型走向多领域通用
  大模型的初心,是令训练出来的模型具备不同领域的认知力,既能有泛化的能力,又能有自我进化的能力。比如 NLP 领域内的大模型,复用到 CV 领域已被得到极有效的证实;GPT-3 同样展现出了从海量未标记数据中学习,且不限于某一特定任务的通用能力。近期兴起的多模态预训练大模型就是最好的证明。大模型的未来需要创新,大模型将致力于构建通用的人工智能算法底层架构,将模型的认知力从单领域泛化到多领域融合,在不同场景中自我生长,向可持续、可进化的方向发展。
 
  3、更易用的开源平台
  大模型开放开源是大势所趋,这也是不少机构所致力推动的。微软、IDEA、智源研究院等大多机构的开源还处于浅层次,只是能调用算法包、排队等待训练的状况。未来的大模型要走出实验室,就需要走向算法体系、标准体系、基础平台、数据集、工程化测试等全方位的开放。
 
  4、标准易用的工作流程
  “预训练大模型 + 微调”的方式的确加速了 AI 开发者的步伐,但如果把与之相适应的工作流程给搭建起来,大模型将会在更多场景大放光彩。另外,大模型的评估未来会有标准化成熟的体系来衡量,这个体系也会是行业内公认的标准,规范模型的通用性、易用性,同时用这个标准来衡量大模型的优劣而不是如今自卖自夸式的标榜。
 
  5、大模型能力的端侧化
  未来,将大模型的一些运算存储等能力像芯片一样固化在一些端侧硬件设备中,在使用的过程中不用在重装的模型中耗时调用算力与数据,可以实现随时调用随时使用。现下的模型多是重装大模型,使用的话需要调用庞大的算力和运行时间,未来的大模型会逐渐改变这种模式。
 
  总结展望
  现如今,大模型的这种盛况,就与深度学习时代极其相似。然而,作为通向认知智能的高阶探索,大模型此后的路还有很远。能否持续提升自身的创新能力、泛化能力、落地能力,将会成为突破变革的关键。
 
  也许在未来几年内,会逐渐形成这样一种状态:大模型作为基础的产业生态,用大算力训练出最高水平的智能,为各种 AI 应用提供源源不断的智能服务。而这一切,都需要时间去证明。

(编辑:ASP站长网)

    网友评论
    推荐文章
      热点阅读