通过AI系统分级协助企业控制成本
发布时间:2022-06-08 11:21 所属栏目:125 来源:互联网
导读:就像国际汽车工程师学会(SAE)对自动驾驶汽车分级一样,为了预测人工智能系统的成本,给它们分个级别想必也是不错的选择。采用分级系统可以帮助组织计划和准备AI系统,且随着时间的推移,AI系统的复杂性也会不断增加。 设计和构建人工智能系统不是件容易事。
就像国际汽车工程师学会(SAE)对自动驾驶汽车分级一样,为了预测人工智能系统的成本,给它们分个“级别”想必也是不错的选择。采用分级系统可以帮助组织计划和准备AI系统,且随着时间的推移,AI系统的复杂性也会不断增加。 设计和构建人工智能系统不是件容易事。传统软件的大部分成本都在部署前的开发过程中,而AI系统的大部分成本都在部署后。人工智能系统的行为不断学习,且很可能会从最初的部署中改变。如果不持续投资数据和进行参数调整,机器学习模型会随着时间的推移而“退化”。设计决策直接影响人工智能系统的扩展能力,其难点就是理解AI系统如何随着时间的推移而发生变化。 在构建AI系统时,分级可以为不同AI系统的行为提供参考。进行分级并根据级别进行权衡可以帮助简化部署后的差异。理解系统可能会发生何种行为变化,并将其纳入系统设计中是非常重要的。以下的分级框架概述了各级系统随时间变化的主要差异,我们可以在设计和操作系统时对这些差异加以利用。不同的系统可以处于不同的级别,而对其差异有一个整体的认知可以帮助组织更好的规划和执行。系统的复杂性可以由其输入(a)、输出(b)和目标(c)的范围来定义。 AI级别 一般来说,随着级别的上升,成本也会增加。比如我们设想将一个运行在1级的系统提升到2级,但是系统构建的复杂性和成本也会随着级别的上升而增加。显然,我们的新功能应该先从一个系统行为容易理解的“低”级别开始,再逐渐增加级别——随着级别的增加,系统的失败案例变得越难理解。 随着我们从传统软件(0级)升级到完全智能软件(4级),不同级别的AI系统差异明显,极大地影响了系统成本。级别4的系统基本上可以自行维护和改进,无需内部开发团队的任何工作。升级是需要权衡的。例如,从1级到2级减少了持续的数据需求和定制工作,但引入了一个自我强化的偏差问题。选择升级需要认识到新的挑战,以及在设计AI系统时需要采取那些措施。在系统升级过程中,其可扩展性、通用性、稳健性等均发挥关键作用。在第N级的项目上工作时,我们应该考虑达到第N+1级的工作成本和收益,同时应该根据自己的目标设定合适的分级,并意识到何时需要升级现有的AI系统。 0级:可靠型(传统型)Deterministic 不需要训练数据,不需要测试数据,不涉及学习的算法处于0级。0级(计算机科学中的传统算法)的最大好处是非常可靠,只要解决了问题就是最优解。在某种程度上,很多的算法(比如二分搜索)都是对数据的“自适应”。我们通常不认为排序算法是“学习”的。学习涉及到记忆——系统在过去学习的基础上改变未来的行为。然而,有些问题采用预先指定的算法很难解决。对于那些人类难以诠释的问题(如语音到文本、翻译、图像识别、语言提示等),它很难执行。 示例: 自定义文本分类模型 语音到文本(声学模型) Level 1:自学习型Self-learning 动态+静态训练数据,静态测试数据。 Level 2是使用由系统生成的训练数据对模型进行改进的系统。在某些情况下,数据的生成是独立于模型的。所以我们希望随着时间的推移以及更多的数据加入模型,性能会增加;在其他情况下,模型干预会增强模型偏差,并且随着时间的推移,表现会变得更糟。为了消除模型偏差,我们需要静态数据集重新评估模型。 这样来看,Level 2性能似乎可以随着时间的推移而自动提高。但是如果不加以管理,系统可能会随着数据的增加变得更糟。因为本质上依赖于静态数据集(一开始生成自己模型的训练数据),处于Level 2的系统改进能力有限,而要解决这种模型偏差很有挑战性。 示例: 用于信用卡验证的Luhn算法 基于正则表达式的系统 信息检索算法,如TFIDF检索或BM25 基于字典的(Dictionary-based)拼写校正 注意:在某些情况下,可能会有少量参数需要调优。例如,ElasticSearch提供了修改BM25参数的能力(例如一键设置set and forget)。 Level 2:学习型Learned 静态训练数据,静态测试数据。 您可以在脱机环境中训练模型,再将训练好的“固化”的权重部署到生产系统中。模型可能会有一个更新的节奏,但是模型运行的环境不会影响模型。 Level 1可以让你尝试学习和部署任何功能,但训练数据是有限的。这是一个尝试不同类型解决方案的演练场。此外,对一些常见的问题(如语音识别),你可以从边际成本递减中获益。 Level 1的缺点是对单个用例的定制化学习:你需要为每个用例管理训练数据,而用例可能会随着时间的推移而改变,因此需要不断地添加训练数据以保持模型的性能。这个成本是难以承受的。 示例: Naive垃圾邮件过滤器 语音-文本模型(语言模型) Level 3:自动型Autonomous (or self-correcting) 动态训练数据,动态测试数据。 Level 3系统既能改变人类的行为(例如建议一个操作并让用户选择),又能直接从该用户行为中学习(例如用户的选择偏好)。从2级升级到3级意味着系统的可靠性和总体可实现性能将大幅提高。 相较于Level 2,Level 3,系统可以随着时间的推移而改善。当然,它也更加复杂。它可能需要真正惊人的数据量,或者非常精心的设计,才能比简单的系统做得更好;但是它适应环境的能力也使测试非常困难,甚至可能出现灾难性的恶性循环。例如,测试人员纠正一个垃圾邮件过滤器——虽然人类只纠正了系统所做的错误分类,但是系统意识到其所有预测可能都是错误的(过于敏感),并将自己的预测整个颠倒过来。 Level 4:智能型Intelligent (or globally optimizing) 动态训练数据,动态测试数据,动态目标。 Level 4是既能与环境动态交互又能全局优化的系统。例如,AutoSuggest模型并不优化当前方法,而是优化一系列事件以达到最佳的对话框的目标。 虽然如何实现还有漫长的探索之路要走,Level 4的前景确实一片光明。精准定位问题,引入奖励与惩罚机制,评估模型的行为,这些都是重大而艰巨的任务。 (编辑:ASP站长网) |
相关内容
网友评论
推荐文章
热点阅读