设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 重新 试卷 文件
当前位置: 首页 > 大数据 > 正文

又来抢大数据饭碗?AWS发布SageMaker:省略数据清洗、建模、调参等步骤

发布时间:2018-04-02 11:04 所属栏目:125 来源:站长网
导读:美国拉斯维加斯时间2017年11月29日上午,AWS CEO Andy Jassy在一年一度的AWS re:Invent大会上发布了主题演讲。在短短两小时内,Andy宣布了一系列令人兴奋的新服务。其中最重要的包括一款售价249美元的、名为DeepLens的人工智能摄像机;一套用于开放并部署

美国拉斯维加斯时间2017年11月29日上午,AWS CEO Andy Jassy在一年一度的AWS re:Invent大会上发布了主题演讲。在短短两小时内,Andy宣布了一系列令人兴奋的新服务。其中最重要的包括一款售价249美元的、名为DeepLens的人工智能摄像机;一套用于开放并部署机器学习算法的SageMaker平台;外加实时视频识别、文字翻译等多项应用层服务。

据了解,作为全场最大亮点的SageMaker平台,真正做到了“默默秒杀全场”的强大功能:除了免去了开发者进行数据清洗、建模的麻烦事儿,甚至还可以把开发者最头疼的调参优化交给机器处理。

显而易见,亚马逊公司希望各企业客户能够更好地运用人工智能技术——当然最重要的是,使用由亚马逊出售的人工智能工具。

通过本次大会公布的这一整套人工智能解决方案,亚马逊方面已经明确表示,希望能够乘这股人工智能的繁盛东风进一步拓展收入规模。与此同时,这批声明的发布也标志着亚马逊与同样拥有自家AI企业解决方案的谷歌在这一领域成为了竞争对手。

Amazon SageMaker

正如本文开头所说,这也许是本次re:Invent上发布的最大杀器,也可能是自各类开源机器学习框架流行以来在AI领域出现的最大杀器(如果使用体验真的如Andy Jassy所描述的那样好的话):普通开发者也想用机器学习来玩自己的数据,但是数据清洗、建模、各种试错太难太花时间,把开发者都吓跑了。SageMaker的目标是,开发者只需要关心自己输入什么数据,自己想用什么框架和什么算法,其他的各种参数调优什么的脏活儿就让机器自己用机器学习来做,一键直达式机器学习服务,开发者值得拥有。

让我们来看看这个可能会让大数据工程师“失业”的神器到底有何玄机?

Amazon SageMaker是一项全托管端到端机器学习服务,可帮助数据科学家、开发人员以及机器学习专家快速构建、训练并托管规模化机器学习模型。它的出现将显著加速一切机器学习工作,同时帮助大家快速将机器学习元素添加至生产应用程序当中。SageMaker**支持当前机器学习行业中最为流行的各类框架**(包括谷歌TensorFlow、Facebook Caffe2、Pytorch以及MXNet等),且允许开发者从查找必要数据起步对其AI模型进行训练,而后将成果发送给客户——整个流程皆可在此程序内实现。

Amazon SageMaker由以下三大主要部分组成:

创作(Authoring):无需进行任何设置,使用Jupyter Notebook IDE就能进行数据探索、清洁与预处理。你可以在常规实例类型或GPU驱动型实例当中运行此类工作负载。 模型训练:一项分布式模型构建、训练与验证服务。你可以利用其中的内置常规监督与无监督学习算法及框架,或者利用Docker容器创建属于自己的训练机制。其模型训练规模可囊括数十个实例,以支持模型构建加速。训练数据读取自S3,训练后的模型成果亦可存放在S3存储桶内。最终得出的模型结果为数据相关模型参数,而非模型当中进行推理的代码。将关注点分开之后,开发人员能够更轻松地将Amazon SageMaker训练出的模型部署至其它平台(例如IoT设备)。 模型托管:模型托管服务可配合HTTP端点以调用模型进行实时推理。这些端点可进行规模扩展,从而支持实际流量;开发人员也可以同时对多套模型进行A/B测试。此外,你也可以使用内置的SDK构建这些端点,或者选择Docker镜像提供自己的配置选项。

上述组成部分皆可独立使用,这意味着Amazon SageMaker将能够轻松填补现有流程中的空白环节。换句话来说,当开发人员以端到端方式使用该服务时,将能够享受到由其提供的强大功能。

作为AWS免费项目的一部分,大家无需任何投入即可马上开始使用Amazon SageMaker。在前两个月中,用户每月可获得250个小时的t2.medium记事本实例使用额度,50个小时的m4.xlarge训练用实例使用额度,外加125个小时的m4.xlarge托管用实例使用额度。在免费范围之外,具体计费标准因实际服务区而定,但总体成本包含每秒实例使用、每GB存储容量使用以及每GB数据传入/传出等因素。(小编注:大家可以先试用之后看看Amazon SageMaker是否真如Jassy所说的这么智能。)

AWS官方博客上对如何使用SageMaker提供了一份简易指南,下面截取并翻译了构建机器学习流程的部分,迫不及待的小伙伴们到官网查看完整的操作方法:https://aws.amazon.com/cn/blogs/aws/sagemaker/

SageMaker使用指南

作为示例,这里假定我们需要构建、训练并部署一套基于Apache MXNet的图像分类器。这里我们使用Gluon语言、CIFAR-10数据集,外加ResNet V2模型架构。

从Jupyter Notebook开始创作

在创建记事本实例时,其会启动一个配备有Anaconda软件包与常规深度学习库、具有5GB机器学习存储分卷,且包含多种示例记事本算法显示机制的机器学习计算实例。开发人员可以选择配置其中的VPC支持能力,从而在自己的VPC内创建ENI以简化并保护对资源的访问。

在实例配置完成之后,我们就可以打开记事本并开始编写代码!

模型训练

为了简洁起见,我们在这里忽略实际模型训练代码。不过对于任何Amazon SageMaker常规框架训练工作,您都可以通过以下方式建立起一套简单的训练接口:

def train( channel_input_dirs, hyperparameters, output_data_dir, model_dir, num_gpus, hosts, current_host): passdef save(model): pass

这里,我们打算在Amazon SageMaker基础设施中的4个ml.p2.xlarge实例之上创建一项分布式训练任务。顺带一提,这里已经将所有必要的数据下载到本地。

import sagemakerfrom sagemaker.mxnet import MXNetm = MXNet("cifar10.py", role=role, train_instance_count=4, train_instance_type="ml.p2.xlarge", hyperparameters={'batch_size': 128, 'epochs': 50, 'learning_rate': 0.1, 'momentum': 0.9})

现在,我们已经构建起模型训练任务,并可通过以下命令为其馈送数据:m.fit("s3://randall-likes-sagemaker/data/gluon-cifar10").

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读