大數據

阿里雲機器學習平臺PAI使用簡明教程(二)

Step By Step


1、Dataworks 數據集成
  • 1.1 配置數據源

_

_

白名單
目前支持的數據源

  • 1.2 Mysql數據庫表
/*------- CREATE SQL---------*/
CREATE TABLE `paitable` (
  `f0` double DEFAULT NULL,
  `f1` double DEFAULT NULL,
  `f2` double DEFAULT NULL,
  `f3` double DEFAULT NULL,
  `label` bigint(20) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8
INSERT INTO `paitable` VALUES(1,0,0,0,0);
INSERT INTO `paitable` VALUES(0,1,0,0,0);
INSERT INTO `paitable` VALUES(0,0,1,0,1);
INSERT INTO `paitable` VALUES(0,0,0,1,1);
INSERT INTO `paitable` VALUES(1,0,0,0,0);
INSERT INTO `paitable` VALUES(0,1,0,0,0);

SELECT * FROM paitable;

_

  • 1.3 maxcompute數據表
drop table if exists dual;
create table dual (f0 DOUBLE ,f1 DOUBLE ,f2 DOUBLE ,f3 DOUBLE,label BIGINT);

特別提示 特別提示 特別提示

目前因為PAI Studio兼容的數據類型有限,所以在maxcompute中建表的數據類型只能是如下幾種:
bigint
double
decimal
boolean
datatime
string
本身maxcompute支持的數據類型很多,如果表中字段包含了其它類型,在PAI Studio 讀數據表組件查詢不到相關的表。

1.4 配置離線同步

_

_

_

1.5 離線同步

_

2020-02-29 13:00:13.384 [job-226408512] INFO  JobContainer -
任務啟動時刻                    : 2020-02-29 12:59:49
任務結束時刻                    : 2020-02-29 13:00:13
任務總計耗時                    :                 24s
任務平均流量                    :                1B/s
記錄寫入速度                    :              0rec/s
讀出記錄總數                    :                   6
讀寫失敗總數                    :                   0

_


2 PAI Studio GBDT二分類組件使用

2.1 模塊搭建及參數配置

_

_

_

_

2.2 訓練及結果查看

_

_

_

參考鏈接

GBDT二分類
阿里雲機器學習平臺PAI使用簡明教程

Leave a Reply

Your email address will not be published. Required fields are marked *