# 数据归档与回档

# 一、数据归档功能（ta_data_archive）

数据归档功能是把一些历史数据或暂时不需要使用的数据迁移归档到廉价存储中。从而释放 TE 集群的磁盘资源，节省使用成本。

# 1.1 归档命令

#启动
ta-tool data_archive start

#停止
ta-tool data_archive stop

#失败重跑
ta-tool data_archive retry -jobid *******

# 1.2 归档方式

# 1.2.1 S3 方式

# 1.2.1.1 环境准备

申请亚马逊 S3 服务
创建好归档使用的桶（Bucket），桶的区域建议和 TE 集群服务器一致
创建好能够访问桶的秘钥

# 1.2.1.2 命令样例

[ta@ta1 ~]$ ta-tool data_archive start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 5487f6b**********f9c379aa9bb
------------------------------------------------------------
请输入项目归档的开始时间：YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间：YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型（非必填）>
------------------------------------------------------------
请输入归档存储的类型：hdfs or rsync or s3 > s3
------------------------------------------------------------
请输入S3 AccesskeyID> AK************YO6G3
------------------------------------------------------------
请输入S3 secretAccessKey> J23************rZb
------------------------------------------------------------
请输入S3 区域代码> cn-****-1
------------------------------------------------------------
请输入S3 存储桶名称> ta************ive
------------------------------------------------------------
请输入S3 文件存储类（默认：STANDARD）> S*****D
------------------------------------------------------------
请输入项目归档的目标目录> data*****_test
------------------------------------------------------------

# 1.2.1.3 步骤说明

输入 jobid，可以自定义，或者后台生成，为了在任务失败时，重跑时需要指定 jobid。
输入项目 appid
输入开始日期（在最近一个月范围外）
输入结束日期（在最近一个月范围外）
输入指定事件类型（非必选），用于单独归档某一个事件类型
归档存储的类型选择 S3
输入 s3 的 accesskeyid
输入 secretAccessKey（S3 IAM 服务中管理）
指定桶 (opens new window)区域代码
输入存储桶名称
选择存储类型 (opens new window)（默认为标准模式）。存储类型中 GLACIER 和 DEEP_ARCHIVE 存储类专为低成本数据存档而设计，但是在数据恢复时需要解冻操作。比较繁琐。
归档的目标目录，（会在目标桶下创建该目录，把归档数据放入该目录）

# 1.2.2 HDFS 方式

# 1.2.2.1 环境准备

准备与 TE 集群网络互通的 HDFS 环境

# 1.2.2.2 命令样例

[ta@ta1 ~]$ ta-tool data_archive start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 5487************a9bb
------------------------------------------------------------
请输入项目归档的开始时间：YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间：YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型（非必填）>
------------------------------------------------------------
请输入归档存储的类型：hdfs or rsync or s3 > hdfs
------------------------------------------------------------
请输入项目归档的HFDS URL地址> hdfs-nm-url
------------------------------------------------------------
请输入项目归档的HFDS 的用户名> hdfsUserName
------------------------------------------------------------
请输入项目归档的目标目录> hdfs******test
------------------------------------------------------------

# 1.2.2.3 步骤说明

输入 jobid，可以自定义，或者后台生成，为了在任务失败时，重跑时指定 jobid 用。
输入项目 appid
输入开始日期（在最近一个月范围外）
输入结束日期（在最近一个月范围外）
输入指定事件类型（非必选），用于单独归档某一个事件类型
归档存储的类型选择 hdfs
输入写入端的 hdfs 地址，如果端口默认填写 hostname 即可
输入写入端的 hdfs 的用户名
输入归档的目标目录，建议使用绝对路径，否则会存放在/user/hdfs 用户目录/目标目录/

# 1.2.3 rsync 方式

# 1.2.3.1 环境准备

使用 rsync 的 daemon 模式搭建好服务端，并把秘钥文件拷贝到 TE 集群中的命令运行节点

# 1.2.3.2 命令样例

[ta@ta1 ~]$ ta-tool data_archive start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 548*****************9bb
------------------------------------------------------------
请输入项目归档的开始时间：YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间：YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型（非必填）>
------------------------------------------------------------
请输入归档存储的类型：hdfs or rsync or s3 > rsync
------------------------------------------------------------
请输入目标RSYNC服务器IP地址> rsyncIp
------------------------------------------------------------
请输入目标RSYNC服务器端口> rsyncPort
------------------------------------------------------------
请输入目标RSYNC服务器用户名> rsyncUser
------------------------------------------------------------
请输入目标RSYNC服务器秘钥文件位置> passwordFilePath
------------------------------------------------------------
请输入目标RSYNC服务器模块名称> modelName
------------------------------------------------------------
sending incremental file list
/tmp/
/tmp/d41d8c*****ecf8427e.data

sent 99 bytes  received 15 bytes  228.00 bytes/sec
total size is 11  speedup is 0.10 (DRY RUN)
请输入项目归档的目标目录> rsync******test_dir

# 1.2.3.3 步骤说明

输入 jobid，可以自定义，或者后台生成，为了在任务失败时，重跑时指定 jobid 用。
输入项目 appid
输入开始日期（在最近一个月范围外）
输入结束日期（在最近一个月范围外）
输入指定事件类型（非必选），用于单独归档某一个事件类型
归档存储的类型选择 rsync
输入 rsync 服务端 ip
输入 rsync 服务端端口
输入 tsync 用户名
输入 rsync 秘钥的文件位置，放在某一个目录下，文件权限要保证 chmod 600 权限
输入 rsync 的模块名称（这一步会利用之前输入的信息，验证 rsync 是否可用）
输入归档的目标目录

# 二、数据回档功能（ta_data_reload）

数据回档功能，是将之前归档的数据导入到 TE 集群中，再次使用，一般在查看历年趋势时使用。

导入前请确认磁盘空间是否足够。

# 2.1 回档命令

#启动
ta-tool data_reload start

#停止
ta-tool data_reload stop

#失败重跑
ta-tool data_reload retry -jobid *******

# 2.2 回档方式

# 2.2.1 S3 方式

# 2.2.1.1 环境准备

申请亚马逊 S3 服务
创建好归档使用的桶（Bucket），桶的区域建议和 TE 集群服务器一致
创建好能够访问桶的秘钥

# 2.2.1.2 命令样例

[ta@ta1 log]$ ta-tool data_reload start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 5487f6************a9bb
------------------------------------------------------------
请输入项目归档的开始时间：YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间：YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型（非必填）>
------------------------------------------------------------
请输入归档存储的类型：hdfs or rsync or s3 > s3
------------------------------------------------------------
请输入S3 AccesskeyID> AK***********3
------------------------------------------------------------
请输入S3 secretAccessKey> J23w************b
------------------------------------------------------------
请输入S3 区域代码> cn*****-1
------------------------------------------------------------
请输入S3 存储桶名称> ta*****ve
------------------------------------------------------------
请输入项目归档的目标目录> data*******t_1
------------------------------------------------------------

# 2.2.1.3 步骤说明

输入 jobid，可以自定义，或者后台生成，为了在任务失败时，重跑时指定 jobid 用。
输入项目 appid
输入开始日期（在最近一个月范围外）
输入结束日期（在最近一个月范围外）
输入指定事件类型（非必选），用于单独归档某一个事件类型
项目归档的事件类型选择 S3
输入 s3 的 accesskeyid
输入 secretAccessKey（S3 IAM 服务中管理）
指定桶 (opens new window)区域代码
输入存储桶名称
选择存储类型 (opens new window)（默认为标准模式）。如果存储类型为 GLACIER 和 DEEP_ARCHIVE，请提前在 S3 中做好数据解冻操作，否则数据是不允许拉取的
归档的目标目录，（会在目标桶下创建该目录，把归档数据放入该目录）

注意：输入参数时，保证和归档时的桶名称和目录路径一致。

# 2.2.2 HDFS 方式

# 2.2.2.1 环境准备

准备与 TE 集群网络互通的 HDFS 环境

# 2.2.2.2 命令样例

[ta@ta1 log]$ ta-tool data_reload start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 5487*******************9bb
------------------------------------------------------------
请输入项目归档的开始时间：YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间：YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型（非必填）>
------------------------------------------------------------
请输入归档存储的类型：hdfs or rsync or s3 > hdfs
------------------------------------------------------------
请输入项目归档的HFDS URL地址> hdfs-nm-url
------------------------------------------------------------
请输入项目归档的目标目录> hdfs******test
------------------------------------------------------------

# 2.2.2.3 步骤说明

输入 jobid，可以自定义，或者后台生成，为了在任务失败时，重跑时指定 jobid 用。
输入项目 appid
输入开始日期（在最近一个月范围外）
输入结束日期（在最近一个月范围外）
输入指定事件类型（非必选），用于单独归档某一个事件类型
项目归档的事件类型选择 hdfs
输入写入端的 hdfs 地址，如果端口默认填写 hostname 即可
输入写入端的 hdfs 的用户名
输入归档的目标目录

注意：输入参数时，保证和归档时的目录路径一致。

# 2.2.3 rsync 方式

# 2.2.3.1 环境准备

使用 rsync 的 daemon 模式搭建好服务端，并把秘钥文件拷贝到 TE 集群中的命令运行节点

# 2.2.3.2 命令样例

[ta@ta1 log]$ ta-tool data_reload start
请输入本次工作的JobId,不输入后台随机生成>
------------------------------------------------------------
请输入需要归档的项目appid> 54****************9bb
------------------------------------------------------------
请输入项目归档的开始时间：YYYY-MM-DD > 2018-01-01
------------------------------------------------------------
请输入项目归档的结束时间：YYYY-MM-DD > 2018-12-31
------------------------------------------------------------
请输入项目归档的事件类型（非必填）>
------------------------------------------------------------
请输入归档存储的类型：hdfs or rsync or s3 > rsync
------------------------------------------------------------
请输入目标RSYNC服务器IP地址> rsyncIp
------------------------------------------------------------
请输入目标RSYNC服务器端口> rsyncPort
------------------------------------------------------------
请输入目标RSYNC服务器用户名> rsyncUser
------------------------------------------------------------
请输入目标RSYNC服务器秘钥文件位置> passwordFilePath
------------------------------------------------------------
请输入目标RSYNC服务器模块名称> modelName
------------------------------------------------------------
sending incremental file list
/tmp/
/tmp/d41d8cd98f00b204e9800998ecf8427e.data
sent 99 bytes  received 15 bytes  20.73 bytes/sec
total size is 11  speedup is 0.10 (DRY RUN)
请输入项目归档的目标目录> rsync******test_dir

# 2.2.3.3 步骤说明

输入 jobid，可以自定义，或者后台生成，为了在任务失败时，重跑时指定 jobid 用。
输入项目 appid
输入开始日期（在最近一个月范围外）
输入结束日期（在最近一个月范围外）
输入指定事件类型（非必选），用于单独归档某一个事件类型
归档存储的类型选择 rsync
输入 rsync 服务端 ip
输入 rsync 服务端端口
输入 tsync 用户名
输入 rsync 秘钥的文件位置，放在某一个目录下，文件权限要保证 chmod 600 权限
输入 rsync 的模块名称（这一步会利用之前输入的信息，验证 rsync 是否可用）
输入归档的目标目录

注意：输入参数时，保证和归档时的目录路径一致。

← 外部用户属性关联导入功能 TaDataWriter 插件 →