数据去重工具
一、简介
数据去重工具主要用于将TA系统中的重复的事件数据去重处理,支持根据时间段以及事件类型去重事件数据。
因为去重会占用集群计算资源,我们建议只在数据异常时进行数据去重,不建议作为频繁去重数据,请谨慎使用本工具。
二、使用说明
数据去重工具只支持私有化服务的用户使用。root用户登录私有化集群的任意一台服务器,执行su - ta
然后执行ta-tool dupevent_del
,即可进入数据去重工具界面。
1.第一步是填写需要去重项目的appid,项目的appid可在TA后台中的项目管理页面中查询。
输入完毕后会提示需要去重的项目的项目名,输入"y"进行确认,输入"n"取消操作
2.接下来需要输入删除事件的事件名,此处输入的事件名是传输数据时的key值,不是显示名,可在元数据管理页面中查询事件名,删除多个事件可用","分割,输入完毕后会提示将要删除的事件名。
如果不输入任何字符直接回车确认,视为删除所有事件数据:
3.接下来需要输入判断去重逻辑忽略的字段名,默认已经去掉ta自用字段参与重复逻辑判断,例如"#server_time","#kafka_offset"字段不参与重复判断逻辑,忽略多个字段可用","分割,输入完毕后会提示将要忽略的字段名。
4.接下来需要输入去重数据的时间段,可选的时间颗粒度为“天”,请以yyyy-MM-dd
的格式输入日期,此项为必输项):
6.最后在数据去重前,会进行最后的确认,包括去重项目的名称,去重事件的名称以及去重的时段,输入"y"开始删除数据,如有错误可输入"n"退出工具重新输入:
7.确认后会进行数据去重,如下图去重整个流程截图:
三、注意事项
- 1.在使用数据去重工具前,请确认好数据重复原因,避免去重同时有重复数据进入,无法保证去重效果。
- 2.去重需要占用集群计算资源,不建议频繁使用。
- 3.如果出现如下截图情况,是集群在进行数据合并,可以等待他自己自动执行,如果长时间卡在次处可以联系运维人员排查。