大数据计算过程中可能会遗留大量的日志,中间文件,以及过期的计算结果
在数据量是很大的情况下,这些数据会占用很多存储资源,甚至可能导致因磁盘满载出现机器停止运行的问题

下面是笔者在工作中编写的用于清理这些数据的脚本,目前可清理数据有:

  • 本地日志和其它文件
  • hdfs目录
  • hive表
  • hbase表

详情见代码: https://github.com/xufwind95/data_cleaner

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐