工作总结 标签

ETL 工具 - Kettle 的基本使用

最近做的项目用到了 ETL 工具 Kettle,这个工具相当好用,可以将各种类型数据作为数据流,经过处理后再生成各种类型的数据。正如其名“水壶”,将各个地方的水倒进水壶里,再用水壶倒入不同的容器。不过一来初学乍用,二来对此任务不是很感兴趣,研究的不是很深入,可能是以一种不科学的方法使用的,但观教程,常用的内容似乎也涉及到了,并且 Y 大说过,要善于总结,于是有了这篇,作为入门说明吧。 一、下载与安装 官网地址 大概 700~800M,下载好解压缩即可。当然,要求 JDK 环境(似乎有自带) 二、任务(.kjb)与转换(.ktr) Kettle 工具的主界面-作业 简单地说,一个转换就是一个 ETL 的过程,而作业则是多个转换、作业的集合,在作业中可以对转换或作业进行调度、定时任务等(据说定时不好用,可以通过其他方式,比如 linux 的 crontab 命令,不过实际使用中,这个指令也不大好使,有待查看日志探明原因。) 我在实际过程中,写的流程不是很复杂,当数据抽取需要多步骤时,分成多个转换,在集合到一个作业里顺序摆放,然后执行即可,不放到作业里的话,要对多个转换依次执行命令,比较麻....

阅读全文 »