DataPump+是一套全端數據遷移、采集及部分轉換的ETL系統,實現離線與實時、結構化數據與非結構化的多模采集及同步,實現基礎數據轉換功能,包含各種業務數據與打點行為數據、日志數據等。
同步策略可靈活配置,支持全量同步、增量同步,以及多種數據寫入模式,并通過調度配置,適應更多場景需求。
可視化便捷操作,快速完成ETL過程
兼容性強,支持所有主流數據存儲
當前系統已兼容絕大多數主流數據存儲,主流的RDBMS數據、NOSQL、大數據計算系統都已經接入;未來可支持所有主流廠商。
DataPump+作為一個服務于大數據的ETL工具,為用戶提供了易操作的可視化配置界面。簡單5步配置操作即可實現數據抽取功能。不僅如此,系統還提供了豐富數據轉換的功能,讓數據在傳輸過程中可以輕松完成數據清洗、過濾等數據轉換功能。整個過程可監控。
靈活可配置的同步策略
可視化便捷操作,快速完成ETL過程
離線數據同步:RDB 表級同步、非RDB 的數據同步,整庫級別數據同步
實時數據同步
基礎配置(數據快照搬遷)、數據轉換配置
全量同步、增量同步,多寫入模式
多job調度執行,提供日志監控
|連接管理
配置數據采集任務的源、目標數據庫的信息。目前已經有了比較全面的插件體系,主流的RDBMS數據庫、NOSQL、大數據計算系統都已經接入。
通過導航式的可視化界面配置,輕松完成數據源到目標數據庫的ETL過程。系統提供了豐富數據轉換的功能,讓數據在傳輸過程中可以輕松完成數據過濾等數據轉換功能,另外還提供了自定義groovy函數,讓用戶自定義轉換函數。
|同步任務配置
既支持單次運行,也支持配置調度周期性運行。
|任務運行調度
任務執行情況可通過日志監控模塊進行查看,并可查看每個job以及task的運行日志。
|日志監控
|函數管理
|性能優化
合理的參數配置將有助于數據采集的效率,DataPump+提供兩種性能優化建議:
提升每個 Channel 的速度
提升 DataPump+ Job 內 Channel 并發數