30天學會Data Integration - Kettle系列 第 8 篇 - 查看Transformation執行結果
此篇將解說如何查看Transformation的執行結果,有利於我們更了解資料的處理方式與資料流的方向
Step Metrics
Step Metrics頁籤會顯示此Transformation中各Step的資料處理情況,例如讀取、寫入的紀錄與處理的時間與速度,以下是Step Metrics的欄位介紹:
- Stepname:Step名稱
- Read:讀取到的資料筆數(從上一個Step傳過來的資料)
- Written:寫入的資料筆數(要傳給下一個Step2的資料)
- Input:讀取檔案或是資料庫的資料筆數
- Output:寫入檔案或資料庫的資料筆數
- Updated:更新資料庫的資料筆數
- Errors:發生的錯誤筆數
- Active:顯示Step的執行狀態,有三種:running(執行中)、finished(已完成)與stopped(停止)
- Time:花費的時間(秒)
- Speed:每秒可以處理多少資料筆數
一樣查看昨天的例子,執行結果如下圖:
我們可以看到第一個Step(CSV file input)是從檔案讀取資料,所以它的Input數量是101,但為什麼Written數量是100呢?我們可以打開\data-integration\samples\transformations\files\customers-100.txt檔案來研究一下,發現資料行數真的是101行,所以Input數量等於101是完全正確的
至於為什麼Written數量是100呢?問題就出在customers-100.txt的第一行其實是在定義資料欄位的名稱,所以有效的資料量就是100筆,第一行的欄位定義不會被算進入Written的數量之中,也不會將此筆資料傳給下一個Step,後面講到讀取讀取file資料時會再進一步說明
Logging
在上一篇文章有提到,執行Transformation時可以設定Log Level,執行完成之後就可以到Logging頁籤查看詳細資訊,若發生錯誤將會以紅色文字顯示,所以此區就是協助我們進行debug的地方
Execution History與Performance Graph
這兩個頁籤要搭配Transformation的屬性設定中的Logging頁籤,進行資料庫的設定來紀錄執行的log,有興趣的人可以在另外研究
Metrics
使用甘特圖的方式呈現Transformation執行完成時或需要的時間,例如執行SQL查詢所花費的時間,根據今天的例子,就可以看到初始化Step到執行Step的時間,在這邊就可以協助我們了解,在執行Transformation時,在時間軸上每個Step的處理情況
Preview Data
此頁籤可以查看每個步驟的資料(Written),請使用滑鼠左鍵點選一個Step,此頁籤就會顯示此Step的資料數據
下一篇將介紹次要工具列常使用到的功能
參考資料:
http://wiki.pentaho.com/display/EAI/.14+Logging
https://help.pentaho.com/Documentation/7.0/0L0/0Y0/030/030/020
留言
張貼留言