30天學會Data Integration - Kettle系列 第 8 篇 - 查看Transformation執行結果

 此篇將解說如何查看Transformation的執行結果,有利於我們更了解資料的處理方式與資料流的方向

Step Metrics

Step Metrics頁籤會顯示此Transformation中各Step的資料處理情況,例如讀取、寫入的紀錄與處理的時間與速度,以下是Step Metrics的欄位介紹:

  • Stepname:Step名稱
  • Read:讀取到的資料筆數(從上一個Step傳過來的資料)
  • Written:寫入的資料筆數(要傳給下一個Step2的資料)
  • Input:讀取檔案或是資料庫的資料筆數
  • Output:寫入檔案或資料庫的資料筆數
  • Updated:更新資料庫的資料筆數
  • Errors:發生的錯誤筆數
  • Active:顯示Step的執行狀態,有三種:running(執行中)、finished(已完成)與stopped(停止)
  • Time:花費的時間(秒)
  • Speed:每秒可以處理多少資料筆數

一樣查看昨天的例子,執行結果如下圖:





我們可以看到第一個Step(CSV file input)是從檔案讀取資料,所以它的Input數量是101,但為什麼Written數量是100呢?我們可以打開\data-integration\samples\transformations\files\customers-100.txt檔案來研究一下,發現資料行數真的是101行,所以Input數量等於101是完全正確的



至於為什麼Written數量是100呢?問題就出在customers-100.txt的第一行其實是在定義資料欄位的名稱,所以有效的資料量就是100筆,第一行的欄位定義不會被算進入Written的數量之中,也不會將此筆資料傳給下一個Step,後面講到讀取讀取file資料時會再進一步說明



Logging

在上一篇文章有提到,執行Transformation時可以設定Log Level,執行完成之後就可以到Logging頁籤查看詳細資訊,若發生錯誤將會以紅色文字顯示,所以此區就是協助我們進行debug的地方



Execution History與Performance Graph

這兩個頁籤要搭配Transformation的屬性設定中的Logging頁籤,進行資料庫的設定來紀錄執行的log,有興趣的人可以在另外研究



Metrics

使用甘特圖的方式呈現Transformation執行完成時或需要的時間,例如執行SQL查詢所花費的時間,根據今天的例子,就可以看到初始化Step到執行Step的時間,在這邊就可以協助我們了解,在執行Transformation時,在時間軸上每個Step的處理情況



Preview Data

此頁籤可以查看每個步驟的資料(Written),請使用滑鼠左鍵點選一個Step,此頁籤就會顯示此Step的資料數據



下一篇將介紹次要工具列常使用到的功能

參考資料:
http://wiki.pentaho.com/display/EAI/.14+Logging
https://help.pentaho.com/Documentation/7.0/0L0/0Y0/030/030/020


留言

這個網誌中的熱門文章

CPE 一顆星選集題目說明與解答 - Java 筆記與心得分享

Visual Studio 自動排版格式化程式碼

1. Vito's family (CPE10406, UVA10041) - CPE一顆星解答與說明