搜尋本站文章

2013-06-26

認識 Data Quality Services,建立「資料清理(Data cleansing)」專案 - 以 SQL Server 2012 為例

示範版本:SQL Server 2012

認識「資料清理(Data cleansing)」

資料清理是分析資料來源中的資料品質、手動核准/拒絕系統的建議,藉以對資料進行變更的程序。

Data Quality Services (DQS) 中的資料清理包含電腦輔助的程序,以分析資料符合知識庫中知識的方式,同時也包含一個互動式程序,讓資料管理人檢閱並修改電腦輔助的程序結果,以確保資料清理完全符合其希望的執行方式。

資料管理人也可以在 Integration Services 封裝程序中執行資料清理。

在此情況下,資料管理人會使用 Integration Services 中的 DQS 清理元件,透過現有的知識庫自動執行資料清理。




影片:
認識 Data Quality Services,建立「資料清理(Data cleansing)」專案 - 以 SQL Server 2012 為例



本影片所示範的工作有:

工作1:建立「資料清理(Data cleansing)」專案

工作2:檢視清理的資料




DQS 中的資料清理功能具有下列優點:

(1) 識別資料來源 (Excel 檔案或 SQL Server 資料庫) 中不完整或不正確的資料,然後更正無效的資料或向您發出相關警示。

(2) 提供兩個步驟的程序來清理資料:電腦輔助的程序和互動式程序。

電腦輔助的程序會使用 DQS 知識庫中的知識自動處理資料,並建議替代項目/更正。

下一個步驟是互動式程序,可讓資料管理人核准、拒絕或修改 DQS 在電腦輔助的清理期間所提議的變更。

(3) 使用定義域值、定義域規則和參考資料,標準化並充實客戶資料。

例如,透過將 “St.” 變更為 “Street” 讓詞彙使用方式標準化,並透過將 “1 Microsoft way Redmond 98006” 變更為 “1 Microsoft Way, Redmond, WA 98006” 來填入遺漏的元素,藉以豐富資料。

(4) 為使用者提供簡單、直覺,以及類似精靈的一致介面,以便在一組非常大的資料之間瀏覽資料並檢查其中的錯誤。



參考資料

資料清理
http://msdn.microsoft.com/zh-tw/library/gg524800.aspx

Data Quality Client 應用程式
http://msdn.microsoft.com/zh-tw/library/gg524796.aspx

--

安裝 Data Quality Services (DQS) - 以 SQL Server 2012 為例
http://sharedderrick.blogspot.tw/2013/06/data-quality-services-dqs-sql-server.html

使用 Data Quality Client,建立「知識庫(Knowledge Base)」 - 以 SQL Server 2012 為例
http://sharedderrick.blogspot.tw/2013/06/data-quality-clientknowledge-base-sql.html