首頁 » 資訊科技 » 資訊科技技術運用 » Arbutus資料分析技術 » 相較於其他稽核資料分析軟體系統,喜歡Arbutus 的100個理由:81~90 (Part 9)

相較於其他稽核資料分析軟體系統,喜歡Arbutus 的100個理由:81~90 (Part 9)

[請點按左列各項理由顯示內容]

81. 在專案概觀(Overview)中任何項目可以被刪除,即使它現在仍被開啟使用中82. 精靈(Wizard)視覺引導83. Split() 函數可以從字串的左端或右端起算來選擇區段(segments) 84. 以新增方式(append)匯出至原有分界檔 (delimited file)85. 針對Pause及Dialog指令設定最大等待時間值86. 程序編輯器可選用跳格鍵 tab, 字型(font), 和縮排( indent)87. Left() and Right() 函數運用 88. 下推式查詢(Push-Down query)最佳化89. 指令語法支援開啟多重資料表(multiple tables)90. 無符號二進位資料(Unsigned binary data)

當我們在專案概觀裡作業時,假如要去刪除一個正在開啟使用中的項目,通常必須先關閉檔案,這會讓我們感到不便,因此,Arbutus會自動關閉任何要刪除的項目。

當使用精靈定義資料時,要正確地看到我們所要定義欄位的寬度是相當困難的,這的確是事實當你試著要去對應你所參考的外部定義資料時,而這時候「精靈(Wizard)視覺引導」的幫助就很重要,當在定義欄位資料當中,這個小工具會持續地告訴你目前所定義欄位所指的寬度位置,相當好用。

5-4-Wide-Wizard-data1 5-4-Wizard-Visual-Cues2

 

  • 一般情況下,欄位內容會包含個別可分離的項目,舉個最簡單的例子,像是”John Smith”中就包含了First and Last name。
  • Split()函數能拉出單獨的項目,例如:John 或 Smith。通常使用者是從左邊位置指定要Split的項目,如果指定2就會拉出Last Name。但是資料常常包含了多種不規則的情形,如”John Robert Smith”這個名字的第二的位置就不是Last Name。
  • 為了解決這種情形,Arbutus的Split函數提供從字串的左端或右端起算來選擇區段,使用者可以指定右端第一個位置,就可以選擇出Last Name。

Arbutus支援以新增方式(append)匯出至原有分界檔 (delimited file),能自動地維持欄位的長度,使其能正常的添加新資料。

Arbutus支援Pause及Dialog指令設定最大等待時間值,如果使用者超過最大等待時間值而沒有動作,程序(Procedure)就會以預設值繼續執行,並不會因為沒有在對話視窗中輸入數值而中斷。

程序編輯器可以允許使用者自訂以下內容:

  • 程序編輯器視窗初始字型大小
  • 按下TAB鍵要跳格的格數
  • 當超過一行時,自動換行要縮排的字元數

Arbutus的Left() and Right() 函數允許使用者引用任何字串中的第一個及最後一個字元,使用Left() and Right() 函數會比使用Substring()函數更加容易且快速。

When reading relational data directly, such as ODBC sources, Arbutus automatically utilizes “Push-Down” query optimization. This informs the source system of the filter criteria to minimize the size of the result set returned.


Arbutus允許使用者在用戶介面中,同一時間開啟多重資料表分析資料。此外,此功能也支援用指令的方式執行。使用者能在程序中開啟多個資料表,並使用SET TABLE指令來切換資料表。

 

不是所有二進位資料都是有符號字元。舉例來說,常見的二位元組(2–byte)所儲存的數值介於0~65535之間。Arbutus支援這種型態的任意長度二進位資料,以及big-endian (最高位元組在前) 或small-endian (最低位元組在前)的格式資料。而這只是Arbutus所支援超過20種資料類型的其中之一而已。

第91個以後喜歡Arbutus的理由,陸續公佈中!

 

Performance Comparison

Performance Comparison: Arbutus vs. The Competition

benchmark

 

Importing
XML: 74 times faster
Delimited/CSV: Instantaneous
XLS/XLSX: 2 times fasterExporting
XML: 4 times faster
XLS/XLSX: 3 times fasterFuzzy matching: 11 to 500 times fasterUse of time fields: 2 to 3 times faster
Notes:
1) In Arbutus, Import CSV takes zero time, regardless of file size, as delimited data is read directly.
2) Our Duplicates command is compared to their FUZZYDUP.
3) As their FUZZYDUP command does not support ‘same’ fields, we have concatenated the three keys.About the Tests:

  • Test computer specs: Dell I7-920, 2.67GHz, Windows 64 bit, 9GB RAM, 1TB disk
  • Most reads use a 125,000,000 record, 80 bytes long transaction file (10GB data size)
  • Fuzzy duplicates tests use a 50,000 record address file
  • Exports are 5,000,000 records, except Excel, which is 650,000
  • Imports are all 650,000 records
  • We chose 125 million records because most people interested in performance have big data. For comparison, Arbutus also ran the “big data” tests (Join through Summarize) on a 5 million record file as well. Analyzer took 50 seconds in total, while the competitor’s version 10 took 89 seconds (the graph lines were too small to show individually).

關於 David Chuang

CFE舞弊稽核師、資料分析與電腦稽核專家 現 任: 台北商業技術學院會計資訊系兼任講師 - 電腦審計 兆益數位股份有限公司 總經理 中華民國電腦稽核協會理事專業發展委員會主任委員 台灣舞弊防治與鑑識協會理事暨會員發展與服務委員會主任委員