作者(英文):Zong-Han Yang
論文名稱(英文):Streaming Big Data Pattern Analytics Service Popularization and Dynamic Query Sharing
指導教授(英文):Shiow-Yang Wu
口試委員(英文):Tsung-Ying Sun
Horng-Lin Shieh
關鍵詞(英文):IOTStreaming Big dataPattern detectionService popularizeDynamic sharing
本論文的第一個目的,是提出一個多來源組合串流樣式偵測分析服務,並且讓一般大眾都能夠非常容易的使用而不需要具備串流資料處理專業知識和程式設計能力。我們在本實驗室學長Henry Gunawan所提出的SIFTTT[14]基礎上進行了擴充,提供多種常用串流樣式分析和組合辨識服務。
本論文的第二個目的,是設計一套高效能串流資料多查詢動態分享機制。我們參考了Shuping Ji和Hans-Arno Jacobsen所提出的A-Tree方法[28],提出一個新的查詢處理分享網路架構,稱之為Query Sharing Forest (QS-Forest),讓每個條件偵測判斷結果,能夠自動擴散到所有相關節點上,避免重複偵測計算。我們還提出了一個Switch機制,對於相同來源的數值只需要檢測一遍就能夠得到所有針對該來源的數值查詢條件成立與否的判斷,並配合動態分享機制有效擴散那些已成立的條件,滿足所有查詢成立與否的即時判斷。

With the proliferation of IoT devices and Web Apps, the demand and development of streaming data technologies and applications are booming. Most of these applications need to dynamically analyze and identify the changing patterns and future trends of streaming data, so as to trigger appropriate responses or services in real time. However, the current streaming pattern detection tools require a certain degree of professional knowledge to master, and are difficult to be used by the general public. Meanwhile, many tools only focus on numerical detection and classification of a small number of limited sources. Complex multi-source combinations of changing trends, customized analytics can only be performed by users with programming skills.
The first goal of this paper is to propose a multi-source combination streaming pattern detection and analysis service that can be easily used by the general public without the need of streaming data processing expertise and programming skills. We extend SIFTTT[14] proposed by Henry Gunawan, to provide a variety of commonly used stream pattern analysis and combination identification services.
Facing the service demand of a large number of users, when the stream data sources are the same and the detection conditions are consistent or compatible, it provides the opportunity to share the analysis service to avoid duplicate computation and enhance the detection efficiency. Most of the existing multi-query sharing methods are still in batch processing, or only perform comparison or computation to see if there are any matching results when needed. These methods are not suitable for dynamic streaming data processing and query sharing.
The second goal of this paper is to design a high-performance multi-query dynamic sharing mechanism for streaming data. We refer to the A-Tree proposed by Shuping Ji and Hans-Arno Jacobsen[28], and propose a new query sharing network architecture, called Query Sharing Forest (QS-Forest), to allow each conditional detection result to be automatically spread to all relevant nodes, avoiding the need for repeated detection and condition evaluation. We also propose a Switch mechanism, which detects the values of the same source only once to obtain the Boolean results of all the query conditions on the values of that source, and effectively spreads the results with the dynamic sharing mechanism to satisfy all relevent query evaluation in real time.
Our proposed framework and methodology can successfully popularize the streaming big data pattern analysis service and achieve dynamic query sharing to effectively improve the performance, as demonstrated by the results of implementation and comprehensive experiments.
第一章 緒論 1
第一節 研究背景與動機 1
第二節 研究目的與方法 2
第三節 研究成果 3
第四節 論文架構 3

第二章 相關工作 5
第一節 物聯網(IoT) 5
第二節 串流資料(Streaming Data) 6
第三節 串流樣式偵測(Streaming pattern detection) 7
第四節 串流資料共享 7
第五節 普及化和SIFTTT 9
第六節 相關系統工具和語言 9
第六之一節 Kafka 10
第六之二節 Spark 10
第六之三節 Play Framework 12
第六之四節 IFTTT 13
第六之五節 Scala 15

第三章 普及化串流大數據樣式偵測服務與共享架構 17
第一節 問題描述 17
第二節 串流樣式擴充與處理 18
第三節 串流大數據樣式服務處理架構 21
第四節 Query Sharing Forest (QS-Forest)介紹及建立方法 22
第四之一節 Query sharing forest 介紹 22
第四之二節 QS-Forest建立方法 24
第五節 Switch介紹與建立方法 29
第五之一節 Switch 介紹 29
第五之二節 Switch 建立方法及機制 31

第四章 串流樣式即時分析與查詢服務動態分享 37
第一節 串流樣式即時分析服務 37
第二節 動態分享機制 41
第三節 樣式偵測機制 45

第五章 系統實作效果與效能評估 49
第一節 實驗環境 49
第二節 實驗資料 49
第三節 實驗結果 50
第三之一節 QS-Forest建立結果 50
第三之二節 通知正確性 56
第三之三節 Switch正確性 57
第三之四節 樣式捕捉正確性 59
第三之五節 不同查詢數量之建立時間及記憶體占用 61
第三之六節 不同查詢長度和數量對建立時間的影響 63
第三之七節 不同查詢數量下的處理時間 64
第三之八節 不同查詢數量不同共享程度之平均處理時間 66

第六章 結論與未來工作 69
第一節 結論 69
第二節 未來工作 70

