解決方案 > 萬方大數據平臺

基于云與大數據的解決方案幫助企業成功轉型


1平臺概述

當前數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素,也是軍事情報數據的重要來源,大數據將推動軍隊作戰指揮的發展和創新,對于海量數據的運用將預示著新一波生產率增長和社會各行業變革的到來,在全球已經全面進入信息時代的今天,據IDC預測,全球大數據市場規模有望在2017年達530億美元,并在未來幾年內依然保持30%以上的年復合增長率。迅速積累的海量數據蘊含著重大的社會價值和軍事價值,對于軍隊,大數據技術可以提高指揮決策效率、危機應對能力和作戰水平,建設更高水平的信息化部隊。
國產化大數據機主要針對國家面向大型企業應用的共性云計算基礎平臺研制,用于發展具有自主可控的云計算技術,提高大數據挖掘與智能服務的能力。國產大數據機的研制符合國家信息安全政策導向,從CPU芯片、服務器系統設計和制造到操作系統、共性支撐軟件、虛擬化技術和系統集群實現了完全國產化。
圖1 國產大數據平臺
國產大數據平臺處于系統的平臺服務層,是國產平臺上定制開發的大數據處理軟件,在國產大數據機集群上,通過虛擬化為大數據處理提供資源池,形成大數據處理集群,軟件在集群上進行了充分的適配和優化,將檢索查詢、圖算、機器學習、數據挖掘、實時數據處理等模型統一到一個基礎平臺下,并以一致的接口API公開,提供各類業務應用信息引接,多源數據處理的國產大數據平臺服務,并能提供各類大數據處理、分析工具,對各類業務信息、多源數據做分析、提取,為輔助決策系統提供有效支撐。

2 平臺設計

WFCloud大數據平臺主要解決分布式存儲和計算底層實現,采用分布式集群做底層實現,利用分布式文件系統存儲數據,利用分布式計算實現大數據的任務處理,輔助使用內存計算解決分布式計算寫文件系統帶來的速度問題。對上通過提供各類數據存儲、計算以及挖掘接口,提供業務服務計算和數據支撐,在具備海量數據的情況下可以專注業務開發而無需關心底層數據組織方式,尤其是現有的一些基于Hadoop、HBase、Hive的程序可以更加簡單的遷移到國產服務器系統上。

2.1 平臺架構

WFCloud大數據平臺搭建在國產服務器上,在國產服務器上做了大量適配和優化,并根據硬件特點進行架構重寫,滿足大數據國產化自主可控需求。其中主要針對大數據軟件的可靠性、性能調優等方面著重進行了優化和提升。大數據平臺在實際生產環境中盡可能的對所有軟件都提供主從雙機的HA形式,采用主備或負荷分擔配置,有效避免單點故障場景對系統可靠性的影響。提供大數據軟件的自動化部署工具,實現一鍵式安裝程序和一鍵式集群控制功能。大數據平臺軟件架構如下圖所示。
圖2 大數據平臺軟件架構

2.2.核心組件

2.2.1 WFCloud大數據基礎平臺

WFCloud大數據基礎平臺基于開源大數據架構Apache Hadoop構建,可構建在國產集群上服務器,基于HDFS構建分布式文件系統實現海量存儲,基于MapReduce框架實現分布式并行處理,結合主從備份架構實現系統高可用,為國產大數據處理系統提供分布式計算和分布式存儲能力,為上層數據庫系統和其他應用系統提供平臺支撐。
3 分布式存儲架構
分布式存儲是一個主/從(Master/Slave)體系結構,如上圖所示。由于分布式存儲的性質,存儲集群擁有主備控制節點和若干數據節點。控制節點管理文件系統的元數據,數據節點則存儲實際的數據。客戶端通過與控制節點和數據節點的交互訪問文件系統。客戶端聯系控制節點以獲取文件的元數據,而真正的文件I/O操作是直接和數據節點進行交互的。
WFCloud大數據基礎平臺通過冗余備份、副本存放、心跳檢測、安全模式、數據完整性檢測、空間回收、元數據磁盤失效和快照等方法可以有效保障分布式文件系統的可靠性。平臺采用Yarn作為資源管理系統,可以為各類應用程序進行資源管理和調度。基于國產平臺優化的MapReduce框架提供快速并行處理大量數據的能力,作為分布式數據處理模式以及執行環境。
WFCloud大數據基礎平臺針對不同的應用場景和不同的應用側重點,如存儲、離線計算、分布式計算等方向,能夠有針對性地對配置進行優化,具備高度的可定制性和擴展性。

2.2.2 WFCloud大數據內存計算框架

WFCloud大數據內存計算框架是基于開源框架Apache Spark構建,針對國產平臺將其相關的集群軟件、監控軟件進行了重新定制開發。Spark是一個圍繞速度、易用性和復雜構建的大數據處理框架。它提供了一個全面、統一的框架用于管理各種有著不同性質(文本數據、圖表數據等)的數據集和數據源(批量數據或實時的流數據)的大數據處理的需求。Spark使用了內存內運算技術,能在數據尚未寫入硬盤時即在內存內分析運算。Spark項目主要由RDDs(彈性分布式數據集)、Spark SQL、Spark Streaming、Spark MLib和Spark GraphX這幾個要素組成。
WFCloud大數據內存計算框架的特點如下:
● 支持分布式內存計算
● 支持迭代式的計算
● 兼容Hadoop系統文件讀寫方式
● 計算過程容錯
● 支持多種語言開發應用(Scala/Java/Python)
● 計算能力線性擴展
WFCloud大數據內存計算框架是基于內存的迭代計算框架(如圖4所示),適用于需要多次操作特定數據集的應用場合,如機器學習,圖挖掘算法以及交互式數據挖掘算法等。在計算過程中需要反復操作的次數越多,所需讀取的數據量越大,受益越大,數據量小但是計算密度較大的場合,受益則相對較小。由于彈性數據集的特性,不適用于異步細粒度更新狀態的應用,例如Web應用服務的數據存儲。
圖4 內存計算架構圖
WFCloud大數據內存計算框架中計算的數據可以來自多個數據源,如Local File、HDFS等。WFCloud云計算平臺使用HDFS作為其底層數據存儲,用戶能夠快速的從MapReduce切換到WFCloud大數據內存計算框架,可以一次讀取大規模的數據進行并行計算。在計算完成后,將計算結果存儲到HDFS中,WFCloud大數據內存計算框架可以提供比MapReduce高10到100倍的性能。WFCloud大數據內存計算框架作為計算引擎,還支持小批量流式處理、離線批處理、SQL查詢、數據挖掘,避免用戶在這幾類不同的系統中加載同一份數據帶來的存儲和性能上的開銷。
在國產服務器與X86設備性能存在差距的情況下,采用內存計算框架能在一定程度上彌補MapReduce在執行性能上的缺陷,如中間結果輸出、數據格式和內存分布、執行策略以及任務調度的開銷等方面的提升。

2.2.3 WFCloud大數據庫系統

各類型軍事信息系統中,數據庫支撐了各種類型數據的存儲、查詢和統計分析等功能,但隨著一些特定類型數據的數據量的不斷增長,如傳感器、目標軌跡和日志信息數據等,已達到普通數據庫存儲和訪問的極限,NoSQL數據庫訪問性能和存儲拓展性方面的優越性成為解決問題的關鍵。關系型數據庫不再是唯一選擇,數據庫領域正進入混合持久化時代,即采用多種數據庫解決方案,并使用不同數據存儲模型,這種解決數據持久化存儲問題的混合方式逐漸被采納。
WFCloud大數據庫系統(WFBase)基于開源數據庫Apache HBase構建,是高可靠、高性能、面向列、可伸縮的分布式數據庫,能夠提供海量數據的存儲功能,大致架構如圖5所示。大數據數據庫基于One Rule Them All設計思想,用于處理半結構化和非結構化數據的存儲和檢索,為業務系統,數據倉庫構建和數據挖掘提供數據庫級數據存儲和檢索,方便應用開發。系統緊密結合國產平臺,充分發揮了硬件性能,提升了數據庫系統的整體性能。


圖5 WFBase架構
WFBase利用HDFS作為其文件存儲系統,除了WFBase產生的一些日志文件,WFBase中的所有數據文件都可以存儲在HDFS文件系統上。HDFS為WFBase提供了高可靠性的底層存儲支持。
WFBase適合于存儲大表數據(表的規模可以達到數十億行以及數百萬列),并且對大表數據的讀、寫訪問可以達到實時級別,提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數據庫系統。WFBase利用ZooKeeper作為協同服務,可使用WFCloud大數據內存計算框架和MapReduce來處理WFBase中的海量數據。

2.2.4 WFCloud大數據倉庫

WFCloud大數據倉庫基于開源數據倉庫Apache Hive構建,主要提供類似SQL的語言操作結構化數據存儲服務和基本的數據分析服務。WFCloud大數據倉庫為單實例的服務進程,提供服務的原理是將WQL編譯解析成相應的MapReduce或者HDFS任務。
WFCloud大數據倉庫作為一個基于HDFS和MapReduce架構的數據倉庫(如圖6所示),其主要能力是通過對WQL(WFCloud Query Language)編譯和解析,生成并執行相應的MapReduce任務或者HDFS操作。
WFCloud大數據倉庫主要特點如下:
l 海量結構化數據分析匯總
l 將復雜的MapReduce編寫任務簡化為SQL語句
l 靈活的數據存儲格式,支持JSON,CSV,TEXTFILE,RCFILE,SEQUENCEFILE這幾種存儲格式
圖6 數據倉庫架構圖
WFCloud大數據倉庫包括如下相關組件:
l 用戶接口:包括WFCloud shell,Thrift客戶端,Web管理
l Thrift服務器:當WFCloud大數據倉庫以服務器模式運行時,可以作為Thrift服務器,供客戶端連接
l 元數據庫:通常存儲在關系型數據庫(MySQL、Derby等)中
l 解析器:包括解釋器、編譯器、優化器、執行器,通過一系列的處理對HiveQL查詢語句的詞法分析、語法分析、編譯、優化以及查詢計劃的生成。查詢計劃由MapReduce調用執行

3 案例

3.1 信息服務中心大數據融合平臺

大數據融合平臺部署在網絡上,主要為海量多源異構數據提供實時入庫、實時檢索、實時分析等功能。同時提供分布式數據處理平臺,具備流數據處理和數據挖掘能力。大數據融合平臺數據處理層結構如下圖所示:
7信息中心大數據融合平臺框架
大數據融合平臺基于分布式文件系統構建,集成Hadoop分布式計算平臺,支持傳統MapReduce和內存計算的分布式計算架構,具有超強的分布式計算能力,能支持從TB級乃至PB級數據的快捷、高效處理。
大數據融合平臺的核心為數據庫系統,主要解決海量數據存儲與海量數據高速檢索兩個問題。大數據融合平臺基于SQL on Hadoop自主研制大數據數據庫系統,解決結構化和非結構化數據存儲,對入口數據進行實時索引,對數據進行分析、分割、提取后將其存儲在大數據數據庫系統。同時緊密結合硬件平臺,基于平臺進行優化,充分發揮硬件性能,提升數據庫性能。
數據處理層支持實時處理、流處理、圖算以及數據挖掘,數據挖掘可以基于數據庫中數據進行檢索,處理和建模,支持數據的深度挖掘和商業智能分析。

3.2 目標區氣象保障系統

目標區氣象保障系統是用于保障打擊目標區域環境判定的專用系統。專用氣象保障系統近17個子系統,由信息接收處理、精細化預報預警、決策支持、保障應用和業務支撐等分系統組成,各分系統的后臺處理單元采用國產設備。
氣象數據是一類非常典型的非結構化數據,在實際應用中其日增量達數十TB。為滿足該項目需求,建立一個集成各類應用服務、數據預處理、實時存儲、快速檢索、智能分析以及二、三維可視化展示為一體的氣象保障大數據處理平臺。
氣象保障系統軟件框架如圖所示:
8氣象保障大數據平臺應用拓撲
數據存儲層是業務的重要部分,其中內存存儲采用內存數據庫Redis進行集群搭建,對需要實時處理的數據進行有效快速處理;持久化存儲采用傳統國產達夢數據庫集群搭建,對需要持久化的數據進行存儲備份,起到安全防護作用;分布式文件存儲采用MongoDB數據庫進行集群搭建,對非關系型數據進行快速有效存儲,供多用戶進行實時訪問;近線存儲由WFBase集群搭建,主要用于存儲訪問量不大且訪問性能較高的應用,同時要求設備具有相當大的存儲容量和靈活的集群伸縮性。
平臺服務層為業務應用提供基礎服務及系統平臺,主要包括國產云計算大數據平臺及國產二、三維地理信息系統平臺。數據服務層針對具體應用可進行彈性插件式擴展。數據處理服務包括數據分發、數據接收兩部分。
業務可視化層是為用戶提供數據分析、推演的展示單元,通過國產終端可對氣象數據實時分析和服務監控。
整個氣象保障系統核心數據存儲和處理部分主要利用WFCloud國產大數據平臺構建,實現系統的國產化的同時保障了系統處理性能。

3.3某數據中心建設

該項目以國產申威大數據機和睿思操作系統為基礎平臺,提供虛擬化和大數據處理技術,完成海量非結構化數據的存儲和檢索平臺的搭建。為上層傳統數據庫應用、數據挖掘應用、數據可視化提供底層支撐。
分布式處理平臺構建在國產申威大數據機集群上,利用神威虛擬化技術擴充集群規模,采用分布式文件系統實現分布式存儲,利用分布式計算和Map Reduce設計實現分布式計算框架,結合主從備份架構實現系統高可用,為國產神威大數據處理系統提供分布式計算和存儲能力,具體軟件架構如圖所示。
9 數據中心軟件架構圖
項目具體實施分為以下幾步:
1)國產申威平臺下的分布式處理平臺的移植和優化;
2)利用WFCloud大數據平臺構建分布式處理平臺系統、WFBase數據庫的具體實施、測試;
3)大數據平臺搭建后,和國產神通數據庫進行交互使用。提供相關數據挖掘和檢索接口,提供基礎平臺應用系統移植支撐,提供數據交互模塊接口;
4)與神通數據庫共同完成數據庫測試工作。
5)與南大通用共同完成GBase8A數據庫測試工作。

3.4某學院申威大數據平臺建設

該項目打造以國產申威大數據機和睿思操作系統為基礎平臺,虛擬化和大數據處理技術為核心支撐的國防大數據信息融合平臺。
國防作為對安全要求極高的行業,對自主可控軟硬件尤為親睞。申威大數據一體化解決方案,從硬件、操作系統、大數據軟件、虛擬化軟件、應用接口幾大部分均采用國產自主可控技術,并融合安全中間件和安全數據庫,為國防大數據建設新型信息化融合平臺。
為滿足某學院信息融合中心的國產化研制需求,需完成基礎環境、平臺應用以及系統服務三個層次的建設工作。其中,平臺應用層中國產核心應用支撐環境是較為重要的環節之一,包含對基礎庫、基礎中間件、基礎開發運行環境、基礎開發驅動等系統軟件的融合搭建。WFCloud大數據基礎平臺、WFCloud大數據內存計算框架以及WFBase系統基于國產自主可控軟硬件基礎環境(申威服務器)進行建立。結合國內化先進的云計算大數據架構、技術,通過源碼重構、軟件架構重構,形成了申威大數據平臺架構,大致如圖所示。
10 申威大數據平臺架構
國產操作系統依賴于國產硬件平臺,但又有其特殊性。解決了開源Linux的移植、基礎庫移植、驅動的移植等問題,然后技術人員進行優化適配。國產核心應用支撐環境就是為了建立一個用戶反饋和技術人員優化的一個一體化平臺。根據用戶對應用的指標需求,結合國產操作系統開源基礎軟件的優化,解決用戶使用的難題。
 
俺也去老色官网