<noframes id="5guqg"><noframes id="5guqg"><delect id="5guqg"><rt id="5guqg"></rt></delect><rt id="5guqg"></rt><rt id="5guqg"><delect id="5guqg"><delect id="5guqg"></delect></delect></rt><noframes id="5guqg"><rt id="5guqg"></rt><noframes id="5guqg"><rt id="5guqg"></rt><noframes id="5guqg"><rt id="5guqg"><delect id="5guqg"></delect></rt><noframes id="5guqg"><rt id="5guqg"><delect id="5guqg"></delect></rt><noframes id="5guqg"><rt id="5guqg"></rt><rt id="5guqg"></rt><noframes id="5guqg"><rt id="5guqg"></rt> <rt id="5guqg"><delect id="5guqg"></delect></rt><noframes id="5guqg"><noframes id="5guqg"><noframes id="5guqg"><noframes id="5guqg"><noframes id="5guqg"><rt id="5guqg"></rt><rt id="5guqg"><rt id="5guqg"></rt></rt><noframes id="5guqg"><noframes id="5guqg"><rt id="5guqg"></rt> <noframes id="5guqg"><rt id="5guqg"></rt><rt id="5guqg"><rt id="5guqg"></rt></rt><noframes id="5guqg"><rt id="5guqg"><rt id="5guqg"></rt></rt><bdo id="5guqg"></bdo><bdo id="5guqg"></bdo><delect id="5guqg"></delect><rt id="5guqg"></rt><bdo id="5guqg"><delect id="5guqg"></delect></bdo><delect id="5guqg"></delect><rt id="5guqg"><noframes id="5guqg">

當前位置:首頁 >  科技 >  IT業界 >  正文

Greenplum 重回閉源?國產開源數倉 CloudberryDB 助力企業平滑遷移

 2024-06-21 10:31  來源: 互聯網   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

近期,知名開源數據倉庫項目 Greenplum 的 GitHub 倉庫被突然歸檔,并將訪問權限修改為只讀,引發了數據庫社區的極大關注。

值得關注的是,去年國內云原生數據倉庫廠商酷克數據研發并開源了 CloudberryDB 數倉產品。作為 Greenplum 的衍生版,CloudberryDB 不僅能夠實現對 Greenplum 原生級兼容和無縫遷移,更在功能、性能和安全性方面進行了全面的升級。

01 Greenplum 重回閉源?源碼歸檔引發業界猜測

Greenplum 基于 Postgres 并采用大規模并行處理架構(MPP "Massively Parallel Processing",大規模并行處理)打造的分布式數據倉庫系統,支持對PB 級別數據量提供強大和快速分析能力。

Greenplum 的歷史可以追溯到 2003 年,它在 2006 年推出了基于 PostgreSQL 的 MPP 數據庫。2010 年被 EMC 收購,隨后在 2013 年 EMC、VMware 和 GE 共同成立了 Pivotal 公司,Greenplum 數據庫也被整合進 Pivotal 的技術棧中。2015 年,隨著 Dell 收購 EMC,Pivotal 決定將 Greenplum 開源。2018 年 Pivotal 上市,但在一年半后被 VMware 收購并退市。2021 年底,Dell 決定拆分 VMware,而到了 2023 年底,VMware 被博通收購。

幾經轉手之后,Greenplum 的商業發展也不盡如人意。博通收購 VMware 后,Greenplum 的全球交付團隊遭到裁員,商業化團隊退出中國市場。近期 Greenplum 更是將源代碼倉庫歸檔,且訪問權限修改為僅支持「只讀」,項目全部過往 Issue、Pull Request 等記錄已經消失、中文網站也已經不可訪問、Slack 交流社群也遭關閉。

https://github.com/greenplum-db/gpdb

Greenplum 源代碼倉庫的訪問權限修改為了“只讀”,同時還清空了原有的 branch、tag、pr、issue 等信息。

Greenplum 中國官網無法訪問

歸檔意味著什么?是否閉源?有不少人猜測,Greenplum 的商業化進展遇困,博通為了簡化產品線,來集中資源發展其他核心業務。又或者是博通先將 Greenplum 閉源,整合內部資源,尋求開源與商業化之間平衡策略。但究竟結果如何?目前還不得而知。這無疑讓人對 Greenplum 用戶和社區參與者的未來感到擔憂。

作為世界上第一個開源的大規模并行數據庫,Greenplum 有著深厚影響力的開源社區,充分影響著其他后來同類產品的發展。然而,隨著數據源愈發多樣、各種業務場景對數據的分析處理能力要求愈發復雜,這對傳統的分析系統發起了挑戰。來自開源基金會及各服務廠商面對新需求新挑戰推出了很多有競爭力的開源項目和商業化服務。

在萬馬馳騁的時代,Greenplum 能夠有所應對但還不夠。Greenplum 原維護團隊可以通過自研和借力 PostgreSQL 生態擴展來支持相關方向需求,但社區版的功能迭代與 bug 修復的速度已經慢了下來,很多場景所需的先進功能僅存在于商業公司推出的企業版本,社區用戶獲取困難。

當前用戶格外關注數據庫系統性能和安全特性,Greenplum 社區版在此投入資源也不多。Greenplum 在 PostgreSQL 內核升級方面非常緩慢,許多來自 PostgreSQL 上游的先進特性與功能無法快速推送給社區用戶。經過多年推動 Greenplum 才將內核升級到 PostgreSQL 12 ,但 PostgreSQL 官方將于 2024 年 11 月停止維護這一版本。

近年來 Greenplum 在新功能推出、更新步伐上多是小修小補,尤其在數據庫性能方面并沒有明顯的改進,與其他涌現出來的新生代開源項目競爭缺乏競爭力。

02 接棒再出發,CloudberryDB 為開源注入新活力

過去幾年 Greenplum 的公司和團隊始終處于動蕩之中,直接或間接導致版本進展緩慢、創新不足、技術支持有限等現狀。為了響應用戶需求,推動開源生態,國內云數倉廠商酷克數據(HashData)基于 PostgreSQL 與 Greenplum 研發了面向 AI 和分析場景打造的新一代數據庫 CloudBerry Database (以下簡稱“CloudberryDB”),并于去年正式開源。

CloudberryDB 助力企業靈活應對數據新挑戰

酷克數據成立于 2016 年,是國內最早專注于云原生數倉研發推廣的軟件企業,公司旗艦級產品 HashData Enterprise 已深度服務于金融、電信運營商、政務、能源以及互聯網等多個行業的頭部企業,其中最大客戶規模已超過 30000 個節點。

憑借原廠之外最大的 Greenplum 原始開發者團隊,酷克數據獲得了業內領先的技術儲備和實踐能力。

基于 MPP 數據庫的深度理解、國內大客戶的服務實踐經驗,以及創始團隊的長期開源社區參與,酷克數據研發并開源了 CloudberryDB 數倉產品。

作為 Greenplum 的衍生版,CloudberryDB 與 Greenplum 保持原生兼容,并能實現無縫遷移,具備更新的內核和更豐富的功能。CloudberryDB 支持豐富的數據類型和數倉/AI 混合負載,可開展 SQL 分析、機器學習、全文檢索、HTAP 等任務,通過數據存儲加密、聯合身份驗證等技術手段,幫助企業更方便地自建高效穩定的數據底座。

CloudberryDB 既能滿足單機本地快捷部署,也能通過插件自由擴展為云原生架構,具備高彈性、高并發、湖倉一體化、擴縮容靈活等優勢。SQL 引擎基于并行處理(MPP)架構,支持多計算集群部署,具備強大的并行計算能力,可以輕松支持高并發,有效隔離混合工作負載。

在部署方式上,CloudberryDB 采用 100%純軟方案,支持裸金屬、虛擬機、容器化等多種部署方式,企業開發人員可以使用 R、Python、Perl、Java、 pgsql 等語言編寫用戶自定義函數(UDF),面向多計算集群部署,實現專屬的業務需求。

CloudberryDB架構與靈活部署形態

此外,CloudberryDB 還全面集成 PstgresQL 14.4,支持 ANSI SQL 2011,內置豐富的庫內分析模塊,具備強大的 SQL 分析功能,滿足企業進行海量數據的復雜分析需求:

·支持 Multi-range 、JSON、JSONB、XML 等多種類型,并提供了相關操作、函數支持。

·支持 UPSERT,增加 INSERT ... ON CONFLICT 語法,在發生約束沖突時可以轉換成 UPDATE 語義,對于數據導入友好。

·增加新語法方便數據更新:UPDATE tab SET (col1, col2, ...) = (SELECT col1, col2, ...)。

·支持范圍、列表、哈希等類型的分區,支持多層分區嵌套,支持分區管理操作。

·支持 BTree、Bitmap、Hash、GIN、 BRIN、GiST 等多種類型的索引。

·支持物化視圖,支持復雜查詢,如:CTE、遞歸查詢。

·postgres_fdw 支持聚集下推, 減少傳輸數據量。

·允許窗口函數執行增量排序。

·支持 just-in-time (JIT) 編譯。

·支持創建覆蓋索引。

·引入 PostGIS 插件,實現了對空間數據類型、空間索引和空間函數的支持。

·基于 CBO 優化器,CloudberryDB 支持基于代價模型的聚集下推能力,能夠有效減少 Join 運算的數據量,大幅提升性能。

·改進了 CBO 優化器,以生成更智能高效的查詢計劃,適應云和混合負載環境。

·支持基于代價的聚集下推,減少 Join 數據量并提升性能。

·利用 Runtime filter 技術進一步加速 Join 運算。

……

CloudberryDB 研發了新型行列混存技術,在保證寫入效率的情況下,利用查詢時跳塊過濾和預計算,大幅提升查詢性能。CloudberryDB 還利用向量化對算子進行了針對性的細致優化,帶來了數量級的效率提升收益。

為確保企業數據的安全,CloudberryDB 采用了統一認證、按需授權、安全存儲、動態脫敏等方式,構建了多層級安全體系。

在生態方面,CloudberryDB 完美兼容第三方產品,與主流 BI 工具、挖掘預測工具、ETL 工具、J2EE/.NET 應用程序以及其他數據源/計算引擎均有良好連通。

CloudberryDB產品兼容生態

CloudberryDB 內置了分布式并行向量數據存儲、索引及檢索功能,企業可以通過酷克數據自研的 AI 開發工具箱 HashML,將本地的文本、圖像等非結構化數據轉化成向量表示,構建分布式大規模多模態向量知識庫,讓 AI 應用開發變得更加簡單便捷。

持續構建開放、友好、中立的開源社區

站在巨人的肩膀上,借助 Greenplum、PostgreSQL 等偉大開源項目的堅實基礎,CloudberryDB 才能不斷創新,力求為廣大開發者和用戶帶來更加卓越的產品體驗,這也是 CloudberryDB 研發初衷。

在許可協議上,CloudberryDB 采用了寬松的 Apache License V2.0 協議,期望賦予社區成員更大的自由度和靈活性,并鼓勵社區成員自由使用、輕松復制、按需修改,或者將 CloudberryDB 重新分發或融入自身的商業產品與服務中。

CloudberryDB 秉持國際標準、高點定位、全球視野的運營理念,致力于構建一個開放包容、友好互助、中立公正的社區環境,讓每一位社區成員都能在這里找到歸屬感,共同為 CloudberryDB 的進步貢獻力量。

我們有理由相信,通過集思廣益、群策群力,CloudberryDB 社區將在未來綻放出更多光彩。

申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!

相關文章

熱門排行

信息推薦