分成兩個部分,上段講原因、思維、牢騷XD。下段純講實作。受眾自己選擇目標。好久沒分享了,先跟各位朋友抱歉,謝謝你們。

DB

眾所周知,MongoDB支援相當強度的線上連線數量,document 的儲存方式也非常便於儲存、獲取資料,且對於開發API更為友善。缺點則是不支援transaction、空間使用比較不精簡。(2022了我知道有支援txn,但我不認為瘸一條腿叫做支援。)

再來也是本文主旨,要作分析平台,使用聚合、整理報表等等需求,包含不影響線上營運,那麼你所需要的就還是ETL,做成獨立的分析資料倉儲,而不是ELT。或者用data lake的概念來說,ELT也就包含了分析資料倉儲本身。所以分析的資料也該是個「流」。

考量至此,開始了慢長的探索過程。我相信網上能搜到的資源不太多,目前使用中文、哪怕是英文世界,這樣流暢混搭又願意分享的文章不多,也可以視作這樣使用場景還不夠廣泛,大家還是比較涇渭分明。document, redis, HDFS, RDM各擁山頭。否則,有去這樣規劃朋友,也會是買了非常多integration工具的。用流量計費、連接器數量計費、資料儲存量計費、訂閱制計費等等等等,五花八門。線上都有,他們也都有付廣告費,很好搜,這邊沒收錢我不廣告。

integration

哪怕花錢了,有專責去整理或是整合的人嗎?還是又各自頭痛醫頭、腳痛醫腳?有了一個需求才去挖看看那邊有資料… 然後一次性做完,下次又重頭來過?於是資料分析花錢又沒效果的惡名,就又在資料產出(data egineer)與分析端(data scientist/ analyst)互相推諉下沈淪。累不累啊… 這邊有個個人故事,等時機成熟了再多分享些。整合整理都是要時間成本的,不是亂買一堆工具,丟著就是data lake。data governance 不是嘴嘴,屬於管理議題了。在我眼裡這才是價值,並不是串接資料本身,工具都有了,處理需求的速度才是價值吧。

data lake ?

網路上講這麼多什麼data lake,吹到都會飛了,大家也都是嘴砲嘛。前期整理整合的時間,就是未來需求改變增加的開發效率。

身為免費仔,網路上收錢的工具多了去,說實話真的很好用,要錢就是好用。免費的就「超級難用」,不亞於直接寫code 去parsing,或是付費解鎖。這種感覺就跟你們18禁相關的事情一樣,好不容易到那步了,下一步要花錢解鎖,要不是公司配的螢幕有點貴我氣到就砸下去XD(誤)很多人說那你就寫code啊,很難嗎?對啦,你就不要欄位改了,或是dump, import, export file的時候跟我說I/O成本很高。省去很多事情沒寫,愛code的朋友也不要太清高,import哪個lib自己承認。又不是自己刻lib。然後等schema改變的時候,維護的時候,再來跟我吶喊吧科科。

我快做出跑車了!向天再借一百年

很多開發者會定義這樣的開發、維護、修改是自己的價值。但在我眼裡,公司要的目標才是價值。免費贈送觀念。點讚訂閱關注開啟小鈴鐺謝謝。其他免費的步驟,正常你們想得到的工具or路我都走過了,甚至可能都更進階些。相信我這篇就好了。願意直接花錢的應該也搜不到我這篇XD

省略搜尋、嘗試的諸多痛苦人生,佔去絕大多數時間,濃縮定調用免費套件,最後選定官方自行開源的 MongoDB BI connector, MongoDB ODBC driver 來當作連接的橋樑。公司要是有人看到請幫我加薪感恩。我省的不只是工具錢,還有效率。接下來就下段分享。

(下)

https://xiaoxiaosam007.medium.com/%E6%90%AD%E5%BB%BA-mongodb-%E9%80%A3%E6%8E%A5-rdb-sql-%E8%B3%87%E6%96%99%E5%BA%AB-%E6%95%B8%E6%93%9A-odbc-%E5%88%86%E6%9E%90%E5%B9%B3%E5%8F%B0-%E4%B8%8B-cb803011cd18