2012年8月30日 星期四

facebook 資料處理


一起看看每天Facebook上都得處理多少資料吧:
25億Facebook上分享的內容條數、27億『讚』的數量、3億上傳照片數、500+TB新產生的資料、105TB每半小時通過Hive掃描的資料、100+PB(1PB=1024TB) 單個HDFS(分布式文件系統)集群中的磁片容量。

根據DoNews報導,FB的工程總監Parikh解釋了這些資料對於Facebook的意義:『大資料的意義在於真正對你的生意有內在的洞見。如果你不能好好利用自己收集到的資料,那你只是空有一堆資料而已,不叫大資料。』

目前Facebook有著世界最大的分布式文件系統,單個集群中的資料存儲量就超過100PB。在Facebook內部,從一開始就沒有在不同的部門之間(比如廣告部和用戶支援部)設立障礙或者分割資料。這樣一來產品開發者就可以跨部門獲得資料,即時知曉最近的改動是否增加了用戶瀏覽時間或者促成了更多的廣告點擊。

沒有留言:

張貼留言