亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
樓主: sck940210
打印 上一主題 下一主題

[Spark] 你不知道的Spark,將來會替代Hadoop? [復制鏈接]

論壇徽章:
1
2015年迎新春徽章
日期:2015-03-04 09:54:45
11 [報告]
發(fā)表于 2015-11-02 11:33 |只看該作者
新技術概念太多了,好多都不認識了。。

論壇徽章:
0
12 [報告]
發(fā)表于 2015-11-03 08:42 |只看該作者
新的平臺固然很好,但最煩這種動不動就拿出一套新語言的,什么scalar,有必要么?

論壇徽章:
78
雙子座
日期:2013-10-15 08:50:09天秤座
日期:2013-10-16 18:02:08白羊座
日期:2013-10-18 13:35:33天蝎座
日期:2013-10-18 13:37:06獅子座
日期:2013-10-18 13:40:31雙子座
日期:2013-10-22 13:58:42戌狗
日期:2013-10-22 18:50:04CU十二周年紀念徽章
日期:2013-10-24 15:41:34巨蟹座
日期:2013-10-24 17:14:56處女座
日期:2013-10-24 17:15:30雙子座
日期:2013-10-25 13:49:39午馬
日期:2013-10-28 15:02:15
13 [報告]
發(fā)表于 2015-11-03 18:41 |只看該作者
用到的概念接近就直接拿來開發(fā)了,scala方便點吧

論壇徽章:
6
CU大;照
日期:2013-05-20 10:43:41IT運維版塊每日發(fā)帖之星
日期:2016-07-29 06:20:00IT運維版塊每日發(fā)帖之星
日期:2016-01-27 06:20:00CU大;照
日期:2013-05-20 10:44:16CU大牛徽章
日期:2013-05-20 10:44:0615-16賽季CBA聯(lián)賽之廣東
日期:2018-03-09 11:17:08
14 [報告]
發(fā)表于 2015-11-03 21:51 |只看該作者
這兩個問題基本可以去看看spark官方的faq和history/changelog。
這些文檔都是最適合初學者迅速了解spark,其中changelog比較適合有經(jīng)驗的開發(fā)者跟進項目,對新的feature能夠有個快速了解。
spark.apache.org/faq.html

1. 有人說Spark就是內存版的MapReduce,對此你怎么看?
Spark is:
1). fast/快速
2). a general processing engine/處理引擎
3). compatible with hadoop data/與hadoop格式數(shù)據(jù)兼容,也就是說兼容hadoop生態(tài)系統(tǒng)的產(chǎn)品,如hive,hbase等
4). designed to perform both batch processing(similar to mapreduce) and new workloads(streaming, interactive queries and machine learning)/批處理(與mapreduce相似),流處理,交互式查詢和機器學習。
以上從faq中第一個答案中抽出來的,大致就可以了解spark是個什么玩意,可以做些什么事情了。

再往下看你就能看到,用scala編寫,提供python,java api,和一些學習資源。
值得注意的是streaming中的micro-batching,比較新哈,接著答案對這個新詞進行了一番解釋,應用場景及原理。

好了,說正題:
hadoop要解決的問題,簡單說就是數(shù)據(jù)大得單臺機器沒辦法存儲,沒辦法處理。而hadoop的思想就是把計算進行傳輸,數(shù)據(jù)不動,因為數(shù)據(jù)很大,計算程序很小,網(wǎng)絡開銷自然小。mapreduce框架能并行處理數(shù)據(jù),只有少數(shù)數(shù)據(jù)在網(wǎng)絡中傳輸,所以能提高數(shù)據(jù)處理效率和速度。

關于Spark這里有篇論文,3w.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf (發(fā)不了鏈接,把3w換成www)
看到Introduction第二段第一、二句:
Although current frameworks provide numerous abstractions for accessing a cluster’s computational resources, they lack abstractions for leveraging distributed memory. This makes them inefficient for an important class of emerging applications: those that reuse intermediate
results across multiple computations.
隨便翻譯一下,中文組織能力不是很強,見笑
盡管當前框架提供了大量訪問集群計算資源的抽象層(接口),但卻缺乏利用分布式內存的抽象層(接口)。對于某些類型的應用卻不是那么高效,這些應用需要重復利用分布式計算的中間值。
可見spark解決hadoop的痛點是,hadoop的計算數(shù)據(jù)都是要存hdfs中的,也就是要寫到硬盤中,而有些應用要重復利用這些數(shù)據(jù),那么要重復從硬盤讀取速度自然會比較慢。spark數(shù)據(jù)模型時rdd,論文中將得非常詳細,這里就不瞎扯了。

我個人也覺得內存計算是今后的趨勢,也很推崇。記得年初的時候特別欣賞sap的hana內存數(shù)據(jù)庫,還投了sap的簡歷,把自己對內存數(shù)據(jù)庫的一些想法和面試官聊了,順利的通過了幾輪面試,不過最后一輪還是敗下陣了。

2. 有人說Spark將來會替代Hadoop,你又怎么看?
技術領域里,永遠都會有極端分子,什么語言是最好的,什么框架是最好的。
我覺得Spark和Hadoop就像docker和openstack,各有各的優(yōu)勢,各有各的應用場景和市場。
也許有一天,又會有人出來說xxx將會替代spark。

論壇徽章:
0
15 [報告]
發(fā)表于 2015-11-04 10:18 |只看該作者
1. 有人說Spark就是內存版的MapReduce,對此你怎么看?
這個我贊同,因為spark屬于那種內存計算型的架構,是對mapreduce不足的改進。
2. 有人說Spark將來會替代Hadoop,你又怎么看?
首先 誰去誰一直是一個偽命題;沒有哪個技術方案特別顯著可以替代另一個;就目前Spark 和Hadoop的差距而言,他們的繼續(xù)在相應的合適的技術方案在使用。
Spark框架的底層存儲可以選用HDFS,也可以用其他的。但是Spark 運行的模式里有Standalone,Yarn,Mesos。 其中Yarn也是Hadoop的組件。
而且Hadoop組件很多。不是那么隨便可以替代的。

另:樓主 我很喜歡這本書 請考慮下; 另 我參加過多次這種活動 ,從沒拿到過書。
   

論壇徽章:
1
2015小元宵徽章
日期:2015-03-06 15:57:20
16 [報告]
發(fā)表于 2015-11-05 11:18 |只看該作者
1. 有人說Spark就是內存版的MapReduce,對此你怎么看?
==========================================
不太準確,M/R本來是一種計算模式(及其實現(xiàn)),Spark走的是DAG的路子,模擬/實現(xiàn) M/R不成問題,但是它擁有比M/R更豐富的計算模式支持。
或者,說spark是m/r內存威力加強版更合適一些。



2. 有人說Spark將來會替代Hadoop,你又怎么看?
========================================
畢竟spark比hadoop快很多方便很多,大家正在嘗試Spark來彌補Hadoop的一些劣勢,這個趨勢是顯而易見的,但是Hadoop已經(jīng)是一個很成熟有眾多工業(yè)范例在那里的成熟社區(qū),Spark還需要發(fā)展壯大 , 也許,很有可能,過兩年有一個新的工具取代Spark而替代了Hadoop也說不定,技術日新月異,誰知道呢?

論壇徽章:
15
2015七夕節(jié)徽章
日期:2015-08-21 11:06:172017金雞報曉
日期:2017-01-10 15:19:56極客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16賽季CBA聯(lián)賽之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT運維版塊每日發(fā)帖之星
日期:2016-01-28 06:20:0015-16賽季CBA聯(lián)賽之新疆
日期:2016-01-25 14:01:34IT運維版塊每周發(fā)帖之星
日期:2016-01-07 23:04:26數(shù)據(jù)庫技術版塊每日發(fā)帖之星
日期:2016-01-03 06:20:00數(shù)據(jù)庫技術版塊每日發(fā)帖之星
日期:2015-12-01 06:20:00IT運維版塊每日發(fā)帖之星
日期:2015-11-10 06:20:00
17 [報告]
發(fā)表于 2015-11-20 23:20 |只看該作者
CU在新技術方面討論不怎么活躍啊,感覺有關大數(shù)據(jù)、分布式系統(tǒng)之類的都少有人討論,或許都在專門的論壇上討論了
像Spark之類的其實都已經(jīng)不算很新,而是比較流行的技術在CU討論都不算多

論壇徽章:
9
IT運維版塊每日發(fā)帖之星
日期:2015-08-27 06:20:00IT運維版塊每日發(fā)帖之星
日期:2015-10-14 06:20:00IT運維版塊每日發(fā)帖之星
日期:2015-10-23 06:20:00IT運維版塊每日發(fā)帖之星
日期:2015-11-22 06:20:00操作系統(tǒng)版塊每周發(fā)帖之星
日期:2015-12-02 15:01:04白銀圣斗士
日期:2015-12-07 18:37:03數(shù)據(jù)庫技術版塊每日發(fā)帖之星
日期:2015-12-10 06:20:00數(shù)據(jù)庫技術版塊每周發(fā)帖之星
日期:2016-02-03 16:55:092017金雞報曉
日期:2017-01-10 15:19:56
18 [報告]
發(fā)表于 2015-12-08 17:09 |只看該作者
看來回貼的不是很踴躍啊

求職 : 機器學習
論壇徽章:
79
2015年亞洲杯紀念徽章
日期:2015-05-06 19:18:572015七夕節(jié)徽章
日期:2015-08-21 11:06:172015亞冠之阿爾納斯爾
日期:2015-09-07 09:30:232015亞冠之薩濟拖拉機
日期:2015-10-21 08:26:3915-16賽季CBA聯(lián)賽之浙江
日期:2015-12-30 09:59:1815-16賽季CBA聯(lián)賽之浙江
日期:2016-01-10 12:35:21技術圖書徽章
日期:2016-01-15 11:07:2015-16賽季CBA聯(lián)賽之新疆
日期:2016-02-24 13:46:0215-16賽季CBA聯(lián)賽之吉林
日期:2016-06-26 01:07:172015-2016NBA季后賽紀念章
日期:2016-06-28 17:44:45黑曼巴
日期:2016-06-28 17:44:4515-16賽季CBA聯(lián)賽之浙江
日期:2017-07-18 13:41:54
19 [報告]
發(fā)表于 2015-12-08 23:05 |只看該作者
這本書好啊

論壇徽章:
5
IT運維版塊每日發(fā)帖之星
日期:2016-05-25 06:20:00每日論壇發(fā)貼之星
日期:2016-05-25 06:20:00IT運維版塊每日發(fā)帖之星
日期:2016-05-29 06:20:00數(shù)據(jù)庫技術版塊每日發(fā)帖之星
日期:2016-06-01 06:20:00每日論壇發(fā)貼之星
日期:2016-06-01 06:20:00
20 [報告]
發(fā)表于 2016-05-22 19:46 |只看該作者
感謝學姐學長的書籍,我一定好好學習,天天向上
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術有限公司. 版權所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關心和支持過ChinaUnix的朋友們 轉載本站內容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP