7C00.ME/houmu 2013-06-08

昨日参会随感

昨天下午参加了YOCCEF上海举办的一场关于云计算和大数据的活动,主要是三个演讲。

第一个演讲是Intel的工程师讲用Spark和Shark做内存实时分析处理(Real-Time Analytical Process, RTAP)。我接触大数据时间不长,但是也能感觉到在很多人眼中大数据就是Hadoop,如果不懂点Hadoop都不好意思和人家说自己是做大数据的。

从演讲中了解到两个概念,数据并行(Data Parallel)和图并行(Graph Parallel)。数据并行的数据具有相互独立、一次通过(single pass)和大量同步等特点,而图并行的数据则具有相互不独立、递归和动态优先级等特点。Hadoop比较适用数据并行的大数据处理,而不太适合图并行的,比如实时分析处理、高级机器学习和数据挖掘、自然语言处理、分布式内存分析等。曾在微博上有一段时间经常看到“图计算”方面的消息,比如Facebook和Google都在做“图搜索”,Google自己也有个叫做Pregal的项目。“图计算”在研究生阶段应该深入了解一番。

演讲的另一部分,则是介绍了Intel利用Spark和Shark进行RTAP的研究和实践。这让我对“内存计算”也更加重视了起来。虽然在毕设中也用到了内存计算和Spark,但是更多是按照老师的指导在完成项目,并不知道现在内存计算现在日益兴起,因此Intel演讲的题目就是“超越Hadoop”。Spark的关注度或许会超过Hadoop,也或许不一定,但是内存计算会被提到的越来越多。所以“内存计算”也是今后需要特别关注的方向。

第2个演讲是SAP提供的,题目是“云计算和大数据的现状和展望”。这个演讲对于我这个领域内的新人而言,还是很有启发的。其中一方面是内存计算,这个上面Intel的演讲也讲了。和Intel是与UCB的AmpLab合作开发Spark等开源项目不同,SAP开发了自己的内存计算产品HANA。Spark是一个内存计算框架(实现了MapReduce计算模型),而HANA更多的是一个内存数据库;前者是开源的,后者目前则不是,而且估计也不会开源。这个演讲给我更多的是云计算或者说大数据现在的应用领域。

大数据按我现在了解的内容,可以分为两块。一块是研究大数据的计算方式,如分布式计算和内存计算;另一块是研究大数据的应用方式,如数据挖掘、机器学习(我还想到一个词深度学习,不知道有何联系;另外据说数据挖掘和机器学习的相关人才在美国的市场需求非常大)。大三时,数据挖掘没好好学也没学好,实在是可惜。机器学习和数据挖掘作为大数据研究和实际应用的对接点(比如在商业智能方面)必须关注。由此也感觉到,在本科阶段很多有意义的课程没有去学或者学好,未来一年时间就显得特别宝贵了!

此外,还有一个演讲是ebay的,讲ebay公司是如何使用云的。