2015年新年伊始,南京大学PASA大数据实验室黄宜华教授于1月28日上午访问了位于美国加州硅谷著名的UC Berkeley AMP实验室,与AMP实验室主任、Spark系统主要创始人、Databricks公司联合创始人兼首席执行官Ion Stoica教授,以及分布内存文件系统Tachyon主要创始人Haoyuan Li博士会面。双方进行了愉快的技术交流,简要介绍了各自实验室在大数据方面的研究工作,然后重点介绍了PASA大数据实验室研发的跨平台统一大数据分析编程平台"
大章鱼
"项目。Ion Stoica教授对此项研究表现出较大的关注和兴趣,并对该项研究项目给出了一些很好的进一步深入研究的建议。最后,双方基于前期在Spark、分布式内存文件系统Tachyon、以及分布式文件系统评测工具等方面合作研究基础上,进一步探讨了今后开展更多深入合作研究的机会。
2013年以来,南京大学PASA大数据实验室即开始了与UC Berkeley AMP实验室的合作研究,在Spark性能优化、分布式内存文件系统Tachyon等方面开展了合作研究开发,目前PASA实验室是Apache Spark和分布式内存文件系统Tachyon的贡献者。
在Spark性能优化方面,针对Spark在JVM中大量RDD数据对象进行垃圾回收时存在耗时过长的问题,PASA实验室设计实现了一个基于内存文件系统Tachyon的RDD存储方案(Off Heap Storage),将存储在JVM中的RDD对象移存到Tachyon中,从而避免了Spark中大量RDD对象垃圾回收时的性能问题。这一改进工作修改或新增了几十个Spark代码文件,经过与Apache Spark团队专家200多次讨论和集成测试,所实现的功能已被Apache Spark正式接受和使用,并包含在2014年官方发布的正式版Spark系统Apache Spark1.0中。这个改进大大提高了Spark与Tachyon的整合度,为Spark带来很多便利,被UC Berkeley AMP实验室和Apache Spark专家评估为对Spark的重要贡献。
Tachyon是UC Berkeley AMP实验室推出的全球第一个基于内存的分布式文件系统,是AMP实验室继Mesos、Spark之后的又一重大研究项目。目前Tachyon系统已经受到全球包括EMC、Intel、Yahoo等数十家著名企业的关注、支持和使用,有望成为一个大数据存储和共享平台工业标准。PASA实验室自2013年以来,在Tachyon项目启动不久即已加入Tachyon项目早期的研究开发,是Tachyon项目早期的少数贡献者之一,目前是Tachyon的主要贡献者之一,负责开发了Tachyon的性能测试框架、前端平台的优化以及一些bug的修复等工作。基于在Tachyon系统上的研发工作,PASA实验室进一步独立完成了一个Tachyon性能评测工具Tachyon-Perf,目前该工具已经整合到标准的Tachyon项目中。
在上述Tachyon-Perf研发工作基础上,PASA实验室进一步泛化了分布式文件系统评测框架和评测方法,研发完成了一个通用化的分布式文件系统评测工具DFS-Perf,该工具可对各种分布式文件系统进行各种不同读写负载模式(如顺序读写、随机读写、不同读写比例访问、迭代读写、复杂事务读写、元数据访问等)的全面性能分析和评测。该工具目前是世界上第一个通用性的分布式文件系统性能评测工具,通过实现所定义的抽象分布式文件系统访问接口,可快速连接和增加任何分布式文件系统,用于对本地文件系统以及基于集群的HDFS、Tachyon、GlusterFS、IBM GPFS等各种分布式文件系统的性能评测。
南京大学PASA大数据实验室是国内高校中最早从事大数据技术研究和教学的少数团队之一,自2009年以来在大数据分布存储管理和查询、大规模RDF语义数据存储查询和推理系统、大数据并行计算模式和框架、大数据并行机器学习算法和系统等方面开展了诸多研究,积累了较为系统的研究基础,目前在大数据领域除承担国家项目以及与UC Berkeley AMP实验室进行合作研究外,还与Google、Intel、微软亚洲研究院、百度、中兴通讯等国内外诸多著名企业开展大数据方面的合作研究。