编者按:马帅,北京航空航天大学计算机学院教授。他的研究领域包括数据库理论与系统和大数据。他曾获国际顶级数据库会议VLDB 2010唯一最佳论文奖、数据挖掘知名会议ICDM 2019候选最佳论文、2017年中国电子学会科技进步特等奖等,还曾获得国家杰出青年科学基金、国家优秀青年科学基金等。马帅(曾)担任VLDB Journal和IEEE Transactions on Big Data等期刊的编委,合(译)著有《离散数学:面向计算机科学专业》《离散数学及其应用——Python建模与实现》等教材。他是 CCF 高级会员,数据库专委常委、大数据专委委员。
CCCF 采访
马帅在接受CCCF 的访谈中,畅谈了自己在大数据近似计算领域的研究与思考,并展望了这一领域的未来发展趋势。
Q
您是何时开始对您的研究方向感兴趣的,当初为什么选择这个方向?
马帅:从1998年读硕士研究生开始,我就初步接触了数据库理论与系统这个研究方向,当然现在看来,当时做的主要是基于数据库开发实际应用系统。2005年我到英国爱丁堡大学求学,在樊文飞院士的严格指导下从事数据质量的研究之后,对这个方向真正有了浓厚的兴趣。我也比较幸运,因为一直从事数据的管理和分析,所以在这个方向实际上并没有面临选择的问题,个人感觉挺自然的。
Q
您在研究过程中,取得的最令您骄傲的成果是什么?您发表的学术论文中,哪一篇最有影响力?
马帅:不能说是骄傲的成果,自己比较满意的是在大数据近似计算方面做出了一点工作。可能比较有影响力的是发表在VLDB 2012上的“Capturing Topology in Graph Pattern Matching”,以及发表在TODS 2014上的“Strong Simulation: Capturing Topology in Graph Pattern Matching”的期刊扩展版,在这篇论文中我们提出了一个新的概念“强模拟”(strong simulation),用来近似子图同构。我们证明了强模拟具有语义合理、结构保持等性质,并提出了求解强模拟的低多项式的集中式、分布式算法,引起了后续研究人员的较大关注,比如,有学者引入和扩展了强模拟中的双模拟,作为近似用来替代SPARQL中原有的子图同构查询语义(ICDE 2019);也有学者用它辅助检查美国本土极端分子(ASONAM 2016);还有学者在SIGMOD 2017等Tutorial中将强模拟与经典子图同构方法相并列,系统讲述了强模拟查询。
Q
在此过程中,您遇到了哪些挑战?又是怎样解决的?
马帅:这类涉及新概念的研究工作,我个人认为对概念的形式化定义通常是比较具有挑战性的工作。一般来说,概念要源于实际需求,首先要在一个小的研究点上有深入的研究基础和深刻的认识,然后发现问题,通过实际例子反复推敲概念的合理性,同时又要通过理论证明去优化、修正概念。个人感觉最主要的是反复推敲,不要嫌麻烦,最终会有一个比较满意的结果。
Q
在未来20年内,您认为您所在的研究方向存在哪些机遇,会有哪些显著进步?或者需要解决的挑战是什么?
马帅:由于大数据具有规模巨大、动态变化、可靠性低等特点,现实中很多问题的最优解求解复杂度高,效率难以满足需求,或者根本找不到最优解,又或者不必要时,可以采用近似计算来求解问题。比如通过企业的用电量来衡量复工复产,通过轨迹来判别疫情密接人员都是现实中存在的此类问题。近似计算主要有三类方法:(1)传统近似算法(approximation algorithms)源于20世纪70年代,是一个成熟的研究领域;(2)近似查询处理(approximate query processing)源于20世纪70年代,是一种针对数据库中的类SQL聚集查询;(3)近似计算(approximation computing)自2010年以来涉及系统的各个软硬件层,如电路、存储等。这里,传统近似算法要求可行解和最优解之间有一个理论界,而近似查询处理和近似计算则放松了对这个理论界的要求,追求实际应用的效果。我个人认为未来20年内,可以高效计算并且能满足实际需求的大数据近似计算方法是一个重要的研究方向,具有重要意义。
我重点关注的研究是大数据近似计算,主要涉及查询近似和数据近似,查询近似(query approximation)将复杂性高的查询转换为复杂性低的查询,不影响查询结果的准确性或者影响有限。这里,“查询”是一个广义的概念,不仅包括查询,还包括数据处理方法和算法等;数据近似(data approximation)将大数据变为小数据,保留数据主要特征,去除或忽略其中的噪音和错误数据,不影响查询结果准确性或者影响有限。尽管大数据近似计算并不一定要求理论界限,但它的设计原则不是为了计算效率牺牲准确性,其关键挑战是同时保证计算效率和准确性。
大数据近似计算是一个新兴的研究领域,针对的是传统算法设计面向大数据时产生的性能瓶颈。我认为大数据近似计算未来可能的研究方向包括:
1.以理论与实践结合作为指导思想,从以算法复杂性最优为导向转为以理论可靠和实践有效为导向,充分分析挖掘任务与数据的特征,基于任务和数据的特征研究设计面向大数据实际需求的高效算法。
2.近年来广受关注的深度学习本质上也是一种近似计算方法,通过训练数据生成一个近似函数,用来处理基础的分类任务和其他类似任务,因此深度学习和经典算法的本质是一样的。但是,20世纪70年代以来的经典算法和20世纪40年代以来的深度学习是相对独立的两个研究领域,缺少交集。尽管近年来大家开始关注这两个领域的交叉,但是这一个方向的发展还远远不够,对深度学习能力的认识,与经典算法的深度融合,都是未来重要的研究方向。
3.有效结合动态算法和分布式计算进一步提升效率也是未来重要的研究方向。
特别声明:中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任
CCF推荐
【精品文章】