“这里的‘图’可不是我们一般看到的图片,而是由节点和节点间的连边组成,用来更准确地建模和表达数据中实体与实体间特定关系的网络。”为了能让记者更直观地理解,系统工程学院副教授赵翔在办公室电子屏上画出了各种生动形象的“图”。
当前现实社会织起了一张庞大而复杂的关系网,需要处理的数据关联随着数据量呈几何级增长。传统的结构化数据往往只能在限定范围内呈现个体单一关系,处理复杂关系任务时的代价较大。相较而言,图数据模型的优势之一就是能将复杂的关系全面直观地建模和表达出来。
如何高效挖掘图数据中蕴含的关联关系、满足用户在查询、检索和推荐方面的信息需求,是赵翔长期关注和深“挖”的领域。
2014年,赵翔在参与军队某项目方案设计时发现,业务人员仍使用传统数据模型处理情报。“这种方法费时费力且难以准确表达情报之间的关联。”学图数据管理的赵翔立刻联想到,“可否用图模型来表征情报数据呢?”
有了这个想法,他立刻行动,用图建模起了情报数据的复杂关联,并针对结构关系的查询需求设计了一套高效的结构查询处理技术,帮助业务人员实现高效关联检索。
热衷于透过现象看本质的赵翔并不满足,他进一步思考,除了用户指定查询结构,是否有可能主动给用户提示潜在的兴趣模式呢?想到这里,他又一头扎进了大图数据的频繁模式的研究探索中。
但这一次赵翔“碰了壁”。大量查阅文献后,他发现,在信息不完备、不确定的条件下,如何定义频繁模式的支持度这个基本问题,在世界上,还未见直面的研究。赵翔也试图运用传统的数据挖掘方法来解决这个问题,但却于事无补。
一天,赵翔像往常一样在办公桌前滑动着鼠标,查阅各种文献,突然,他的视线被一篇文献中一个很不起眼的词——“possible world”吸引住,瞬间蹦出一个想法:是不是可以参考“可能世界”的假设,在不确定图上把所有可能世界上的支持度综合起来,形成不确定图上的支持度,消除不确定性给模式挖掘过程设置的障碍呢?
想到这里,赵翔有些激动,虽然不知道这个想法是否可行,但一定要敢于尝试!
功夫不负有心人,经过一段“白+黑”的艰苦攻关后,他成功用“可能世界”假设完整刻画不确定图数据中的频繁模式,并用数据驱动的方法把可扩展的频繁模式从海量的数据中挖掘出来。
不仅如此,为了验证算法的适用性,他继续拓展领域验证,在生物医学领域的蛋白质交互网络、社交领域的信息传播网络等不同应用场景下做验证、调试、修正,反反复复不知多少次。半年后,这套不确定图数据上的模式挖掘新技术终于“修成正果”。
战场情报要素关联建模示意图
有了深厚的积累,路越走越顺,他后来又聚焦情报知识图谱,继续深“挖”图数据的应用。后信息时代,碎片化是情报知识的常态,把有潜在交叠的知识碎片进行集成,构成更大更精确的情报知识网络,“有了这个融合后的大图,当用户需要某些内容但可能还没关注到时,算法会结合知识进行关联预测,然后将信息智能地推荐给用户。”
“每天各种各样新的技术层出不穷,掌握其背后本质上的创新,才能推陈出新,往不同领域迁移的时候也会游刃有余。”对于图数据领域的研究,赵翔还在不停深“挖”。