数据溯源系统研究与实现文献综述

 2022-11-09 12:26:11
{title}{title}

文献综述:

随着互联网技术的快速发展,以及存储介质容量的持续发展和存储能力的迅速飞跃,使得信息流呈爆炸式的增长,人们辨别数据的起源以及评定数据质量变得非常困难。数据溯源技术可以溯本追源,根据追踪路径重现数据的历史状态和演变过程,实现数据历史档案的追溯。因此数据溯源可以有效地帮助用户判断数据的来源和可靠性,同时对于异常数据进行溯源,可以对攻击者追踪。

目前数据溯源追踪的主要方法有标注法和反向查询法。其它的数据溯源方法还不太成熟,例如基于图论思想的方法目前还停留在讨论阶段,没有真正的实现;利用双向指针进行追踪的方法只有在特定的数据库环境下才能实现。

标注法是一种简单且有效的数据溯源方法,标注是在原有数据之外引入的辅助数据,标注中记录数据的出处及详细的演化过程,使用非常广泛。通过记录处理相关的信息来追溯数据的历史状态,即用标注的方式来记录原始数据的一些重要信息,并让标注和数据一起传播,通过查看目标数据的标注来获得数据的溯源。采用标注法来进行数据溯源虽然简单,但是存储标注信息需要额外的存储空间。小型的系统一般采取源数据和标注数据一起存储的方式,随着数据量的增加和数据处理的难度增大,大型的系统一般采取源数据和标注数据分开存放的方法,因为细粒度的起源信息将会导致标注数据比源数据还要大。

反向查询法,在需要查看数据起源信息时,才计算数据起源。由于标注法不适合于细粒度数据,特别是大数据集中的数据溯源。反向查询法是通过逆向查询或构造逆向函数对查询求逆,就是根据转换过程反向推导,由结果追溯到原数据的过程。反向查询法关键是要构造出逆向函数,逆向函数构造的好与坏直接影响查询的效果以及算法的性能,与标注法相比,反向查询法更复杂,但是需要的存储空间比标注法要小。但是这样的方法有一定的局限性,并不是所有的数据处理都可以采用反向查询法。于是有了使用弱反函数代替精确反函数的思想,弱反函数就是提供近似的功能,但是这样做的结果就是仅能返回部分或者带有误差的数据。

两种方法各有优缺点:标注法实现简单,容易管理,但是标注法只适合小型系统,对于大型系统而言,很难为细粒度的数据提供详细的数据溯源信息,因为很细,可能导致元数据比原始数据还多,需要额外的存储空间,对存储造成很大的压力,而且效率低。反向查询法追踪比较简单,只需存储少量的元数据就可以实现对数据的溯源追踪,不需要存储中变量,但是用户需要提供逆置函数和相应的验证函数,且构造逆置函数具有局限性。

数据溯源最早仅用于数据库、数据仓库系统中,后来发展到对数据真实性要求比较高的各个领域。随着互联网的迅猛发展,数据溯源追踪逐渐扩展到计算机的各行各业,成为考究数据真假的有效途径。目前数据溯源的研究领域已经覆盖到云计算、语义网络、地理信息系统等等。数据溯源的应用归纳起来主要在三个方面:数据库方面的应用、工作流方面的应用、其它方面的应用。

在数据库中应用:数据库应用中采取的追踪方法主要是注释法和反向查询法,注释法管理简单,而反向查询法追踪简单,所以经常采用两种方法相结合的方式进行数据溯源的追踪,但是数据库中更倾向于反向查询进行跟踪。但数据在多个数据库之间传播处理时,由于源数据库和目标数据库之间不存在任何关联,无法实现跨数据库的追踪查询,因此,单个的数据库管理系统中数据溯源方法无法再多数据库中使用。

在工作流中的应用:科学工作流是用来自动化科学研究过程的,采用数据驱动模式,在数据处理过程中,前一级的数据输出成为下一级处理的数据输入。而且,科学工作流的定义与设计都是动态的,整个任务序列是不确定的,需要根据前一个任务的处理结果来确定下一个任务。科学工作流强调数据的可信度,实现数据溯源对每一步的处理过程可信度存在较高的要求,对全程数据的变化需要进行监控。获取在工作流中数据溯源信息一般有两种方法:一、日志法:从日志文件中获取比较简单的溯源信息,不能实现工作流程的任意修改逆流;二、将数据溯源信息记录在工作流引擎设计中,以便进行管理。

数据的安全是用户使用数据的最起码要求,也是一些核心数据所必需考虑的安全隐患问题。数据的安全毋庸置疑,数据溯源信息本身也是数据,同样存在安全问题。由于某些领域需要数据共享才能达到目的,而且需要实时更新和变迁,这就无法用常规的数据保护方法来确保数据的安全。数据本身的安全以及溯源数据的安全是数据溯源技术发展的前提和基础,如何解决数据溯源信息的安全是一直存在的问题。

[1] She W, Yen I L, Bastani F, et al. Role-based integrated access control and data provenance for SOA based net-centric systems[C]//Service Oriented System Engineering (SOSE), 2011 IEEE 6th International Symposium on. IEEE, 2011: 225-234.

[2]Yu S, Zhou W, Guo S, et al. A feasible IP traceback framework through dynamic deterministic packet marking[J]. IEEE Transactions on Computers, 2016, 65(5): 1418-1427.

[3]Balyk A, Iatsykovska U, Karpinski M, et al. A survey of modern IP traceback methodologies[C]//Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications (IDAACS), 2015 IEEE 8th International Conference on. IEEE, 2015, 1: 484-488.

[4] Singh K, Singh P, Kumar K. A systematic review of IP traceback schemes for denial of service attacks[J]. Computers amp; Security, 2016, 56: 111-139.

[5]Liu A, Liu X, Long J. Adaptive probability marking traceback scheme to enhance security in wireless sensor networks[C]//Information, Communications and Signal Processing (ICICS), 2015 10th International Conference on. IEEE, 2015: 1-5.

[6]Tian H, Bi J, Jiang X. An adaptive probabilistic marking scheme for fast and secure traceback[J]. Networking Science, 2013: 1-10.

[7]纪佩宇, 陈俊, 谢新, 等. 大规模传感网数据溯源技术研究[J]. 苏州科技学院学报: 自然科学版, 2013, 30(4): 55-59.

[8]冯波, 郭帆, 谭素雯. 基于 IPv6 的概率包标记路径溯源方案[J]. 计算机工程与应用, 2016, 52(6): 102-106.

[9] 陈敏. 基于行为图的洪泛攻击溯源方法研究[D]. 华中科技大学, 2012.

[10] 明华, 张勇, 符小辉. 数据溯源技术综述[J]. 小型微型计算机系统, 2012 (2012 年 09): 1917-1923.

[11] 戴超凡,王涛,张鹏程.数据溯源技术发展研究综述[J].计算机应用研究,2010,27(9):3216-3221

[12] 倪静,孟宪学.PROV数据溯源模型及WEB应用.2014,58(3):13-19

[13] Gray J,Bounegru L,Chambers L.Data journalism handbook 1.0 BETA[EB/OL][2013-12-08]

[14] Barbier G,Zhuo Feng,Gundecha P,et al.Provence data in social media[M].2013

[15] Simmhan Y,Plale B,Gannon D.A survey of data provenance in e-science[EB/OL].[2013-12-08]

[16] 李秀美,王凤英.数据溯源安全模型研究[J].山东理工大学报,2010,24(4):57-64

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版