Wonderful activities
【行业资讯】大数据时代的电子取证技术发展展望
发布时间:2021-04-18 21:56:01
来源: 美亚柏科
一、背景
近年来,全球数据量出现爆炸式增长,数据成了当今社会增长最快的资源之一。根据国际数据公司 IDC 的监测统计,即使在遭遇金融危机的2009年,全球信息量也比2008 年增长了62%,达到80万PB,到2011年全球数据总量已经达到1.8ZB,并且以每两年翻一番的速度飞速增长,预计到2020年全球数据量总量将达到40ZB,10年间增长20倍以上,到2020年,地球上人均数据预计将达 5247GB。可以说,大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命,对国家治理模式、企业决策、组织和业务流程,以及个人生活方式等都将产生巨大的影响,其作用堪称又一次工业革命。
在国内,我国于2012年7月9日发布的《“十二五”国家战略性新兴产业发展规划》明确了新一代信息技术中的下一代信息网络产业、电子核心基础产业、高端软件和新兴信息服务产业是“十二五”战略性新兴产业的重点发展内容,应该说大数据产业也包含在内。
电子取证技术的工作就是从浩如烟海的“数据”中提取相关证据用于呈堂,这些“大数据”具有数据体量巨大(Volume)、种类繁多(Variety)、流动速度快(Velocity)和价值密度低(Value)的“4V”特征,这使得对其取证分析将变得更加复杂,也给针对大数据的取证技术带来了考验。
二、大数据对电子取证技术的挑战
1、数据规模严重影响取证效率。现在的被调查介质容量由GB级升至TB,甚至ZB级,依靠单独服务器或工作站的方式实施证据调查变得异常缓慢,在对介质进行分析过程中,其大部分时间都耗费在漫长的介质克隆、介质挂载和数据查询等待中,严重影响了取证效率。
2、取证对象的复杂性。对于大数据存储设备,目前,不少传统的硬件设备厂商在提供服务器、存储设备的同时,还专门推出面向海量数据处理、存储的一体化解决方案,比如各种大数据一体机。国际厂商Oracle、IBM、EMC、微软等公司纷纷发布大数据一体机之后,国内比如华为、浪潮、曙光等企业也不甘落后。但如何对这些大数据一体机进行有效的调查分析,也给电子证据调查人员带来了严峻的考验。
3、数据存储方式多样性。在传统时代,数据存储形式相对单一,一般存在于电脑、手机、U盘、以及各种存储卡中,电子数据取证的目标相对明确;而在大数据时代,“云存储”的普遍应用使得数据可以无处不在,在调查取证过程中,狡猾的犯罪嫌疑人有可能将重要的文件存储于“云端”,如何将这些异地存储的数据进行落地并使之成为证据呈堂也是调查人员面临的重要难题;
4、传统的取证构架越来越不适应大数据时代对取证的要求。目前主流的工具以单机体系构架为主,介质挂载、分析和证据生成不能进行并发任务执行,未能基于“云”的模式实现存、取、证并发执行,这从根本上不能适应越来越庞大的大数据介质的取证效率需求。
三、大数据取证分析相关技术展望
1. 大数据平台调查技术
在常见的大数据平台中,Hadoop以其高可靠性、高可扩展性、高效和低成本等优势,是用户能够轻松架构和使用的分布式大数据平台。目前互联网领域的Web搜索、广告系统、数据分析和机器学习等许多任务已经在Hadoop集群上,比如国外的谷歌、雅虎、JP 摩根大通等著名企业;国内的腾讯、百度、淘宝、阿里巴巴等互联网企业已经成功应用了Hadoop系统。
然而,由于Hadoop是一个免费开源的环境,在设计之初Hadoop并没有考虑到平台的安全问题,并未给之前的版本加入安全机制。默认集群内所有的节点都是可靠的,值得信赖的,所处的环境都是安全的,不存在恶意的攻击者,以至于Hadoop存在一些安全隐患,比如:缺乏用户以及服务器的安全认证机制,缺乏安全授权机制,缺乏传输以及存储加密。此外,其数据服务器对内存和存储器中的数据没有存储保护,在恶意入侵、介质丢失、维修等情况下数据容易泄漏。
因此,以Hadoop为代表的大数据处理平台在近年来的迅速普及类似于上世纪九十年代的Linux系统,一方面,它以高效、低成本、开源免费等优点受到原来越多用户的青睐;另外一方面,由于其作为一种全新的操作系统构架的出现在系统安全性方面也带来了许多问题。因此,当寄生于大数据平台的违法犯罪案件发生时,调查人员如何针对该类型的大数据平台实施勘察取证也就成为目前的电子物证界研究热点问题。如果调查人员对该系统的进程管理、数据读写、安全审计等功能一无所知,则实施取证分析也就无从谈起。
2、电子数据预处理技术
在传统的电子取证工具中,当输入待分析的关键字后,这种靠实时检索的方式,动辄数小时的检索周期,对源电子数据文件进行分析显然在效率上已经无法承受。因此,在实施关键字分析前,首先对源电子数据预处理是未来取证工具发展的方向。
3、关键字智能检索技术
取证工具对语义的智能理解是提高关键字索引命中率的重要环节,比如当输入关键字“计算机”时,在语义理解的范畴,其对应的“电脑”、“微机”、“PC机”以及“笔记本”等也应等同于“计算机”的语义。因此,可以根据查询内容和要素不同,建立全面、准确、快速的基于大数据的取证检索系统,开发智能关键字检索引擎,实现“模糊”查询变精确查询,以及“结构化数据”与“非结构化数据”统一检索。实现对数据建立全文索引,解决索引的中文分词以及索引的同步,更新等技术。其所涉及到的技术有如下:
1)多维度关联排序:对检索返回的结果集按单一关键字或组合关键字自由排序,并可以根据预设权值智能显示排序次序;
2)智能语义分析:对关键字进行智能语义分析,提示相近的关键字、显示同语义的结果集等。通过对文字的语义,提取最核心的关键内容,并针对此内容提供延伸阅读,模糊匹配等提高检索的命中率;
3)智能分类检索:在海量信息中可以根据查询内容和要素不同,对检索进行智能分类,增强检索的易用性和自学习能力。
4、证据挖掘算法
现有取证系统只做了对特定信息的查询和关键字过滤,由于系统架构、性能、技术条件限制,并没有做到对各种数据的综合分析碰撞与数据挖掘。而这方面的功能是案件侦破的关键,也是取证工作中所急需的。利用大数据平台的数据清洗技术进行数据转换和大量的分析应用相结合的手段,将杂乱无章的,分散的数据变成有条理的、集中的档案化数据。在此基础上,进行取证平台的优化算法设计,通过信息统计与数据挖掘,可实现证据链分析、案件串并、人案、案案、时空等的关联模型的算法研究,实现多维度数据的获取与重构,比如,在以往取证系统中以“时间线”为主轴进行分析的基础上,可以对源电子数据中的系统用户按照案件侦查思路进行索引重构,创建BiGTable。也可以围绕“案”、“人”、“物”中心配置索引,在关系中查找证据。
5、证据可视化呈现技术
以二维表的形式将取证结果呈现在很大程度上制约了调查人员对案件的分析研判和深度挖掘的想象空间,无法完整理顺数据中所存在的“案”、“人”、“物”的关联关系,通过证据的可视化技术,可以利用视觉的方式将巨大的、复杂的、枯燥的、潜逻辑的数据展现出来,使调查人员发现关联规律,继而进行深度挖掘。
6、智能硬件取证
在计算机为主流分析对象的时代,取证工具实施系统调查时似乎得心应手;当手机作为取证对象呈现在调查人员面前时,面对如此种类繁多的数据线接口和手机软硬件系统,调查人员有种手足无措的感觉,所幸的是近几年手机系统全面向智能手机转型,调查人员只需掌握安卓和苹果系统平台即可覆盖绝大多数的嫌疑手机数据存储介质。然而,随着“互联网+”时代即将到来,可以肯定的讲,在未来几年,搭载智能系统的智能硬件将会辐射到传统产业的全领域,比如智能可穿戴设备、智能家电、智慧家居、智能汽车等等。如何对这些智能设备中的存储介质进行有效的证据获取,必将是电子物证调查人员所有不得不面临的艰难考验。
四、展望
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素”。与工业化时代之于石油,数据已经成为信息化的血液,如何保护和有效利用这些数据,打击针对电子数据的违法犯罪活动,是电子取证技术的核心议题。随着大数据时代的来临所带来的众多的冲击,电子取证从业人员都应当与时俱进、不断提升,放弃残缺的守旧思想,大胆接受新的挑战。
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素”。与工业化时代之于石油,数据已经成为信息化的血液,如何保护和有效利用这些数据,打击针对电子数据的违法犯罪活动,是电子取证技术的核心议题。随着大数据时代的来临所带来的众多的冲击,电子取证从业人员都应当与时俱进、不断提升,放弃残缺的守旧思想,大胆接受新的挑战。