云计算环境下的电子取证: 挑战及对策
许兰川, 卢建明, 王新宇, 许桃
成都铁路公安局,成都 610081

第一作者简介:许兰川(1970—),女,河南南阳人,硕士,高级工程师,研究方向为电子物证检验。E-mail:kendryxu@163.com

摘要

随着先进的虚拟存储管理技术和其他互联网技术的发展,云存储和云计算技术正成为互联网发展的前沿并得到广泛的应用。在云计算环境中,接近无限的数据存储能力、超强的数据计算能力、广泛的数据共享、瞬息万变的数据环境、服务的按需自主性、规模的弹性化和接入的广泛性等特点与传统的单机、独立网络和小存储的数据处理方式有着根本性的差别。因此传统的电子取证方式在云计算环境下面临证据获取、固定和分析等方面的挑战。如何在拥有多用户、海量数据资源和分布式存储特点的云计算环境中获取需要的线索是摆在电子物证工作者面前的一个新课题。本文在分析电子取证的发展、传统电子取证的特点、云计算环境特点的基础上,讨论了电子取证在云计算环境下面临的挑战并结合中外学者的最新研究成果,综合论述了云计算环境下数字取证调查的对策。

关键词: 数字取证; 云计算取证; 取证风险; 数字调查
中图分类号:DF793.2 文献标志码:A 文章编号:1008-3650(2017)02-0151-06 doi: 10.16467/j.1008-3650.2017.02.016
Digital Forensics in Cloud Computing: Challenges and Countermeasures
XU Lanchuan, LU Jianming, WANG Xinyu, XU Tao
Chengdu Railway Public Security Bureau, Chengdu 610081, China
Abstract

With the advent of advanced hypervisors and other relevant internet technologies, the cloud storage and computing are becoming ubiquitous as one cutting-edge technology. This emerging technology is totally different with its nearly infinite data storage, powerful data processing ability, pervasive data sharing mode, constantly changing data status, on-demand self-service, rapid elasticity and broad network access from what has been still running in the traditional standalone computers of single user, relatively simple networks and comparatively small data storage, thereby challenging the traditional digital forensics in aspects of evidence collection, extraction, fixation and analysis. How to efficiently and effectively obtain the evidence or just its clue from the virtual, distributional memories of cloud computing environment is turning into a hot research topic because of the related multi-users and massive data resources. Based on the latest domestic and international researches of digital forensics in cloud computing environment, this paper begins with a retrospection of the history of digital forensics and the description of main features of traditional forensics, analyzing the characteristics of the cloud computing environment, discussing the forensic challenges in cloud computing, reviewing and categorizing both the significant and practical studies on models, process, analysis and tools for cloud computing forensics. This article should be very likely to provide the digital forensic practitioners with new pertinent perspectives and recommendations for their concerned investigations.

Key words: digital forensics; cloud computing forensics; forensic challenges; digital forensic investigation

电子物证取证经历了4个发展阶段:早期(1980~1995年前后), 参与人员和所涉及的专业训练均较少, 取证目标主要是大型机、个人计算机、公司的数据记录和计算机辅助欺诈[1], 技术上以数据恢复为主, 取证流程不规范, 专业取证工具匮乏; 发展期(1995~2005年), 取证目标从独立的个人计算机扩大到网络入侵、数据解密等专业化领域, 在刑事起诉中电子证据得到了愈益广泛的应用[1]; 黄金期[2](2005~2010年), 取证目标更加多样化, 包括网络社交系统、手机游戏平台、电子邮件、业务记录系统等; 专业的取证工具软件如ENCASE、FTK、X-Ways Forensics、Final Forensics等大量涌现; 新时期(2010年至今), 云计算、大数据和物联网等为代表的新一代技术扩大了取证对象, 电子取证向着智能化、专业化和自动化的方向发展。

在电子取证的新时期, 新型的数据组织、存储、处理和传输技术与应用不断涌现, 比如云计算、云服务。这些“ 云” 在社交媒体上应用广泛, 给传统的侧重于单机、推理少[3]、缺乏数据挖掘和分析的电子取证方式带来了前所未有的挑战。如何在海量的数据和分布式存储中快速获得所需要的电子证据是摆在取证工程师面前的难题。美国NIST的云计算取证小信息技术实验室从技术角度、组织角度和法律角度论述了云取证的挑战[4]; 黄文等提出了高效取证架构的必要性和利用取证云来解决取证时效性差的问题[3]; 郑秋新提出了基于新型资源共享的取证模型[5]; 陈光宣等通过分析云取证面临的困难和挑战, 提出了云取证的流程、方法、技术和模型[6], 郭永健分析了云计算对电子取证的挑战和影响, 探讨了云取证方案[1]。本文依据国内外研究, 综合论述了电子取证的发展、传统电子取证的特点、云计算环境的特点、云取证的风险和挑战以及云计算环境下的取证对策。

1 云计算的特点

云计算是一种以互联网为依托和载体的超级计算机并行协作模式。在远程的数据中心, 成千上万的计算机和服务器连成一片“ 云” , 通过网络和“ 云服务” , 用户可以方便快捷地将本地计算机的资源和功能加入到云服务器中, 借助浏览器的界面和APP应用来完成各项工作和执行各类计算。云计算建立在高性能的计算机和服务器集群上, 数据通过“ 云” 传输、交换、保存和更新, 资源对用户透明, 可以共享与流通, 用户可以根据自己的需要, 个性化地调度、计算和存储资源, 甚至能开发和部署自己的应用。在可预见的将来, 互联网会发展成为一个巨大的“ 存储云” , 用户可以自由地通过“ 云” 提供的服务上传和下载数据, 享受优化的资源和便捷的服务。云计算主要有以下特点:

1.1 超级规模

“ 云” 可看作是众多的高性能计算机设备组成的一个庞大且具备并行运算能力的分布式服务器集群。大型公司诸如谷歌、亚马逊、IBM、微软、雅虎等建设的“ 云” 均拥有几十万乃至上百万台服务器, 一般的企业私有云也都拥有数百上千台服务器[7]

1.2 虚拟化

“ 云” 通过虚拟化技术向其用户提供服务, 打破了各种计算机实体资源如服务、网络、内存、外存之间的壁垒和障碍, 通过虚拟整合提供更强大、快捷和完善的服务, 使得超级计算成为可能。虚拟后的资源不受原资源结构和地域的限制。从用户角度来看, 他们可在不同地点, 使用不同的终端接入“ 云” , 向“ 云” 请求服务, 而无需知道提供服务的设备类型和地点。

1.3 海量数据存储

云存储是一种分布式存储, 是对云虚拟化的一种延伸, 它通过利用集群应用、分布式文件系统、负载均衡、冗余技术、设备并行扩展以及统一的设备管理等功能, 将网络中大量不同类型的存储设备集合起来, 共同对外提供数据存储和访问。用户通过云服务商建立的数据存储中心及其提供的数据存储接口, 可将数据同步到云中心, 不必担心由于自己的计算机硬盘的数据存储不够会导致无法工作, 也不必担心由于自己的硬盘损坏导致数据丢失。

1.4 按需定制服务

云计算环境是服务于多用户的, 其分布式架构和巨大的存储、计算能力可以支撑多样化的应用并为不同的用户提供“ 量身定做” 的服务, 能够为用户创建隔离的资源池, 配置符合特定需要的防火墙和安全规则。在大多数情况下, 用户可利用本地基于WEB页面的自助服务终端来获取所需的软件及服务。

1.5 可伸缩、高扩展性

对于整个“ 云” 来说, 其灵活的设备扩展和管理技术决定了云设备和云存储是没有上限的, 意味着“ 云” 的规模可以根据应用和用户规模动态地增长和扩展; 对于特定用户来说, “ 云” 可以根据用户的实际需求提供其所需的资源池和应用, 它所分配给特定用户的资源是在需求基础上动态伸缩的。

1.6 潜在的危险性

云计算为用户提供了一个价格低、效率高、可共享的IT应用平台, 但是亚马逊的宕机和谷歌的服务器中断事件让我们开始审视云计算潜在的风险。云计算的超大规模性和复杂性对技术漏洞“ 零容忍” , 因为任何一点技术漏洞甚至细微的部署、配置错误都会导致难以想象的后果; 保护用户隐私的难度和风险正随着云端用户数量和规模的扩大而增加; 云计算还缺乏一个统一的技术标准; 云计算中心若受到黑客攻击就会导致个人信息的泄露、个人数据的篡改甚至丢失; 个人账户受到病毒侵袭还可能会在云端蔓延殃及其他用户; 用户与云服务商的关系是不对等的, 云服务商不一定会对用户隐私泄露及数据破坏、丢失事件负责。

2 云取证的风险和挑战

云计算确实带来了数据存储、处理和传输的革命, 但当越来越多的应用从传统的单机、工作站和网络转向云计算环境时, 低成本的数据阵列和高速的带宽为越权数据迁移和敏感数据窃取提供了可乘之机, 因之就给取证工作带来了巨大的安全风险和技术挑战。在取证过程中要确保云数据不被泄露以及可准确获取, 确保取证数据传输安全、存储安全, 有效防范和快速定位云计算环境下的黑客攻击。由于每个用户都有机会拥有并使用云计算资源, 因此数据的所有权和隐私就失去了原有的意义。云计算环境下的虚拟管理程序及其设备相对于地域的独立性, 使得传统的以单机和独立设备为主的事后取证工作方式难以相适应。下面分别从云数据混合交叉、云存储的动态性和实时性以及数据格式的非标准化和复杂性来论述取证工作所面临的风险和挑战(见图1)。

2.1 云数据混合交叉

在云计算环境中, 不同的用户数据和各种类型的数据混在一起, 分布式地存储在不同地域的不同设备上, 其数据的抽象性、资源共享性和存储分布性[3], 使得无法用传统的取证工具再现原始数据, 既无法克隆磁盘, 又难以将某个或某类用户的数据单独地提取出来而不涉及其他用户的隐私, 同时也很难确保证据的完整性[4], 因为数据是以碎片方式分布存储[3]而共享使用的。即使做数据迁移, 其耗费的时间和资源也很巨大。在证据提取阶段, 首先要确定数据边界, 对于跨地域/国界的数据取证还要寻求相应的法律支撑, 并将数据的时间属性、关联属性、用户特征、传输轨迹以及系统的审计、安全和应用日志等更多信息纳入到采集和固定的范畴, 同时还要重视元数据的采集和使用。在提取证据后需要仔细甄别数据是否有价值和冗余。对于无价值和冗余数据, 应进行清洗处理。云数据混合交叉带来的取证往往是提取信息量巨大, 但其中可作为证据的数据却可能仅仅几条[1]。如何通过强大的智能分析方法更迅速地完成电子证据的精确提取分析, 是云计算环境下数字取证需要解决的难题之一。

图1 云取证的风险和挑战Fig.1 Faced risks and challenges of the “ cloud” forensics because of the unprecedented complexity in the “ cloud” running

2.2 云存储的动态性和实时性

海量的用户通过网络分享海量的云存储, 体验不同的云服务, 因此数据丢失风险和数据泄露风险无处不在。云服务商的误操作、云计算环境的漏洞、恶意软件、黑客入侵和其他用户非法窃取数据都可能造成数据丢失和数据泄密, 云计算环境瞬息万变, 试想, 每一秒都有成千上万的用户在上传下载数据信息和体验不同的应用和服务, 新增的数据信息随时有可能覆盖前面的证据。如何在动态、实时变化的云计算环境中准确把握取证的时机, 快速找到、跟踪线索并固定证据就显得极为重要, 否则, 证据就极有可能被覆盖、更改, 甚至丢失。

2.3 数据格式的非标准化和复杂性

云计算环境的数据规模超大但却没有统一的数据标准, 很多数据格式和数据资源描述都是各自专有的。结构化、半结构化和非结构化数据并存, 证据类型涵盖了文档、音频、视频、邮件、数据库、网络日志等多种形式。这种数据存储的非标准化和复杂性给电子证据的获取和分析带来了很大的挑战, 需要反复使用数据解密、数据恢复和数据分析技术, 需要取证人员具备较强的数据处理能力和数据关联分析能力, 同时也需要云服务提供商的技术支持和协助。

3 云计算环境下的取证调查对策

云计算下的取证需要从动态环境和海量数据中收集和分析证据, 来确定嫌疑人的信息获取、资源占有和服务使用情况。调查取证的方式、范围及所使用的工具与传统的取证方式有很大不同。首先, 在证据收集阶段, 云取证调查人员除了获取传统意义上的用户文档外, 还必须考虑嫌疑人在云计算环境中的用户身份、角色及所定制的服务, 所属的网络环境信息及时间信息, 在跨地域特别是跨国取证的复杂环境中, 需考虑比如时区等因素; 其次, 应综合利用传统的静态取证工具和在线取证工具来获取线索。云计算环境所涉及的证据信息包括云端信息和客户端信息两部分。客户端的信息获取可以采用传统的取证工具进行磁盘克隆, 而云端数据的跨地域分布式存储和高度虚拟化就使调查人员面临的不再是传统的物理机器而是虚拟影像, 因此, 在线取证工具是必不可少的。在最后的数据处理阶段, 无效和冗余数据的清洗处理至关重要。云计算环境下提取的与证据相关的数据可能包括大量的日志、环境及多用户的共享信息, 因此, 做好日志数据的时间轴分析, 包括时间戳的同步工作, 快速地甄别并除去无价值的数据信息并高效地从中提取与案件有关的线索, 至关重要。

3.1 云端取证调查

云平台架构不同于传统的“ 烟囱式” IT架构, 其通过虚拟化与自动化而完成资源整合, 以此构筑成可灵活调度、伸缩的共享资源池, 所提供的云服务涵盖三个层次:基础设施即服务IaaS(Infrastructure as a Service, 如Amazon WebService、SAVVIS、世纪互联等)、平台即服务PaaS(Google App Engine、Windows Azure等)和软件即服务SaaS(Google Apps、Office等)。在云计算环境下, 资源和服务都由云服务商提供, 用户操作行为包括数据的传输、服务的申请和资源的获取都是直接通过网络完成, 因此, 取证调查的重点将由传统的线下取证转移到线上取证, 即从云服务平台去调查涉案违法证据。取证人员需要了解云端服务类项及其技术类型, 如云端设备、平台、软件以及拓扑结构、数据上传工具及云服务商提供时间的准确性和时区信息等。同时要第一时间与云服务商沟通以保全系统的日志信息和特定用户的数据信息, 以防范证据被覆盖或者丢失。下面给出云取证的模型、框架及日志分析较新的研究成果和国外应用较为广泛的云取证工具。

针对云计算环境中取证的可信度和证据的完整性等问题, Zawoad等[8]提出了开放云取证模型(OCF), 将云服务商(CSP)和取证人员及用户一道纳入角色管理。在功能模块上, OCF具备以下特征:

1)将“ 易逝” 电子存储信息(ESI)连续同步到可靠的永久存储设备上;

2)通过由加密算法支撑的证据公布模块(PPM), 将ESI变成可校验并公布;

3)通过安全的只读应用程序界面搭建“ 云” 和取证人员间的桥梁, 使所有的ESI对取证人员“ 可见” , 尽量避免取证人员直接访问“ 云” ;

4)法庭可直接用公布的ESI来校验证据的真实性[9]

这个取证模型提出的“ 易逝” 数据同步机制虽理论上可行, 但在一个拥有海量数据和数以万计用户的云计算环境中如何确定连续同步的数据项、数据同步方式及程度, 其实际操作性还需要实践的检验, 因为犯罪的不可预测性使我们难以事先定义哪些ESI需连续同步, 而同步方式和程度对系统带来的计算、带宽和存储的压力也必须考虑。

针对云端取证的时效性问题, 休斯顿大学的Wen等[9]设计了一个基于MapReduce、Hdfs和Hbase技术管理海量数据的取证模型, 构建成所谓的“ 取证应用程序仓库” , 为取证调查者建立自己的工作流程提供一个接口统一的取证流程框架。该框架包括取证数据管理和取证应用程序管理两部分, 前者提供大量取证数据的上传、存储和跟踪; 后者则通过将各类取证软件分类部署到框架中, 以供取证人员灵活选择和重复使用。取证需求可通过XML配置文件来定义。智能化的流程管理、定制取证需求和分工协作等为需要众多取证工作人员参与的复杂云取证工作搭建了一个提升效率的平台。

提取日志信息是数字取证的关键环节, 但在云计算环境下, 日志格式不统一、存储分散且日志的生命周期短暂, 取证人员可能只提取到日志的部分子集, 甚至不能获得关键信息的日志。Marty[10]提出日志信息集中管理的框架, 通过跨组件的同步时钟和可信赖的协议确保日志信息的迁移和统一集中管理, 通过加密机制来确保日志信息的保密性和完整性。

取证界广泛应用的软件Encase Servlets和FTK Agents支持从与“ 云” 环境的通信中远程收集与获取证据[11]。这两种工具界面友好, 易于使用, 若被赋予足够权限, 可较为完整地获取云端信息, 包括内存、日志及其他相关数据, 能在取证服务器端和客户端部署加密网络而保证证据的真实性和可靠性。但其缺点是对恶意代码的免疫能力较差, 取证时需要防火墙开放端口对其“ 放行” , 这无形中会增加系统被攻击的风险。开源数据取证工具Sleuth Kit Hadoop整合了系列取证软件, 使之能在云端运行[9], 可解决云取证工作中处理海量信息遇到的计算瓶颈、带宽瓶颈和存储瓶颈等问题。Magnet Forensics公司的Internet Evidence Finder (IEF)取证软件能有效地抓取和解析与浏览器(Google Chrome, Mozilla Firefox, Internet Explorer, Opera, Safari)、即时通信工具(Skype, Yahoo Messenger)、云服务(Dropbox, Google Docs, Google Drive, Skydrive)和社交媒体网站(Twitter)、P2P文件传输服务(Torrent, Ares, eMule)、电子邮件等相关的互联网应用信息[12], 为取证工作者提供详实的报告。在各类网络应用日新月异的今天, IEF的证据获取深度和广度虽仍有一定局限性, 但其在获取上网痕迹方面, 相对快捷, 所支持的网络应用也较为全面。

3.2 本地取证调查

嫌疑人在利用云计算环境传输和处理信息的过程中会有一些文件碎片、网址缓存遗留在本地终端[13](个人电脑、笔记本、手机及其他智能终端), 因此, 本地终端的数据取证也是必不可少的。本地终端调查取证的工作方式和工作原理与传统的取证方式相同, 需要确定本地终端的角色, 使用现场取证工具收集本地终端的用户活动, 根据文件系统的存储原理从残留区、未分配簇和碎片里查找相关的证据。很多用户会使用本地数据与云数据的同步机制, 在采用本地取证调查时, 了解用户使用了哪些云服务和资源。本地终端调查数据可以与云端调查数据相互佐证和补充。

美国罗德岛大学的数字取证实验室开发了Cloud Signature Creator的终端取证工具, 能帮助调查人员在计算机、手机、iPad等本地设备的网页缓存、Cookie、index.dat、注册表等位置中抓取云应用的残留信息, 提取其所使用的云应用名称、用户名、使用日期和时间以及用户文件/文件夹的名称[14]。对于云设备分布地域广、数据量大、数据结构类型复杂的跨地域/国别的案件, 通过Cloud Signature Creator可直接产生调查清单提供给云服务提供商从而能对涉案嫌疑人的网络行为轨迹做针对性的定制调查, 既节约调查成本又节省调查时间。

4 云计算环境下的取证流程

传统的取证流程对象相对单一、静止, 取证环境也相对封闭, 外来数据很难对其造成影响。而在云计算环境下, 数据资源丰富, 用户数量大, 用户之间共享资源和服务, 临时文件和临时数据芜杂。因此, 虚拟化的取证范围和海量的数据信息带给取证人员前所未有的挑战, 如证据的时效性强、证据发现、定位难[1]、证据的分析处理工作量大。因此, 在证据的发现、固定、提取、处理和分析等各个阶段都需要充分考虑云计算环境的特殊性, 并针对其特点, 采取与之相适应的工具与技术或者综合利用各类工具和技术, 需要既在细节上缜密考虑, 又要使环节处理依规合法, 逐步地将取证工作从传统的少推理方式[3]转变到能有效适应云计算环境并兼具高效证据提取和复杂数据挖掘的新型取证方式 (图2)。

图2 云计算环境下的取证流程Fig.2 The course for investigation into the “ cloud” environment

5 结束语

云计算平台在带给网络用户极大便利的同时, 也为违法犯罪份子提供了跨地域作案的环境, 给数字取证工作带来了前所未有的挑战。由于目前云计算环境还没有统一的架构、标准和定义, 基于云计算环境下的电子数据取证和调查也才刚开始起步, 传统的取证工具功能有待拓展, 新型的取证工具有待研发, 取证模式的灵活性、扩展性和规范性有待加强, 对云安全威胁的快速预知和响应有待研究, 相关标准政策特别是跨地域取证的法律规范也有待建立与完善。但可预见, 集成化、智能化和自动化的强大取证工具以及规范化流程支撑的取证云一定能建成并有效应用。

The authors have declared that no competing interests exist.

参考文献
[1] 郭永健. 云计算冲击下的网络安全与云取证[EB/OL]. [2016-02-10]. http://wenku.baidu.com/view/de336b70f46527d3240ce0e0.html. [本文引用:5]
[2] 杨泽明, 刘宝旭, 许榕生. 数字取证研究现状与发展态势[J]. 科技信息化技术与应用, 2015, 6(1): 3-11. [本文引用:1]
[3] 黄文, 庞荣, 荣卓波. 基于云计算平台的新型电子取证研究[J]. 法制博览, 2013(2): 34-36. [本文引用:5]
[4] NIST Cloud Computing Forensic Science Working Group Information Technology Laboratory. NIST cloud computing forensic science challenges[R/OL]. (2014-6-23). http://csrc.nist.gov/publications/drafts/nistir-8006/draft_nistir_8006.pdf. [本文引用:2]
[5] 郑秋新. 基于云架构的计算机取证研究[J]. 福建警察学院学报, 2012, 126(2): 60-63. [本文引用:1]
[6] 陈光宣, 杜彦辉, 杜锦, . 云环境下的电子取证研究[J]. 信息网络安全, 2013(8): 87-90. [本文引用:1]
[7] 吴同, 杨永川. 云计算环境下的取证研究[J]. 电信科学, 2010, 26(12): 79-82. [本文引用:1]
[8] Zawoad S, Hasan R, Skjellum A. OCF: an open cloud forensics model for reliable digital forensics. [C]//IEEE International Conference on Cloud Computing. 2015: 437-444. [本文引用:1]
[9] Wen YF, Man XX, Le K, et al. Forensics-as-a-Service (FaaS): computer forensic workflow management and processing using cloud[C]// Cloud Computing 2013: The Fourth International Conference on Cloud Computing, GRIDs, and Virtualization. 2013, 208-214. [本文引用:3]
[10] Marty R. Cloud application logging for forensics. [C]// Proceedings of the 2011 ACM Symposium on Applied Computing. 2011, 178-184. [本文引用:1]
[11] Zawoad S, Hasan R. Cloud forensics: a meta-study of challenges, approaches, and open problems[R/OL]. [2013-02-26]. http://arxiv.org/pdf/1302.6312.pdf. [本文引用:1]
[12] Murray N. Internet evidence finder report[R/OL]. 2013-7. http://www.champlain.edu/Documents/LCDI/archive/Internet-Evidence-finder-ReportPDF. [本文引用:1]
[13] 张超. 云计算环境下的电子数据调查与取证[J]. 信息网络安全, 2010(11): 52-54. [本文引用:1]
[14] Digital Forensics and Cyber Security Center of the University of Rhode Island . Cloud forensics[EB/OL]. [2016-02-10]. http://www.dfcsc.uri.edu/research/cloud. [本文引用:1]