0

Data Recovery & Digital Forensics: Xóa File Không Có Nghĩa Là Dữ Liệu Biến Mất

1. Mở đầu: Format xong rồi mà vẫn recover được

Mình từng tham gia hỗ trợ phân tích một laptop trong vụ gian lận nội bộ ở công ty logistics khoảng vài năm trước. Máy bị format, cài lại Windows rồi dùng thêm một thời gian trước khi bị thu giữ.

Lúc nhận máy, phía bên kia gần như chắc chắn là dữ liệu cũ đã mất hết.

Thực tế thì không hẳn vậy.

Ổ dùng HDD thường, NTFS. Sau khi tạo image và parse lại filesystem, recover được khá nhiều thứ còn sót:

  • file Excel trong unallocated space,
  • thumbnail cache,
  • vài shortcut cũ,
  • metadata từ MFT,
  • lịch sử mở file trong Registry.

Không phải mọi thứ đều nguyên vẹn. Một số file đã corrupt do bị ghi đè sau khi cài lại Windows. Nhưng lượng artifact còn lại đủ để dựng tương đối rõ những gì đã xảy ra trước lúc máy bị format.

Đó cũng là lần mình thấy khá rõ một chuyện: với phần lớn hệ thống lưu trữ truyền thống, “xóa file” và “dữ liệu biến mất” là hai khái niệm khác nhau.


2. Khi bấm Delete thì chuyện gì thật sự xảy ra?

Nhiều người nghĩ hệ điều hành sẽ xóa ngay dữ liệu khỏi ổ đĩa. Thực tế thường không như vậy.

File system chủ yếu làm 2 việc:

  • quản lý vị trí dữ liệu,
  • quản lý metadata.

Ví dụ trên NTFS của Windows, thông tin file được lưu trong $MFT (Master File Table). Khi xóa file, thường chỉ có:

  • entry bị đánh dấu không còn sử dụng,
  • cluster được đánh dấu free.

Nội dung thực tế của file nhiều khi vẫn còn nằm trên đĩa cho tới khi có dữ liệu mới ghi đè lên.

Đó là lý do vì sao các tool forensic hoặc recovery vẫn có thể tìm lại dữ liệu đã xóa nếu sector tương ứng chưa bị overwrite.

Với FAT32 hay exFAT còn “thoáng” hơn nữa. Nhiều trường hợp directory entry gần như còn nguyên, chỉ bị đổi byte đầu tiên.

Linux với ext4 thì khác cách tổ chức nhưng ý tưởng chung tương tự:

  • inode,
  • block bitmap,
  • journal.

Journal đôi khi còn lưu lại dấu vết của thao tác filesystem trước đó.


3. HDD và SSD khác nhau rất nhiều trong chuyện recovery

Đây là chỗ khá nhiều người nhầm.

HDD

HDD truyền thống dễ recover hơn nhiều vì dữ liệu thường nằm yên ở đó cho tới lúc bị ghi đè.

Nếu:

  • file mới xóa,
  • ổ không dùng nhiều sau đó,
  • fragmentation không quá nặng,

thì khả năng recover khá cao.

Mấy case recover ảnh hoặc document cũ trên HDD văn phòng thật ra không hiếm.


SSD

SSD phức tạp hơn vì có:

  • wear leveling,
  • garbage collection,
  • TRIM.

Khi OS gửi lệnh TRIM, SSD controller biết rằng vùng đó không còn dùng nữa và có thể dọn trong background.

Nói ngắn gọn:

  • HDD: dữ liệu thường còn khá lâu
  • SSD hiện đại: dữ liệu có thể biến mất nhanh hơn nhiều

Đặc biệt với NVMe SSD mới, recovery sau TRIM thường rất khó.

Nhưng cũng không nên hiểu theo kiểu:

SSD = không recover được gì.

Thực tế còn phụ thuộc:

  • controller,
  • firmware,
  • adapter,
  • TRIM có hoạt động thật không,
  • ổ đang gắn SATA trực tiếp hay qua USB bridge.

Có mấy lần tụi mình gặp SSD gắn qua box USB mà TRIM gần như không chạy, recover vẫn được kha khá.


4. Forensics thường tìm dữ liệu kiểu gì?

Không phải lúc nào forensic cũng “khôi phục nguyên file”.

Nhiều khi cái quan trọng hơn là artifact và metadata.

File carving

Tool scan raw disk để tìm signature file.

Ví dụ:

  • JPEG có header riêng,
  • PDF có magic bytes riêng,
  • ZIP/DOCX cũng vậy.

PhotoRec làm việc kiểu này khá hiệu quả.

Điểm dở là:

  • mất tên file,
  • mất folder structure,
  • file fragmented dễ bị lỗi.

Nhưng với USB hoặc thẻ nhớ thì vẫn cứu được rất nhiều thứ.


MFT analysis

NTFS để lại khá nhiều metadata.

Ngay cả khi file đã xóa, entry trong MFT đôi lúc vẫn còn:

  • tên file,
  • timestamp,
  • kích thước,
  • path cũ.

Đó thường là chỗ đầu tiên cần nhìn khi phân tích NTFS image.


Timeline analysis

Đây là phần mình thấy thú vị nhất hồi mới làm forensic.

Từ nhiều nguồn khác nhau có thể dựng lại tương đối chi tiết:

  • file nào được mở,
  • lúc nào,
  • process nào chạy,
  • USB nào từng cắm,
  • document nào từng truy cập.

Nguồn artifact thường gồm:

  • Registry,
  • Prefetch,
  • Event Log,
  • LNK files,
  • browser cache,
  • USN Journal,
  • thumbnail cache.

Không có artifact nào hoàn hảo riêng lẻ. Nhưng ghép timeline lại thì thường khá nhiều thứ lộ ra.


5. Memory forensics mới là phần khó chịu nhất

Nhiều người chỉ nghĩ tới ổ đĩa, nhưng RAM đôi khi còn đáng sợ hơn.

Nếu máy đang bật:

  • encryption key có thể nằm trong memory,
  • document đang mở có thể còn fragment,
  • clipboard,
  • session browser,
  • network connection,
  • token xác thực.

Mấy thứ này disk chưa chắc có.

Volatility vẫn là tool mình dùng nhiều nhất cho memory analysis, dù profile mismatch hoặc symbol lỗi đôi lúc khá mất thời gian xử lý.

Thực tế memory forensic không “magic” như phim. Nhiều dump rất bẩn hoặc thiếu dữ liệu. Nhưng khi trúng thì lượng thông tin lấy được khá nhiều.


6. Cloud mới là nơi nhiều người quên mất

Xóa local chưa chắc đã xóa hết.

OneDrive, Google Drive, Dropbox đều có:

  • sync history,
  • recycle bin,
  • version history.

Nhiều case local mất sạch nhưng bản cloud vẫn còn nguyên.

Trong môi trường công ty dùng Microsoft 365 hoặc Google Workspace thì audit log còn chi tiết hơn nhiều người nghĩ.


7. Muốn xóa dữ liệu an toàn thì nên làm gì?

Với HDD

Overwrite vẫn là cách ổn nhất.

Ngày trước hay nói 7-pass, 35-pass các kiểu, nhưng với HDD hiện đại thì 1 pass random hoặc zero-fill thường đã đủ thực tế.

Ví dụ:

shred -v -n 1 -z /dev/sdb

Hoặc đơn giản hơn:

  • full format có overwrite,
  • dùng tool wipe chuyên dụng.

Với SSD

Đừng dùng logic của HDD áp lên SSD.

Cách đúng hơn là:

  • ATA Secure Erase,
  • NVMe sanitize,
  • cryptographic erase.

Nhiều hãng SSD có tool riêng cho việc này.


Encryption vẫn là giải pháp hợp lý nhất

Cái này cá nhân mình thấy practical nhất.

Nếu full disk encryption bật từ đầu:

  • BitLocker,
  • FileVault,
  • LUKS,
  • VeraCrypt,

thì lúc cần dispose thiết bị chỉ cần destroy key đúng cách là phần lớn dữ liệu trở nên vô dụng.

Đỡ đau đầu hơn nhiều so với cố overwrite từng sector.


8. Thứ mọi người hay bỏ sót

Có vài chỗ khá hay bị quên:

  • pagefile,
  • hibernation file,
  • external drive,
  • SD card,
  • cloud backup,
  • printer storage,
  • thumbnail cache.

Đặc biệt SD card là thứ mình thấy bị overlook rất thường xuyên.

Main device encrypt kỹ nhưng thẻ nhớ ngoài lại chứa nguyên đống dữ liệu cũ.


9. Kết

Điều mình thấy sau vài năm làm việc liên quan forensic là:

đa số mọi người đánh giá thấp việc dữ liệu tồn tại lâu đến mức nào sau khi “xóa”.

Và chiều ngược lại cũng đúng:

nhiều người nghĩ forensic có thể recover mọi thứ, trong khi SSD hiện đại với encryption bật đúng cách gần như đã thay đổi cuộc chơi hoàn toàn.

Quan trọng nhất vẫn là:

  • hiểu thiết bị mình đang dùng,
  • hiểu dữ liệu đang nằm ở đâu,
  • và có quy trình xử lý phù hợp trước khi bán, bỏ hoặc tái sử dụng thiết bị.

All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí