Szlifowanie dokumentów
Rozdrabnianie dokumentów to proces analizy dokumenty wyodrębnić znaczące dane. Termin ten jest często kojarzony z hakowaniem komputerów, ponieważ hakerzy może „szlifować” dokumenty, aby ujawnić poufne dane. Jednak szlifowanie dokumentów jest również wykorzystywane do nieszkodliwych celów. Przykłady obejmują identyfikację nieznanego typy plików i przeglądanie pliku metadanych.
Istnieje możliwość szlifowania dokumentów na obu zwykły tekst i dwójkowy akta.
Pliki tekstowe
Szlifowanie plików tekstowych jest prostym procesem, ponieważ przechowują dane jako zwykły tekst. Możesz wyszukać znaków i smyczki w dokumencie tekstowym za pomocą narzędzia takiego jak grep lub inne narzędzie wyszukiwania. Ponieważ przetwarzanie tekstu jest stosunkowo szybką operacją komputerową, możliwe jest szlifowanie kilku dużych dokumentów w mniej niż sekundę.
Typowe typy plików tekstowych przeznaczone do szlifowania dokumentów obejmują pliki dziennika (.LOG, . TXT) i pliki konfiguracyjne (CONF, Rozszerzenie pliku CNF). Jeśli haker uzyska dostęp do pliku serwer wWW, na przykład, może przeszukać te pliki nazwy użytkowników, Hasłai inne poufne dane.
Pliki binarne
Pliki binarne mogą zawierać zwykły tekst, ale przechowują również pliki binarne data - 1 i 0. Przeszlifowanie danych binarnych jest trudniejsze, ponieważ nie można ich przeszukiwać za pomocą narzędzia wyszukiwania tekstu. Ponadto wiele plików binarnych jest zapisywanych w zastrzeżonym pliku format pliku, co jest trudne analizować bez odpowiedniego aplikacja. Dlatego mielenie dokumentów binarnych zazwyczaj koncentruje się na nagłówek i stopka dokumentu, który może zawierać zwykły tekst. Może również mieć na celu wyodrębnienie metadanych pliku.
Wiele plików binarnych zawiera informacje o typie pliku w nagłówku pliku filet. Na przykład na przykładowym obrazku litery „PNG” w nagłówku wskazują, że plik ma rozszerzenie PNG wizerunek. Te informacje są przydatne do identyfikowania typu pliku, ponieważ nie ma on rozszerzenia rozszerzenie pliku. Podobnie zdjęcia cyfrowe często zawierają ukryte EXIF dane zapisane podczas robienia zdjęcia. Program do przeglądania obrazów lub szlifowania dokumentów scenariusz może być w stanie wykryć i wyodrębnić te informacje.