Bing nechce být velkým bratrem jako Google

V lednu 2010 Bing potažmo Microsoft vydal oficiální prohlášení, že zkrátí dobu, po kterou bude uchovávat informace o uživatelích. Microsoft uvádí, že informace o aktivitě jednotlivých IP adres v současnosti uchovává 18 měsíců. Nově by tato době měla být šest měsíců.

Google data o činnosti a pohybu uživatelských IP na jeho serverech uchovává i déle než 9 měsíců.

Tolik holá fakta. A teď co to znamená a bude znamenat.

K čemu vyhledávače tolik informací potřebují?

Asi hlavním důvodem střádání dat je jejich následné využití k ladění, simulování a statistickým výpočtům. Například, pokud vím, že uživatelé dlouhodobě opomíjejí nějaký odkaz, je třeba se zamyslet, proč to tak je. A přesně tato data vám logy mohou poskytnout. Jistě lze provádět měření ještě před nasazením nějaké změny např. eye trackingem, tvorbou heat map atd., ale až realita může ukázat slabiny.

Asi nejhodnotnější jsou, ale takováto data v upgradu hledacích algoritmů, vždyť, co je lepší než reakce uživatele, pro kterého je hledání vyvíjeno.

Je uchovávání dat fulltexty a portály pro uživatele nebezpečné?

Řekl bych, že normálnímu průměrnému a podprůměrnému uživateli je celkem jedno, zda si někdo někde pamatuje, že včera v noci hledal to a to. Ale jistě existují skupiny lidí, kterým je taková představa nahání husí kůži. Přitom důvod může být různý od čistě principiální roviny až po pragmatický důvod typu: „Nechci, aby někdo byl schopen vytáhnout roky zpětně, že jsem v mládí hledal nelegální stažení mptrojky.“

Je zabezpečení takto citlivých dat dostatečné?

Společnosti typu Microsoft a Google jsou jistě dostatečně dominantní, aby si svá data dokázaly ochránit právně. Lidsky řečeno, pokud nebudou chtít, tak z nich taková data žádný soud na světě nevymámí. Potud bych se nebál, ještě nejsme v Číně.

Mnohem horší zabezpečení se dá očekávat okolo dat samotných. Kde taková data leží? Jsou na discích v serverech, které jsou dostupné z netu? Nebo jsou uloženy pro případ potřeby na páskách někde v sejfu? Kolik existuje kopií? Nepotulují se tato data napříč firmou na „pár“ DVD? Jak se takovéto firmy chrání proti průmyslové špionáži? Co když selže jedinec a data vynese ven, nebo s nimi rovnou začne někoho vydírat?

Normální smrtelník se pravděpodobně odpovědi nikdy nedozví.

Skutečně data budou zcela odstraněna?

Další, celkem zajímavou otázkou je, kdo bude odstranění dat kontrolovat? Přeci do všech poboček Microsoftu nebude pravidelně jednou za x měsíců chodit kontrola a prohledávat datová úložiště. Stejně by nic nenašli – stačí data vhodně zakódovat, zaheslovat nebo prostě fyzicky schovat. Opět můžeme jen spekulovat, zda data opravdu zmizí z povrchu zemského.

Může tedy nějaký server vědět, že přesně já jsem dělal to a to?

Ne. Důvod je prostý, z normálního access logu třeba Apache můžeme vyčíst typicky: IP, navštívenou URL, user agenta, referer (odkud uživatel přišel) a čas. Samy o sobě jsou tato data anonymní. Navíc IP nemusí nutně znamenat konkrétní koncový počítač. Může být za velkou firemní proxy, IP adresa může být přidělena dynamicky, nebo máte doma router a 5 počítačů. Nelze tedy z běžného logu poznat, že se jednalo o konkrétní PC. A už vůbec je složité prokázat, že jste u konkrétního počítače seděli třeba zrovna vy. Síla dat je v jejich množství, jistě z nich jde poskládat monstrózní statistiku.

Čeho se spíš bát?

Spyware – jedno slovo za všechny. Mnohem nebezpečnější než uchovávání vaší aktivity na různých serverech po světě mi přijde infikování přímo vašeho počítače a následné odesílání informací o chování někam „pryč“. Ale to je trochu jiné téma