Informationstandard.pl - wspomaganie decyzji - link do strony głównej
wyszukiwanie:
Podziel się opinią o serwisie

WDROŻENIA

Migracja po dwóch dekadach

Bank BGŻ wymienia - zainstalowany jeszcze w latach 90. - system BankStreet. Nowa aplikacja - Flexcube - wspomaga działania centrali.

Efekt gwarantowany

Narzędzia analityczne wydatnie poprawiają skuteczność bankowych kampanii marketingowych.

ANALIZY

Czwarta fala

Rodzaj medium będącego zarówno nośnikiem, jak i sposobem przekazywania informacji, definiuje cechy organizacji gospodarczych i ma wpływ na zarządzanie przedsiębiorstwami. W epoce multimedialnych sieci zasady powstawania i funkcjonowania tych struktur ulegają zmianie.

Przyszłość to usługi i aplikacje

W obecnych warunkach ekonomicznych użytkownicy IT oczekują przede wszystkim lepiej zintegrowanych rozwiązań oraz bardziej kompleksowej obsługi.

PRODUKTY

Maszyna dla danych

Sun Oracle Database Machine v2 został oparty na sprzęcie Suna. Pierwsza wersja, która powstała jeszcze przed ogłoszeniem planów fuzji Oracle-Sun, była oparta na technologii HP.

Migracja dobrze policzona

Rozwój firmy wymaga zwiększania lub optymalizacji mocy obliczeniowej infrastruktury serwerowej. Jakimi narzędziami posługują się CIO, aby utrzymać koszty pod kontrolą?

popularne

Najczęściej czytane

WYWIADY

EN FACE: Sebastian Ryszard Kruk...

... pracownik naukowy Digital Enterprise Research Institute na Narodowym Uniwersytecie Irlandzkim i wykładowca na Politechnice Gdańskiej, autor pracy doktorskiej na temat semantycznych bibliotek cyfrowych, twórca start-upu Knowledge Hives i Szkoły Web 3.0.

Coraz więcej inteligencji

Rozmowa z Nickiem Pachnosem, szefem działu rozwiązań na platformę mainframe w BMC Software.

Luksusowa analiza

Stephen Brobst, Chief Technology Officer w Teradata, rozmawiał z nami na temat rynku business intelligence.

powiększ tekst >
ARCHIWUM

Zmierzyć informację

17 kwietnia 2007

Technologie informatyczne dają możliwość zapisu, gromadzenia i przetwarzania teoretycznie nieograniczonej ilości informacji. Bieżące i minione dane mogą się znaleźć w dowolnym, ogólnie dostępnym systemie. Nie jest jednak łatwo ani określić łączną ilość informacji, ani też przewidzieć, czy będzie się ona powiększała, czy też może rozpraszała.


Computerworld — Pojęcie "ilość informacji" ma ścisły i zarazem dość intuicyjny sens w ramach matematycznej teorii komunikacji Claude'a Shannona. Wykorzystuje się w niej rachunek prawdopodobieństwa do oszacowania tego, ile bitów informacji łączy się z wyborem danej możliwości. Pojęcie to jest definiowane również w ramach teorii tzw. algorytmicznej zawartości informacyjnej, gdzie używa się z kolei mniej zdroworozsądkowych, lecz za to bardzo użytecznych definicji ilości informacji.

W pierwszym przypadku ilość informacji niesiona przez dany sygnał (jakieś zdarzenie, stan rzeczy) oznacza liczbę binarnych decyzji prowadzących do jego wyboru. Im więcej takich wyborów jest możliwych, tym więcej informacji każdy sygnał ze sobą niesie. Zdarzenie czy sygnał o wysokim prawdopodobieństwie wyboru zawiera mniejszą ilość informacji niż zdarzenie o prawdopodobieństwie niskim. W tym ujęciu ilość informacji związana z sygnałem jest rozumiana również jako miara nowości dla odbiorcy komunikatu. Inaczej jeszcze mówiąc, ilość informacji dla odbiorcy wiąże się ze zmianą stopnia jego niepewności - gdy pewność wzrasta, maleje informacja związana z odebranym komunikatem.

Pomiaru ilości informacji można dokonać nie tylko w trakcie jej transmisji, mierząc bity informacji jako jednostki wyboru określonej możliwości. Można go też dokonać w stosunku do wyemitowanego już złożonego ciągu (łańcucha) sygnałów, z których każdy zawiera określone bity informacji. Wtedy ilość informacji wynika nie tylko z wyboru spośród możliwości, ale łączy się także z pomiarem długości wyemitowanych ciągów bitów. Polega na rozpoznaniu i ilościowym oszacowaniu złożoności łańcuchów sygnałów.

Najkrótszy opis dla najdłuższego ciągu bitów

Drugi rodzaj pomiaru ilości informacji zawartej w złożonym łańcuchu bitów jest sformułowany w tzw. algorytmicznej zawartości informacyjnej. Teorię tę w latach 60. opracowało równocześnie i niezależnie od siebie trzech autorów - Rosjanin Andriej N. Kołmogorow (od którego nazwiska często, np. w polskiej literaturze z matematyki i informatyki, nazywa się tę kwestię "złożonością Kołmogorowa") oraz Amerykanie - Gregory Chaintin (który miał wówczas niespełna piętnaście lat!) i Ray Solomonoff. Autorzy ci w swoich rozumowaniach przyjęli, że do pomiaru informacji zawartej w dowolnie złożonych zbiorach czy ciągach jakichś obiektów można użyć wyidealizowanego komputera (o nieskończonej pamięci), który będzie dysponował programem generującym takie ciągi. W istocie rzeczy komputer taki będzie mógł wygenerować wiele programów, które będą mogły wykonać to samo zadanie - wydrukować zadany z góry łańcuch bitów, w którym trzeba oszacować jego zawartość informacyjną. Mimo że ilość takich programów jest w zasadzie nieograniczona, każdy z nich będzie w mniejszym czy większym stopniu opisywał zadany ciąg, będzie więc zawierał informację o nim. Powstaje wówczas problem natury teoretycznej - który z programów jest lepszy?

Teoria algorytmicznej zawartości informacyjnej rozstrzyga tę kwestię prosto - długość najkrótszego programu najpełniej mówi o zawartości informacyjnej, tj. ilości informacji, jaka obecna jest w danym ciągu - im program krótszy, tym ilość informacji w ciągu jest większa. Najkrótszy z możliwych programów, zawierając największy stopień kompresji informacji, jest tym samym najlepszym opisem złożoności ciągu bitów.

Zależność długości programu i ciągu sygnałów, który on opisuje, można oddać bardziej prostym i zrozumiałym językiem, odwołującym się do sytuacji z życia codziennego. Zrobił tak fizyk-noblista Murray Gell-Mann, który analizował znaczenie algorytmicznej teorii informacji dla tak różnych dziedzin życia, jak fizyka, ekologia czy społeczeństwo. Przywołał anegdotkę o uczniu, który dostał jako pracę domową zadanie przygotowania dowolnej historyjki z życia, której długość nie będzie większa niż 300 słów. Ponieważ większość czasu spędził na zabawie, to napisane w pośpiechu opowiadanie wyglądało następująco: "Wczoraj u sąsiadów wybuchł pożar. Wychyliłem się przez okno i krzyknąłem: ". Uczeń powtórzył przy tym zwrot "pali się" tyle razy, aby całość opowiadania liczyła ostatecznie zadane 300 słów. Mógłby jednak również, jak zauważa Gell-Mann, chociażby dla zaoszczędzenia sobie czasu i miejsca w zeszycie, użyć zwrotu "i krzyknąłem 144 razy". Taki wybieg stylistyczny miałby

podobny sens - oba opowia-dania byłyby zasadniczo różne pod względem długości, lecz zawierałyby tę samą treść. Oba opisy zakodowane w różnych programach odnosiłyby się (powiedzmy, że byłyby programami do napisania opowiadania) do zadanego z góry warunku - ciągu bitów składającego się z 300 słów. Poza tym dawałyby się zakomunikować, o czym mówi teoria algorytmicznej zawartości informacyjnej, traktując ten warunek jako zasadniczy dla pomiaru informacji. Pomiar informacji ma bowiem sens wtedy, gdy daje się ona komunikować.

Zauważmy, że nawet gdyby nauczycielka, mówiąc o tym uczniowi, nie uznała opowiadania z takimi skrótami za zadowalające, to i tak dałaby dowód pośrednio, że chłopiec dokonał znaczącego skrócenia opisu, gdyż i on zakomunikowałby jej ten opis. Skrótowy, choć ekstrawagancki, opis byłby w tym przypadku najlepszą miarą informacji zawartej w zaplanowanym opowiadaniu. Skrótowość i zawartość informacyjna danego komunikatu nie oznacza jednak jego rozumienia. Trzeba też pamiętać, że ilość informacji dająca się tak efektywnie zmierzyć nie jest tożsama z jej treścią.

Zapisać wszystkie informacje

Potoczne rozumienie informacji i jej ilości jest odmienne od tego, które spotykamy w nauce. Zasadniczo zwrot "ilość informacji" kojarzymy z zasobnością (rozległością, objętością czy ważnością) jakiegoś medium, które nam coś komunikuje czy ujawnia. I tak o książce, która ma zaledwie parędziesiąt stron, powiemy, że zawiera mniej informacji niż grube, opasłe tomisko, ale też o dwóch jednakowych co do liczby stron książkach, z których pierwsza jest powieścią, a druga encyklopedią, powiemy, że druga ma więcej informacji niż pierwsza. Ilość informacji sprowadzamy do objętości, rozmiarów i wagi (nawet w dosłownym sensie tego słowa) nośnika. Jest to jednak częściowo tylko poprawne rozumienie zagadnienia ilości informacji.

Technologie informatyczne dają możliwość prawie nieograniczonego zapisu (kodowania) dowolnych danych w postaci bitów informacji. Wzrastająca moc obliczeniowa komputerów, coraz większa pamięć, łatwość przetwarzania i przesyłania informacji wydają się nie mieć granic. W zasadzie można sobie wyobrazić sytuację, kiedy wszystko, co jest treścią indywidualnego lub zbiorowego doświadczenia (to, co zobaczone, przypomniane czy wyobrażone na bieżąco czy w przyszłości) i co w jakikolwiek sposób zostanie utrwalone, może stać się informacją jednolicie zgromadzoną i ogólnie dostępną. Skrótowo mówiąc, cały wszechświat sprowadzony do czystej informacji (jakiejś gigantycznej i złożonej struktury bitów) byłby obiektem pełnego poznania i przetworzenia. Co z takiej wizji wyniknęłoby jednak dla naszego codziennego życia, które realizuje się (nie zapominajmy!) głównie w analogowym wymiarze? Czy ma ona szansę na realizację?

Prawdziwe koszty

gromadzenia informacjiDo zjawiska narastania informacji odnosi się intrygujący eksperyment przeprowadzony w laboratorium badawczym Microsoftu. Gordon Bell, mając już dosyć natłoku danych wokół siebie, postanowił zintegrować je w jednolity system informatyczny, który nazwał MyLifeBits. Składa się on z urządzeń (kamer, czujników, detektorów) kodujących każdy z sygnałów rejestrowanych przez jego ciało. W multimedialnej formie utrwalone zostaje osobiste doświadczenie eksperymentatora (na razie z sześciu ostatnich lat), które może być ujawnione dla wszystkich, którzy będą mogli i chcieli zrobić z tego jakiś użytek. Już dzisiaj system ten zajmuje 150 GB pamięci zlokalizowanej dla bezpieczeństwa w wielu urządzeniach. Do jego powstania przyczyniło się wielu ludzi, gdyż sam eksperymentator nie był w stanie sprostać temu zadaniu. Najtrudniejsze było uporządkowanie i zintegrowanie całości (ponad 300 tys. różnych pozycji) w jednolity system, tak aby można było się nim efektywnie posługiwać. Sam Bell przyznaje, że najtrudniejszą pracę wykonał jego asystent.

Myślę, że jego rola jest tu rzeczywiście kluczowa, lecz w sensie o wiele głębszym, niż on sam i jego zleceniodawca sobie wyobrazili. Asystent Bella miał faktycznie nie lada zadanie - musiał uporządkować dane i informacje swojego zleceniodawcy, co jest czynnością nie tylko uciążliwą i czasochłonną, ale w oczywisty sposób pochłonęło również sporo jego własnej informacji. Robiąc bowiem jedną czynność informacyjną (wobec zewnętrznego układu, który porządkował), wykonywał jednocześnie drugą (wobec siebie samego), która nieuchronnie była powiązana z tą pierwszą. Ostateczny bilans takiej współpracy jest kwestią bardzo złożoną i daleko inną, niż została ona przedstawiona przez samego zainteresowanego.

Jak wynika bowiem z fundamentalnych praw fizyki kwantowej, termodynamiki i algorytmicznej zawartości informacyjnej, aby wprowadzić do jakiegoś układu (w tym wypadku bazy danych MyLifeBits) pewien porządek, czyli zmniejszyć jego naturalną tendencję do rozpraszania się, czyli wzrostu entropii, trzeba do takiego układu wprowadzić inną informację (np. z programów porządkujących, z pracy asystenta). W efekcie prowadzi to do zwiększenia entropii tego, kto dokonuje tej pracy i to o wartość taką samą albo większą. Nic nie ma za darmo - uporządkowanie i przyrost informacji w jednym miejscu odbywa się kosztem nieuporządkowania i spadku ilości informacji w innym miejscu. Każdy asystent (jego modelem może być słynny demon Maxwella) pomoże uporządkować informacje, ale zawsze własnym kosztem. W dłuższej skali czasu asystent może nawet zyskać jakąś informację, czegoś się dowiedzieć i nauczyć, lecz i tak będzie musiał "oddać" te informacje w dalszej pracy porządkowania głównego układu.

Ponadto nieuchronne w takich przypadkach kopiowanie, sporządzanie zapasowych zapisów oraz wymazywanie jednych zapisów na rzecz innych prowadzi do dalszych procesów entropijnych. Wprawdzie pojemność nośników pamięci wciąż rośnie, co podkreślają ludzie i firmy z sektora komputerowego, lecz nieubłagane prawa fizyki i teorii informacji mówią, że swoistym wąskim gardłem (albo wręcz czarną dziurą) przyrastających zasobów informacji nie są materialne nośniki jej magazynowania czy przesyłania, lecz sama natura informacji. Można ją obliczyć do pewnego tylko stopnia dokładności, a z tego rachunku i tak wynika ostatecznie, że każdy przyrost informacji i jej uporządkowanie w jednym miejscu czy w danej sytuacji łączy się ze spadkiem i rozproszeniem w innych. Nic za darmo!

Optymizm entuzjastów w rodzaju Gordona Bella czy potentatów jak Microsoft Research ma tylko lokalne znaczenie. W skali globalnej, daleko wykraczającej poza internetową sieć przesyłu bitów czy gigantycznych superkomputerów, problem ilości informacji i jej pomiarów wygląda zupełnie inaczej. Nie łatwo jest dostrzec tę różnicę czy dysproporcję. Fizyka, teoria informacji i technologie komputerowe wprowadziły nowe ujęcie procesów informacyjnych, które są istotą tak samo kosmosu, wszechświata, jak i biologicznego życia, świadomości czy działania społecznego. Ujednolicone spojrzenie na procesy informacyjne pokazuje zaś, że każda informacja, mierzona bitem, czy też inną jednostką miary, da się zmierzyć z pewną tylko dokładnością, zaś przetwarzanie informacji (ale nie jej nośników) prowadzi do procesów równoczesnego wzrostu i rozpraszania, a poza tym kosztuje i ma swoją cenę.

Prof. Marek Hetmański kieruje Zakładem Ontologii i Teorii Poznania na Wydziale Filozofii i Socjologii Uniwersytetu Marii Skłodowskiej--Curie w Lublinie.
Wystaw ocenę:
   Średnia ocena (liczba głosów: 0)
wydrukuj wydrukuj wyslij do znajomegowyślij do znajomego

Komentarze

Ten artykuł nie ma jeszcze żadnych komentarzy. Twój może być pierwszy...