Informationstandard.pl - wspomaganie decyzji - link do strony głównej
wyszukiwanie:
Podziel się opinią o serwisie

WDROŻENIA

Migracja po dwóch dekadach

Bank BGŻ wymienia - zainstalowany jeszcze w latach 90. - system BankStreet. Nowa aplikacja - Flexcube - wspomaga działania centrali.

Efekt gwarantowany

Narzędzia analityczne wydatnie poprawiają skuteczność bankowych kampanii marketingowych.

ANALIZY

Czwarta fala

Rodzaj medium będącego zarówno nośnikiem, jak i sposobem przekazywania informacji, definiuje cechy organizacji gospodarczych i ma wpływ na zarządzanie przedsiębiorstwami. W epoce multimedialnych sieci zasady powstawania i funkcjonowania tych struktur ulegają zmianie.

Do użytku służbowego

Zainstalowanie bez wiedzy pracownika oprogramowania monitorującego jego aktywność będzie naruszaniem przepisów prawa pracy.

PRODUKTY

Maszyna dla danych

Sun Oracle Database Machine v2 został oparty na sprzęcie Suna. Pierwsza wersja, która powstała jeszcze przed ogłoszeniem planów fuzji Oracle-Sun, była oparta na technologii HP.

Ma działać bez przerwy

Niektóre usługi biznesowe muszą być świadczone w trybie ciągłym, z możliwie niskim prawdopodobieństwem nieplanowanych przerw. Aby systemy IT mogły świadczyć usługi na żądanym poziomie niezawodności, muszą być do tego odpowiednio przystosowane.

popularne

Najczęściej czytane

WYWIADY

EN FACE: Sebastian Ryszard Kruk...

... pracownik naukowy Digital Enterprise Research Institute na Narodowym Uniwersytecie Irlandzkim i wykładowca na Politechnice Gdańskiej, autor pracy doktorskiej na temat semantycznych bibliotek cyfrowych, twórca start-upu Knowledge Hives i Szkoły Web 3.0.

Coraz więcej inteligencji

Rozmowa z Nickiem Pachnosem, szefem działu rozwiązań na platformę mainframe w BMC Software.

Luksusowa analiza

Stephen Brobst, Chief Technology Officer w Teradata, rozmawiał z nami na temat rynku business intelligence.

powiększ tekst >
ARCHIWUM

Rozpoznawanie na dużą skalę

7 kwietnia 2009

Marcin Marciniak
Optyczne rozpoznawanie znaków, czyli OCR, powszechnie kojarzy się z oprogramowaniem na stacji roboczej. Gdy jednak dokumentów jest dużo, wystarczającą wydajność zapewni jedynie OCR klasy enterprise pracujący na serwerze lub w urządzeniu.


Computerworld Biurkowy skaner oraz oprogramowanie OCR jest standardowym zestawem do skanowania dokumentów w małej firmie. Dlatego właśnie technologia ta jest postrzegana jako istotny dodatek do skanera, "odzyskujący" treść. Gdy firma skanuje bardzo wiele dokumentów, stosuje się zupełnie inne rozwiązania. Skanery są przystosowane do przetwarzania w sposób zautomatyzowany, podajnik mieści kilkaset kartek, a urządzenie skanuje naraz obie strony albo posiada duplekser odwracający kartkę. Masowe skanowanie dokumentów wymaga także bardzo sprawnego OCR-u, który automatycznie wykona dekompozycję strony na bloki tekstu i obrazy, rozpozna ich orientację i formatowanie, rozpozna tabele i zależności między blokami tekstu, a następnie przetworzy znaki na tekst. Ponieważ litery w skanowanym dokumencie nigdy nie są idealnym odwzorowaniem czcionki użytej do wydruku, tekst wynikowy może zawierać błędy. Nowoczesne motory OCR wykorzystują słowniki ortograficzne danego języka, by na podstawie porównań ustalić najbardziej prawdopodobne słowo.

Należy pamiętać, że nie wszystkie motory OCR prawidłowo rozpoznają tekst w języku polskim. Problemy wynikają z tego, że polski alfabet jest bogatszy niż łaciński - zawiera znaki diakrytyczne, które nie zawsze są prawidłowo rozpoznawane przez rozwiązanie dostosowane do języków zachodnich. Obecnie wszystkie pakiety oprogramowania sprzedawane w Polsce wspierają rozpoznawanie zdań w naszym języku, ale nie zawsze wykorzystują poprawnie słownik. W przypadku OCR wbudowanego w urządzenia (skanery, kopiarki z opcją skanowania dokumentów, maszyny wielofunkcyjne) nie zawsze tak jest. Nie zawsze moduły takie radzą sobie z dokumentami zawierającymi znaki specjalne z różnych języków. Przy skanowaniu dokumentów czasami trzeba włączyć rozpoznawanie znaków charakterystycznych dla danej języka, gdyż wybór alfabetu i języka nie działa automatycznie.

80
stron na minutę potrafi przeskanować i przetworzyć biurowy skaner, wykonując przy tym operacje OCR.
Typowym formatem powstałego pliku jest PDF, który może zawierać dodatkowo warstwę tekstową. Powstaje ona w wyniku obróbki OCR, polegającej na przetwarzaniu zawartości tekstowej i dołączonej do PDF-a jako przezroczysta treść. Taki dokument, zwany przeszukiwalnym, może być zaimportowany do systemu obiegu dokumentów, by jego treść mogła być zaindeksowana w wyszukiwarce. Niekiedy użytkownicy wybierają inny format (RTF, DOC, XLS), by móc takie dokumenty obrabiać w edytorze tekstu czy arkuszu kalkulacyjnym.

Wystaw ocenę:
   Średnia ocena (liczba głosów: 1)
wydrukuj wydrukuj wyslij do znajomegowyślij do znajomego

Komentarze

Ten artykuł nie ma jeszcze żadnych komentarzy. Twój może być pierwszy...