Co je to Google? Jak vyhledávat. Page Rank. Crawler. Indexer a Hity.

Vyhledávač Google
Co je GOOGLE a jak pracuje?
Vyhledávač původně navrhli Sergey Brin a Larry Page v rámci svého výzkumu na Stanfordově univerzitě, aby ověřili funkčnost svého algoritmu pro ohodnocování webových stránek PageRank. Záhy se ukázalo, že kvalita jeho výsledků natolik převyšovala tehdy dostupné vyhledávače, že je Google v krátké době předstihl v úspěšnosti hledání.

Kromě řazení výsledků podle Google PageRanku bylo v Googlu novinkou i kladení důrazu na vyhledávání frází (takže se nestávalo, že víceslovný dotaz vrátil stránky, kde se tato slova vůbec nevyskytovala pohromadě) a ukládání plného textu indexovaných stránek (které umožňovalo u výsledných stránek rovnou zobrazovat relevantní fragmenty textu).

Vyhledávání na Google
Ohodnocování výsledků dotazů nezahrnuje pouze Google PageRank, ale i pozici hledaného slova v dokumentu. Hodnocení v Google byla navrženo tak, aby žádný jednotlivý faktor nemohl mít příliš velký vliv na výsledek. Je-li vyhodnocován jednoslovný dotaz, zkoumá se seznam hitů pro dané slovo. Google má u každého hitu uložen i jeho druh (titulek, text odkazu, URL, obyčejný text velkým písmem, obyčejný text malým písmem, ...) každému druhu je pak přiřazena určitá váha. Na tyto váhy lze nahlížet jako na vektor. Stejně tak je ohodnocen počet hitů pro každý druh - ohodnocení na začátku roste lineárně s počtem, ale pak se závislost "narovnává", takže pokud počet výskytů překročí určitou mez, ohodnocení dále neroste. Skalární součin vektoru vah a vektoru ohodnocení počtu výskytů tvoří ohodnocení relevance dokumentu, jehož kombinace s Google PageRankem určí konečné pořadí dokumentu ve výsledku. Pro víceslovné dotazy je situace komplikovanější - musí se procházet několik seznamů hitů najednou, aby bylo možné ohodnocovat výsledky na základě vzdálenosti jednotlivých výskytů. Pro každou nalezenou skupinu hitů je spočítána vzdálenost výskytu všech nalezených slov v textu dokumentu (nebo odkazu), které je přiřazeno jedno z deseti ohodnocení. Počty výskytů se potom nepočítají jen pro různé druhy hitů, ale i pro každou dvojici druh - vzdálenost. Oba tyto údaje jsou převedeny na příslušná ohodnocení, a jejich skalární součin tvoří ohodnocení relevance dokumentu.

Současný Google
O technologiích, které používá současný vyhledávač Google, není známo mnoho: Google jako komerční firma uvolňuje méně informací, než v době, kdy šlo o akademický projekt. Jisté je, že celý vyhledávač je rozdělen do několika tzv. datacenter, rozmístěných po celém světě. Datacentra zodpovídají dotazy nezávisle, dotazy se mezi ně rozdělují pomocí rotace DNS záznamů (jmenné servery Google na každý dotaz vrací vstupní IP adresu jiného datacentra, vybírá je na základě geografické polohy uživatele a vytížení jednotlivých center). Datacentrum se skládá z velkého počtu "běžných" PC, používajících upravenou verzi operačního systému Linux. Takové počítače které mají lepší poměr cena/výkon než vysoce výkonné (ale současně velmi drahé) servery. Podle odhadů z dubna 2004 se v datacentrech nachází přibližně 63 tisíc počítačů, což z činí cluster Googlu nejvýkonnější na světě. Spolehlivost je zajištěna na softwarové úrovni - při výpadku je počítač vyřazen z clusteru a jeho úlohy převezme jiný.

Zdroje příjmů Google
Popularita Google umožnila jeho zakladatelům založit inzertní systém Google AdWords a Google AdSense. AdWords je v podstatě administrátorské rozhraní, které umožňuje inzerentům, kteří mají u Google založený účet a na něm vloženy finanční prostředky, vytvořit inzerát, který se pak bude zobrazovat vedle fulltextových výsledků v pravém sloupci nazvaném sponsored listings. Tento malý inzerát je svázán pevnými pravidly - má limitovaný rozsah a i jeho obsah je omezen. Inzerenti si pro každý inzerát stanoví i tzv. keywords, čili klíčová slova, po jejichž zadání do vyhledávače Google nebo některé z jeho přidružených stránek, se zobrazí právě onen inzerát. Inzerent platí Google částku, kterou si sám stanoví (min. částku stanoví Google), za každé kliknutí na jeho inzerát. Pořadí inzerátů je stanoveno systémem na základě kombinace několika faktorů - ceny za klik (cost per click) a míry prokliků (click through rate).

Sestava vyhledávače google:Informace vychází z popisu publikovaného prototypu. Protože je google tedy společnost Google Inc komerční firma nejsou z logických důvodů data a stuktura vyhledávače dostupné veřejnosti.

Crawler
Stahuje ze sítě dokumenty, které mu určí URL Server. Crawlerů běží několik paralelně, každý najednou udržuje stovky otevřených spojení k webserverům, aby nebyl zdržován čekáním na jejich odpovědi. Vzhledem k variabilitě internetového obsahu musí být crawler velice robustní a odolný vůči atypickým případům, jako jsou např. online hry.

Store server
Dokumenty od Crawleru komprimuje a ukládá do Repository. Každé stránce je přiřazen identifikátor docID (ten se generuje, kdykoliv je získáno nové URL)

Indexer
Má několik úkolů:
Parsuje dokumenty do sady tzv. hitů - každý hit zaznamená výskyt slova v dokumentu společně s jeho pozicí, kapitalizací a relativní velikostí písma, jakým je napsáno. Hity jsou ukládány do "zásobníků" (barrels), které tak tvoří částečně setříděný index.
Z parsovaných dokumentů také filtruje odkazy (anchors), které se ukládají do k tomu určeného souboru. U každého odkazu je uloženo, odkud a kam vede, a také text odkazu.

URLresolver
dále zpracovává soubor s odkazy na URL - převádí relativní cesty na absolutní URL a na docID. Tyto informace ukládá do indexu dokumentů, který mimo jiné slouží jako zdroj dat pro URL Server. Texty odkazu také přidává do indexu k dokumentu, na nějž směřují. Informace o vzájemných odkazech se používají pro výpočet PageRanku.

Třídič (sorter)
přetřiďuje index do zpětného indexu - hity místo podle docID řadí podle wordID (ID slova, které se používá v hitu). Třídič zároveň vytváří seznam použitých wordID a jejich četností, z nichž je programem DumpLexicon vytvořen nový slovník (lexicon).

Vyhledávač (searcher)
běží na webserveru a s použitím slovníku, zpětného indexu a PageRanků odpovídá na dotazy.


Zdroj: český internet informace o Google


Základní jednotkou ukládané informace je jeden bit (binary digit), jedna dvojková číslice. Tato číslice může nabývat dvou hodnot, které nazýváme „logická nula“ a „logická jednička“.

Počítač a my 
Paměť v elektronice
Elektronická paměť je součástka, zařízení nebo materiál, který umožní uložit obsah informace (zápis do paměti), uchovat ji po požadovanou dobu a znovu ji získat pro další použití (čtení paměti). Informace je obvykle vyjádřena jako číselná hodnota, nebo je nositelem informace modulovaný analogový signál. Pro své vlastnosti se používá binární (dvojková) číselná soustava, která má pouze dva stavy, které se snadno realizují v elektronických obvodech. Pro uchování informace tedy stačí signál (např. elektrické napětí), který má dva rozlišitelné stavy a není třeba přesně znát velikost signálu.

Základní jednotkou ukládané informace je jeden bit (binary digit), jedna dvojková číslice. Tato číslice může nabývat dvou hodnot, které nazýváme „logická nula“ a „logická jednička“. Logická hodnota bitu může být reprezentována různými fyzikálními veličinami:
přítomnost nebo velikost elektrického náboje
stav elektrického obvodu (otevřený tranzistor)
směr nebo přítomnost magnetického toku (pro kódování informace do mag. toku se častěji používají složitější modulace)
různá propustnost nebo odrazivost světla
Cache 
pro urychlení komunikace s pamětí
rychlá statická paměť
u novějších procesorů velikost stovky kB az MB
více úrovní, přičemž číslo určuje vzdálenost od procesoru
L1 – typicky přímo na procesoru
L2 – například na destičce s procesorem (tzv. boxované procesory)
L3 – na základní desce
write through – data se zapisují ihned (čeká se na dokončení zápisu)
write back – data se zapisují později (na dokončení zápisu se nečeká)
Operační paměť RAM
pomalejší než procesor, ale rychlejší, než ostatní vnitřní paměťi
velikost desítky až stovky MB (až GB)
u Von Neumannova schéma počítače použita pro program i pro data
typicky dynamická paměť
Vnější paměť
Sekundární paměti 
Pevný disk
je na nich systém souborů (struktura adresářů)
obsahuje obvykle statickou nebo dynamickou cache pro urychlení čtení/zápisu
Terciární paměti 
zařízení k zálohování dat
CD a DVD, Optické disky, …

>>>>    informace z Wikipedie - http://cs.wikipedia.org/wiki/Elektronická_paměť


Internet je obrovská spousta informací, každý uživatel si může nějakým způsobem je konfigurovat sám. Těžko půjde internet nějak řídit, je to evoluce.

Online mobilní internet pro všechny
Myšlenky a postřehy o vývoji i budoucnosti  internetu.
Rychlý vývoj.
Sociální sítě a Absence autorit.
Dnes jsou populární autoři, celebrity, ale role autority neexistuje. Nenajde se autor, který nějakým způsobem formuje společnost.
Je anonymita a nikdo nic neznamená.

Vědecká práce je hodně založena na debatě.
Pokud má někdo vlohy, tak internetu mu pomáhá (neškodí)
Internet je obrovská spousta informací, každý uživatel si může nějakým způsobem je konfigurovat sám.
-
Za pár let internet jak ho známe dnes, bude zastaralý a bude převálcován nějakými mobilními zařízeními. Na smartphonu už vznikají jiné cesty.
Těžko půjde internet nějak řídit, je to evoluce. Zákazy nic nevyřeši. Najdou se způsoby jak obejít.

Jedině zakázat.
Nebo Zrušit.


Poznámka: Ovšem jak známo, Google zpeněží všechno co se kolem datového toku na internetu vyskytuje. Zábava i vědecké a populární informace, obrázky i videa. Geotagy i pohyb uživatelů. A co ještě přijde?


Zdroj: V diskuzi byly zachyceny úryvky myšlenek i úvah CT24 klávesnicí autora (Ondřej Neff)

Nereagujte na emailové zprávy, které jste obdrželi od neznámých adresátů, nebo na zprávy s podezřelým názvem či obsahem.

Phishing
Buďte obezřetní při používání svého internetového bankovnictví i mobilního telefonu a chraňte tak své peníze před podvodníky v internetovém světě. Je nezbytné si uvědomit, že mobil i počítač jsou prvním bezpečnostním klíčem k vašemu internetovému bankovnictví.

Věnujte zvýšenou pozornost emailovým zprávám, které dostáváte

Nereagujte na emailové zprávy, které jste obdrželi od neznámých adresátů, nebo na zprávy s podezřelým názvem či obsahem. Pokud takový podvodný email obdržíte, neodpovídejte na něj, neklikejte na vložené odkazy, neotevírejte přílohy. Útočníci toho mohou zneužít a nainstalovat do vašeho počítače škodlivý program, pomocí kterého následně mohou získat vaše citlivé bezpečnostní údaje. Česká spořitelna nikdy neoslovuje klienty v otázkách bezpečnosti emailem a nikdy po nich touto cestou nevyžaduje osobní ani bezpečnostní údaje.
Nereagujte na výzvy k instalaci bezpečnostní aplikace
Váš mobilní telefon je důležitý bezpečnostní prostředek při používání internetového bankovnictví, a proto ho pečlivě chraňte. Nereagujte na výzvy k instalaci bezpečnostní mobilní aplikace z emailu, SMS zprávy či z internetových stránek. Nabídka může být podvržená virem, který máte ve svém počítači. Instalujte si aplikace výhradně z oficiálních obchodů (App store, Google play a Windows phone store) - Nikdy neinstalujte do svých počítačů programy ze zdrojů, které nemáte prověřeny.
Mějte správně nastavený svůj "chytrý" mobilní telefon
"Chytrý" telefon obsahuje operační systém podobně jako počítač. Je tedy nutné při jeho používání být více obezřetný a dbát na bezpečnost. Nepoužívejte programové úpravy svého chytrého mobilního telefonu, které umožňují plný administrátorský přístup. U telefonů se systémem Android zakažte "instalaci z neznámých zdrojů". Touto úpravou si zajistíte, že si stahujete a instalujete aplikace pouze z oficiálního úložiště.
Dodržujte základní bezpečnostní pravidla
Chraňte svůj počítač
Chraňte si svoje bezpečnostní údaje
a) Heslo - Nikdy nesdělujte svoje bezpečnostní údaje dalším osobám a nevkládejte je do aplikací, pokud nemáte jistotu, že pracujete na stránkách www.servis24.cz
b) Autorizační SMS - Před zadáním kódu důsledně zkontrolujte uvedené údaje a potvrďte si tak, že se jedná o vámi zadanou transakci. Autorizační kód z SMS zprávy nikdy nikomu nesdělujte ani nepřeposílejte!
Chraňte si svůj počítač i mobilní telefon
a) Používejte podporovaný operační systém a internetový prohlížeč - instalujte pravidelné bezpečnostní záplaty a balíčky, které výrobce doporučuje.
b) Používejte antivirový program - instalujte pravidelné aktualizace
V případě, že zaznamenáte nezvyklé chování ve svém internetovém bankovnictví, např. zmíněné nabízení instalace bezpečnostní aplikace do mobilního telefonu, neprodleně kontaktujte bezplatnou informační linku České spořitelny 800 207 207
.
Podívejte se na Zásady bezpečného používání Internetbankingu
na https://www.csas.cz/bezpecnostnidesatero
a na video, jak bezpečně používat internetové bankovnictví na https://www.yo utube.com/watch?v=sQAd58te3yo

Sledujte i naše internetové stránky www.csas.cz/phishing, kde naleznete základní informace o phishingu.


Jak na Google? Jak to hledání funguje? Co o tom víme?

Vyhledávač Google
Co je GOOGLE a jak pracuje? 

Vyhledávání na Google
Ohodnocování výsledků dotazů nezahrnuje pouze Google PageRank, ale i pozici hledaného slova v dokumentu. Hodnocení v Google byla navrženo tak, aby žádný jednotlivý faktor nemohl mít příliš velký vliv na výsledek. Je-li vyhodnocován jednoslovný dotaz, zkoumá se seznam hitů pro dané slovo. Google má u každého hitu uložen i jeho druh (titulek, text odkazu, URL, obyčejný text velkým písmem, obyčejný text malým písmem, ...) každému druhu je pak přiřazena určitá váha. Na tyto váhy lze nahlížet jako na vektor. Stejně tak je ohodnocen počet hitů pro každý druh - ohodnocení na začátku roste lineárně s počtem, ale pak se závislost "narovnává", takže pokud počet výskytů překročí určitou mez, ohodnocení dále neroste. Skalární součin vektoru vah a vektoru ohodnocení počtu výskytů tvoří ohodnocení relevance dokumentu, jehož kombinace s Google PageRankem určí konečné pořadí dokumentu ve výsledku. Pro víceslovné dotazy je situace komplikovanější - musí se procházet několik seznamů hitů najednou, aby bylo možné ohodnocovat výsledky na základě vzdálenosti jednotlivých výskytů. Pro každou nalezenou skupinu hitů je spočítána vzdálenost výskytu všech nalezených slov v textu dokumentu (nebo odkazu), které je přiřazeno jedno z deseti ohodnocení. Počty výskytů se potom nepočítají jen pro různé druhy hitů, ale i pro každou dvojici druh - vzdálenost. Oba tyto údaje jsou převedeny na příslušná ohodnocení, a jejich skalární součin tvoří ohodnocení relevance dokumentu.

Současný Google
O technologiích, které používá současný vyhledávač Google, není známo mnoho: Google jako komerční firma uvolňuje méně informací, než v době, kdy šlo o akademický projekt. Jisté je, že celý vyhledávač je rozdělen do několika tzv. datacenter, rozmístěných po celém světě. Datacentra zodpovídají dotazy nezávisle, dotazy se mezi ně rozdělují pomocí rotace DNS záznamů (jmenné servery Google na každý dotaz vrací vstupní IP adresu jiného datacentra, vybírá je na základě geografické polohy uživatele a vytížení jednotlivých center). Datacentrum se skládá z velkého počtu "běžných" PC, používajících upravenou verzi operačního systému Linux. Takové počítače které mají lepší poměr cena/výkon než vysoce výkonné (ale současně velmi drahé) servery. Podle odhadů z dubna 2004 se v datacentrech nachází přibližně 63 tisíc počítačů, což z činí cluster Googlu nejvýkonnější na světě. Spolehlivost je zajištěna na softwarové úrovni - při výpadku je počítač vyřazen z clusteru a jeho úlohy převezme jiný.

Zdroje příjmů Google
Popularita Google umožnila jeho zakladatelům založit inzertní systém Google AdWords a Google AdSense. AdWords je v podstatě administrátorské rozhraní, které umožňuje inzerentům, kteří mají u Google založený účet a na něm vloženy finanční prostředky, vytvořit inzerát, který se pak bude zobrazovat vedle fulltextových výsledků v pravém sloupci nazvaném sponsored listings. Tento malý inzerát je svázán pevnými pravidly - má limitovaný rozsah a i jeho obsah je omezen. Inzerenti si pro každý inzerát stanoví i tzv. keywords, čili klíčová slova, po jejichž zadání do vyhledávače Google nebo některé z jeho přidružených stránek, se zobrazí právě onen inzerát. Inzerent platí Google částku, kterou si sám stanoví (min. částku stanoví Google), za každé kliknutí na jeho inzerát. Pořadí inzerátů je stanoveno systémem na základě kombinace několika faktorů - ceny za klik (cost per click) a míry prokliků (click through rate).

Sestava vyhledávače google:
Informace vychází z popisu publikovaného prototypu. Protože je google tedy společnost Google Inc komerční firma nejsou z logických důvodů data a stuktura vyhledávače dostupné veřejnosti.

Crawler
Stahuje ze sítě dokumenty, které mu určí URL Server. Crawlerů běží několik paralelně, každý najednou udržuje stovky otevřených spojení k webserverům, aby nebyl zdržován čekáním na jejich odpovědi. Vzhledem k variabilitě internetového obsahu musí být crawler velice robustní a odolný vůči atypickým případům, jako jsou např. online hry.

Store server
Dokumenty od Crawleru komprimuje a ukládá do Repository. Každé stránce je přiřazen identifikátor docID (ten se generuje, kdykoliv je získáno nové URL)

Indexer
Má několik úkolů:
Parsuje dokumenty do sady tzv. hitů - každý hit zaznamená výskyt slova v dokumentu společně s jeho pozicí, kapitalizací a relativní velikostí písma, jakým je napsáno. Hity jsou ukládány do "zásobníků" (barrels), které tak tvoří částečně setříděný index.
Z parsovaných dokumentů také filtruje odkazy (anchors), které se ukládají do k tomu určeného souboru. U každého odkazu je uloženo, odkud a kam vede, a také text odkazu.

URLresolver
dále zpracovává soubor s odkazy na URL - převádí relativní cesty na absolutní URL a na docID. Tyto informace ukládá do indexu dokumentů, který mimo jiné slouží jako zdroj dat pro URL Server. Texty odkazu také přidává do indexu k dokumentu, na nějž směřují. Informace o vzájemných odkazech se používají pro výpočet PageRanku.

Třídič (sorter)
přetřiďuje index do zpětného indexu - hity místo podle docID řadí podle wordID (ID slova, které se používá v hitu). Třídič zároveň vytváří seznam použitých wordID a jejich četností, z nichž je programem DumpLexicon vytvořen nový slovník (lexicon).

Vyhledávač (searcher)
běží na webserveru a s použitím slovníku, zpětného indexu a PageRanků odpovídá na dotazy.


Zdroj: český internet informace o Google


Related Posts Plugin for WordPress, Blogger...

TADY NAJDETE VĚCÍ, JSOU TO ŠTÍTKY

AdBlock Adobe Flash Player AdSense Agent Aktualizace Alert Alternativní medicina AM-Deadlink AMERIKA počítače Android Anonymní Anonymous Aplikace APPLE Apple story Ashampoo Astronomie ASUS N Series Audiobankomat Benchmarky BFU Blbec a deprivace Blogger Browser Addon CANON Citace a inspirace Citáty a moudra Crawler ČVUT Databáze Datové přenosy Desktop Diagnostika Digitalizace Digitální Fotoaparáty Disk Dobrý vtip Download Opery Mini Dr. Watson - chyby Dr. Watson - windows kód chyby 805306296 Elektronická paměť Email externí disk Facebook FAQ Často kladené otázky Feedback firewall Flash Opera Firefox IE Flirt Fotky Fullereny G+ Galaxy Nexus Geek Gif Google Google+ Hacker hardware Hesla History and Publicity Hosting Humor a vtipy Hydepark o internetu Chkdsk Chybová hlášení Inbox INDECT Informace Inovace Speed Dial Intel Internet Internet a sociální pathologie člověka iOS iPad iTunes Jak na to Java knihy Kočička Kodová označení verzí Opery komentáře Kontrola disku a pokus opravy Láska LG Logitech Lorem Ipsum Lov Lovu zdar malware Microsoft Mobilní internet Mobilní komunikace (kecálky) a ostatní Motorola Mouse Mozilla Firefox a Chrome Mozilla Firefox Europe Myslivost MySQL NATO Nemoci Nexus Nexus 7 Nikon Coolpix S8200 Novinky NVidia O koni a Adsense Odinstalace lišty Ochrana soukromí Oktoberfest Open Source Opera Opera 10 Alpha Portable Opera 10 Final Portable Opera 10.0 Final Opera 10.10 Unite Opera 10.60 Opera 10.63 Final Opera 11.50 Opera 11.60 Opera 11.64 Opera 12 Opera 12.02 Opera 12.12 Opera 12.50 Opera 9.5 Portable Opera extensions Opera Mini 4.4 Opera Mini 5 Opera Mini and Opera Mobile browser Opera Portable Opera Události Názory Diskuse OperaPortable 11.64 Opravy nastavení prohlížeče Opera Opravy poškozených souborů Page Rank Paleo Panda Update PC Phishing Phishing neboli rybaření u Bank a Opera Pivo Počítače a notebooky Počítačová myš Policejní vir Poradna pro bloggery Google Pro přehled Mapa stránek Opery Orientace Profil Prohlížeč Google Chrome Prohlížeč Opera Propagace Opery Propagace Opery Video úvod do bloggu Radiová obloha Rakovina prostaty (CaP) Reklama Reset Reset profilu Chrome Reset profilu Opera Router Rozdováděný hradní bača rozšíření pro Operu Rozšíření Source pro Operu Řešení problémů OPERA Safari security Setřídění záložek Sites Google (weby) Smartphone Smluvní Sociální sítě Software Solární lavička Soukromé Spam Správce vyhledávačů spyware Start Svoboda Šablona proti spamu Tajné služby Tam na východě Telefony Tipy a návody Translator Google Trojan Twitter Unwand Upgrade Úvod a přivítání Věda Videa Viry VIVALDI Vlastní vyhledávání Google Warning Webové kamery Webové stránky WINDOWS Windows 10 Windows Update wuauclt.exe XTranslate Zabezpečené připojení Zajímavosti Zálohování Zdraví a životní styl Zpravodajství google

Přejděte na další skvělé stránky autorů