NINIOPERA: Co je to Google? Jak vyhledávat. Page Rank. Crawler. Indexer a Hity.

Co je to Google? Jak vyhledávat. Page Rank. Crawler. Indexer a Hity.

Vyhledávač Google
Co je GOOGLE a jak pracuje?
Vyhledávač původně navrhli Sergey Brin a Larry Page v rámci svého výzkumu na Stanfordově univerzitě, aby ověřili funkčnost svého algoritmu pro ohodnocování webových stránek PageRank. Záhy se ukázalo, že kvalita jeho výsledků natolik převyšovala tehdy dostupné vyhledávače, že je Google v krátké době předstihl v úspěšnosti hledání.

Kromě řazení výsledků podle Google PageRanku bylo v Googlu novinkou i kladení důrazu na vyhledávání frází (takže se nestávalo, že víceslovný dotaz vrátil stránky, kde se tato slova vůbec nevyskytovala pohromadě) a ukládání plného textu indexovaných stránek (které umožňovalo u výsledných stránek rovnou zobrazovat relevantní fragmenty textu).

Vyhledávání na Google
Ohodnocování výsledků dotazů nezahrnuje pouze Google PageRank, ale i pozici hledaného slova v dokumentu. Hodnocení v Google byla navrženo tak, aby žádný jednotlivý faktor nemohl mít příliš velký vliv na výsledek. Je-li vyhodnocován jednoslovný dotaz, zkoumá se seznam hitů pro dané slovo. Google má u každého hitu uložen i jeho druh (titulek, text odkazu, URL, obyčejný text velkým písmem, obyčejný text malým písmem, ...) každému druhu je pak přiřazena určitá váha. Na tyto váhy lze nahlížet jako na vektor. Stejně tak je ohodnocen počet hitů pro každý druh - ohodnocení na začátku roste lineárně s počtem, ale pak se závislost "narovnává", takže pokud počet výskytů překročí určitou mez, ohodnocení dále neroste. Skalární součin vektoru vah a vektoru ohodnocení počtu výskytů tvoří ohodnocení relevance dokumentu, jehož kombinace s Google PageRankem určí konečné pořadí dokumentu ve výsledku. Pro víceslovné dotazy je situace komplikovanější - musí se procházet několik seznamů hitů najednou, aby bylo možné ohodnocovat výsledky na základě vzdálenosti jednotlivých výskytů. Pro každou nalezenou skupinu hitů je spočítána vzdálenost výskytu všech nalezených slov v textu dokumentu (nebo odkazu), které je přiřazeno jedno z deseti ohodnocení. Počty výskytů se potom nepočítají jen pro různé druhy hitů, ale i pro každou dvojici druh - vzdálenost. Oba tyto údaje jsou převedeny na příslušná ohodnocení, a jejich skalární součin tvoří ohodnocení relevance dokumentu.

Současný Google
O technologiích, které používá současný vyhledávač Google, není známo mnoho: Google jako komerční firma uvolňuje méně informací, než v době, kdy šlo o akademický projekt. Jisté je, že celý vyhledávač je rozdělen do několika tzv. datacenter, rozmístěných po celém světě. Datacentra zodpovídají dotazy nezávisle, dotazy se mezi ně rozdělují pomocí rotace DNS záznamů (jmenné servery Google na každý dotaz vrací vstupní IP adresu jiného datacentra, vybírá je na základě geografické polohy uživatele a vytížení jednotlivých center). Datacentrum se skládá z velkého počtu "běžných" PC, používajících upravenou verzi operačního systému Linux. Takové počítače které mají lepší poměr cena/výkon než vysoce výkonné (ale současně velmi drahé) servery. Podle odhadů z dubna 2004 se v datacentrech nachází přibližně 63 tisíc počítačů, což z činí cluster Googlu nejvýkonnější na světě. Spolehlivost je zajištěna na softwarové úrovni - při výpadku je počítač vyřazen z clusteru a jeho úlohy převezme jiný.

Zdroje příjmů Google
Popularita Google umožnila jeho zakladatelům založit inzertní systém Google AdWords a Google AdSense. AdWords je v podstatě administrátorské rozhraní, které umožňuje inzerentům, kteří mají u Google založený účet a na něm vloženy finanční prostředky, vytvořit inzerát, který se pak bude zobrazovat vedle fulltextových výsledků v pravém sloupci nazvaném sponsored listings. Tento malý inzerát je svázán pevnými pravidly - má limitovaný rozsah a i jeho obsah je omezen. Inzerenti si pro každý inzerát stanoví i tzv. keywords, čili klíčová slova, po jejichž zadání do vyhledávače Google nebo některé z jeho přidružených stránek, se zobrazí právě onen inzerát. Inzerent platí Google částku, kterou si sám stanoví (min. částku stanoví Google), za každé kliknutí na jeho inzerát. Pořadí inzerátů je stanoveno systémem na základě kombinace několika faktorů - ceny za klik (cost per click) a míry prokliků (click through rate).

Sestava vyhledávače google:Informace vychází z popisu publikovaného prototypu. Protože je google tedy společnost Google Inc komerční firma nejsou z logických důvodů data a stuktura vyhledávače dostupné veřejnosti.

Crawler
Stahuje ze sítě dokumenty, které mu určí URL Server. Crawlerů běží několik paralelně, každý najednou udržuje stovky otevřených spojení k webserverům, aby nebyl zdržován čekáním na jejich odpovědi. Vzhledem k variabilitě internetového obsahu musí být crawler velice robustní a odolný vůči atypickým případům, jako jsou např. online hry.

Store server
Dokumenty od Crawleru komprimuje a ukládá do Repository. Každé stránce je přiřazen identifikátor docID (ten se generuje, kdykoliv je získáno nové URL)

Indexer
Má několik úkolů:
Parsuje dokumenty do sady tzv. hitů - každý hit zaznamená výskyt slova v dokumentu společně s jeho pozicí, kapitalizací a relativní velikostí písma, jakým je napsáno. Hity jsou ukládány do "zásobníků" (barrels), které tak tvoří částečně setříděný index.
Z parsovaných dokumentů také filtruje odkazy (anchors), které se ukládají do k tomu určeného souboru. U každého odkazu je uloženo, odkud a kam vede, a také text odkazu.

URLresolver
dále zpracovává soubor s odkazy na URL - převádí relativní cesty na absolutní URL a na docID. Tyto informace ukládá do indexu dokumentů, který mimo jiné slouží jako zdroj dat pro URL Server. Texty odkazu také přidává do indexu k dokumentu, na nějž směřují. Informace o vzájemných odkazech se používají pro výpočet PageRanku.

Třídič (sorter)
přetřiďuje index do zpětného indexu - hity místo podle docID řadí podle wordID (ID slova, které se používá v hitu). Třídič zároveň vytváří seznam použitých wordID a jejich četností, z nichž je programem DumpLexicon vytvořen nový slovník (lexicon).

Vyhledávač (searcher)
běží na webserveru a s použitím slovníku, zpětného indexu a PageRanků odpovídá na dotazy.


Zdroj: český internet informace o Google


TADY NAJDETE CO POTŘEBUJTE, JSOU TO ŠTÍTKY.....

7 000 000 776833333 ABBA ACTA AdBlock Adobe Flash Player AdSense Adware Agent Áji Aktualizace Alcatraz Alert Alex Alvarová Allison Crowe Alternativní medicina Alza AM-Deadlink Ambulance Amerika AMERIKA počítače AMOR UT LACRIMA Amundsen-Scott South Pole Station Andělé Android Angelina Werich Anonymní Anonymous Antarctica Antarktida Aplikace APPLE Apple story Aristoteles Ashampoo Astronomie ASUS N Series Ateroskleróza Audiobankomat Automatizace Backdoor Beethoven Symphony Benchmarky Bezpečnost BFU Bible Bílá růže BlackBerry Blbec a deprivace Blogeři sobě Blogger Botnet Bouře Božejáci Boží muka Brambory Brilianty Browser Addon bubble nebula Bug Opera Bůh Slunce Buněčné receptory Bylinky Cannes CANON Captcha CELINE DION Cenzura Cesta pro lásku Cestování Cruise Rekreace Dovolená Cesty Cibule Cinderella Církve Citace a inspirace Citáty Citáty a moudra Civilizace Clickbait Co je psáno CO JE TEDY FLOW? Cookie Crawler Čaj o páté ČS George Čtyřčata ČVUT Dalekohledy Databáze Datové přenosy Debaty a názory Dělání Demokracie Den pro tebe Deprese Deprivace a skupinová hloupost Deprivanti Desktop Deštivý den Děti Dětská radost Dětství Dezerty Dezinformace Diagnostika Diamanty Digitalizace Digitální demence Digitální Fotoaparáty Disk Diskuze a debaty Divoký horský tymián Dlouhá cesta Dobro a jeho světlo Dobrý voják Dobrý vtip! Donald Trump Dopisy Download Opery Mini Dr WEB Dr. Watson - chyby Dr. Watson - windows kód chyby 805306296 Drahé kameny Drogy DRONY Dvojčata a housle Editace a styl psaní příspěvků El Condor Pasa Elektronická paměť Email Energie ESET Evergreen externí disk Facebook Fake News Fantasie FAQ Často kladené otázky Feedback Fernando Lopez Filmy firewall Flame Flash Opera Firefox IE Flejberk Flirt Flow Fotky Fotografie Fullereny G mail G+ G+ notifikace v Opeře Galaxy Nexus Geek Genius loci Gif Goodbye My Lover Google Google AdSense Google Analytics Google Chrome Google instant Google TV Google+ Groupthink gug.cz Guru Hacker Haddaway hardware HELIGONKY Helikoptéra Hesla Historie History and Publicity Hněv milenců Hoax Homeless Hosting Houbaření Hovězí pečeně Hovězí pečeně na cibuli Huawei Humor Humor a vtipy Humor a vtipy nebo moudra Hvězdokupa Hvězdy Hydepark o internetu Hyperkinetická porucha hypnotika Chaos Charlie Chkdsk Chlad zimy Cholesterol Chtíc aby spal Chybová hlášení In Vino Veritas Inbox INDECT Informace Inovace Speed Dial Intel Inteligence Internet Internet a sociální pathologie člověka iOS iPad IPhone iTunes Iveta Bartošová Jak na to Jaro Jaroslav Maxmilian Kašparů Java Je to sci-fi? Jea Paul Belmondo Jen pro ten dnešní den Ježíšek Jídlo Jiří Vašíček Jít pro lásku John Denver Jordánsko Josef naše láska Judith Durham The Seekers Kachna Kalifornie Kamenný most KAMERY Kančí guláš Kapradí Kardiovaskulární zdraví Karel Kryl Karel Kryl a Láska bláznivá Karel Schwarzenberg Kariera Karikatura KASPERSKY Keep smiling Kemel Klávesové zkratky knihy Kocourek Kočička Kodová označení verzí Opery Koledy Kolotoč svět Komentář komentáře Konopka obecná Kontakty Kontrola disku a pokus opravy Kopírování Korsika Kosmos Kostival lékařský Krajina Krásné je žít Krásné ženy Krizová linka Kruh Užitečné příspěvky Křivka obecná KVĚTA FIALOVÁ Květy Kvítek jabloňový La Roux Láska Lásky čas Last Pass Lavičky Legrace Lékař Leonardo da Vinci Les Lesní jahody Léto Lež LG Líbej mě Lída Baarová Lidové písně Lidský život Life at Google Lindsey Stirling Lobing Logitech Londýn Lorem Ipsum Loudá se půlměsíc Lov Love Story Lovecký pes Lovu zdar Máj malware Maminka Manicko depresivní syndrom Marcus Tullius CICERO Marie Rottrová Maturita Medicina Meditace Memy Měsíční noc MEXICO Microsoft Milenci Mireille Mathieu Mix videa Mobilní internet Mobilní komunikace (kecálky) a ostatní Modlitba Modrá knížka Modrý sarafán Modříny Moldau Smetana Moře Motivace Motorola Moudra Moudro pro tento den Moudrost Mouse Mozilla Firefox a Chrome Mozilla Firefox Europe Můj Flow Murphyho zákony Music and Humor Myslivost MySQL Myšlenka dne Myšlenky jsou svobodné Na stojáka Naše kuchyně NATO nebo skutečnost? Nefunkční bezpečnostní hláška Nemoci Neuropsychiatrie News Nexus Nexus 7 Nikon Nikon Coolpix S8200 No milk today Novinky Novinky v hudbě NVidia O koni a Adsense O Popelce O Shenandoah O zdraví Obdiv Objala jsem ho Objevy Odinstalace lišty Ochrana soukromí Oktoberfest Once Upon A Time In The West OneNote Open Source Opera Opera 10 Alpha Portable Opera 10 Final Portable Opera 10.0 Final Opera 10.10 Unite Opera 10.60 Opera 10.63 Final Opera 11.50 Opera 11.60 Opera 11.64 Opera 12 Opera 12.02 Opera 12.12 Opera 12.50 Opera 9.5 Portable Opera extensions Opera Mini 4.4 Opera Mini 5 Opera Mini and Opera Mobile browser Opera Portable Opera Události Názory Diskuse Operační systém OperaPortable 11.64 Opravy nastavení prohlížeče Opera Opravy poškozených souborů Optika Osobnost Otčenáš Ovidius Ovladače Page Rank Paleo Paměť Panda Update Parkinson Patrick Zandl Paul Anka Diana Pavel Kysela PC Peníze Permutace Perský kocourek Sammuel Peru Petr Novák Petra Phishing Phishing neboli rybaření u Bank a Opera Pippa Pirati.cz Pirátství Pivo Placebo Počítače a notebooky Počítačová myš Poděkování Podzim Poezie Pohádka Policejní vir Policie Politika Poradna pro bloggery Google POSEDY Pošta pro vás Pozitivní myšlení Poznámky Prach a broky Pravda Prevence a zdraví Pro přehled Mapa stránek Opery Orientace Proces wuauclt.exe Prodaná nevěsta Profil Programování Prohlížeč Google Chrome Prohlížeč Opera Propagace Opery Propagace Opery Video úvod do bloggu Prostřeno Přátelé Přátelství Předehra Příroda Příroda a my Příroda kvete Přítel Psychiatrie Psychologie Psychopatie v praxi Ptáci Ptáci na zahradě Ptáček Ptačí zpěv Racek Radiová obloha Radkin Honzák Radost Radůza Rakovina prostaty (CaP) Rande Rangers Rath a sedmimilionová krabice Realizace Rebelové - Mně se líbí Bob Reklama Renata Reset Reset profilu Chrome Reset profilu Opera Rick Astley Rodina Roman Šebrle Roň slzy Router Rozdováděný hradní bača Rozšíření Opery rozšíření pro Operu Rozšíření Source pro Operu Rozum Rudý Ryby Řešení problémů Řešení problémů OPERA Římská mythologie Safari Sametová revoluce Sammuel Sammuel perský kocourek Screenshot Sdílení security Servis24 Setřídění záložek Schemer Schránka clipboard Silvestr Sites Google (weby) Skupinová hloupost Skype Sladké višně Slovensko Slunečné odpoledne Slunečné ráno Sluneční erupce a aktivita Sluneční toulky v přírodě Slunečný den Smartphone Smazání Facebooku Smích Smluvní Sněhurka Sociální patologie Sociální příčiny irracionality Sociální sítě Sociopatie Softskills Software Sokrates Solární lavička Soubory .OGG Soukromé Spam Spánek Sport Správce vyhledávačů spyware Srdce jako kámen Srnčí guláš Sršeň Stahování Start Stáří Statečnost Street View Stres Stromy studentské Suguperge! Sdígilígim naga wegeb! Svatba Světlo Svoboda Svobodný internet Syrenia Šablona proti spamu Šampaňské Škola Šperky Šťastné dětství Štěstí Švejk Švýcarský salašnický pes Tajné služby Tam na východě Technické spekulace Technologie Telefony Tenkrát Teotihuacan The Cranberries - Zombie The Moon Měsíc The New York Times Tipy Tipy a návody Translator Google Trojan Trolling Trpajzlíci Trubka Tři oříšky... Twitter U bankomatu u Křížku U řeky U vody U Zborova Učitel Unwand Upgrade USA Úsměv Úsměv Anny Úsměv pro mne Úvod a přivítání Václav Havel Vajíčka Vanessa Mae Vánoce Včela Věda Vědomí a podvědomí Velikonoce VENEZUELA Verše Verše jako píseň Veřejné mínění Veverka Videa Videa o lásce Vinná réva Virtuální prohlídka měst Viry VIVALDI Vlado Kumpan Vlastní vyhledávání Google Vlaštovka VLC Media Player Vlčí mák Vojenská služba Všímavost Vtipy Vtipy a humor Výchova Výlety Vyznání pro Pepču Vzpomínky W. A. Mozart: Turecký pochod Waldemar Matuška Warning WD My Passport Web Clipper Webové kamery Webové stránky Werich What is love When I Fall In Love Wi-Fi WINDOWS Windows 10 Windows Update WPA3 wuauclt.exe XTranslate YouTube Yuneec Breeze 4K létající kamera Yvetta Simonová Yvonne Přenosilová z-generace Zabezpečené připojení Zahrady Zajímavosti Zákon Zaláskujte se Zálohování Zamilovaný Závislost Závist Zdeněk Izer Zdeničko má Zdraví Zdraví a životní styl Zelený mužíček Zima Zlatá střední cesta Zlatá šedesátá Zlo ZLÝ KRÁLÍK Zpravodajství google Zrcadlo Zrychlení počítače? ZVĚŘINA Žebrota ŽEBŘÍKY Židovské Životospráva

Vybraný příspěvek

Na kopance odpovídáme taktéž. A tak kolem dokola ... Člověku asi je vlastní vidět svoje přednosti a u ostatních nedostatky...

Ego Kopance, arogantní poznámky, sebestřednost.  Tady není osobnost, která by měla sílu spojovat.  Chápu jak to myslíte. Ale... Člov...