👋 Nový obsah na borekb.cz

Info Tento blog je v "read-only módu" a nový obsah již nebude přibývat. O vývoji píšu na DevBlog.

Google začíná být příliš chytrý

Google má dvě zásadní vlastnosti, díky kterým boduje: zaprvé dobře hledá a zadruhé je velmi rychlý, ať už v hledání nebo v načítání stránky. Bohužel poslední dobou začíná mít i celkem výraznou třetí vlastnost: je příliš chytrý.

Co tím mám na mysli? Google například ve výsledcích hledání preferuje stránky psané v českém jazyce (při použití „českého“ Googlu), což je samo o sobě možná i celkem užitečné, ale

  1. Google mě nijak neinformuje, že upravil své hodnocení stránek tak, aby byly preferovány česky psané weby.
  2. Neexistuje jednoduchý způsob, jak se dostat na „normální“ výsledky hledání.

Jinými slovy, Google změnil svůj algoritmus vyhledávání, neinformoval mě o tom a dokonce mi ani nedává jednoduchou možnost se vrátit ke standardním výsledkům vyhledávání. Google je přesvědčem, že ví, jaké výsledky jsou pro mě nejlepší.

Zajímavé je taky to, že do výsledků vyhledávání Google čas od času přidá některé výsledky ze svých dalších služeb, třeba z prohledávání knih, obrázků nebo finančních informací. Ivo Jansch v článku Google starting to think for me? uvádí příklad s autem Pagani Zonda a Jennifer Aniston, kde se v prvním případě nad výsledky vyhledávání zobrazovaly obrázky, zatímco u Jennifer Aniston se zobrazovaly novinky. Google rozhodl. Dnes už jsou i u Jennifer obrázky, takže se asi Google začal rozhodovat jinak. Pointou je, že Google sám řídí, co uvidím a co ne, navíc způsobem, který není vůbec průhledný.

Nemám rád, když stroj myslí za mě, a Google to začíná dělat víc a víc. Nemám nic proti preferování národních stránek nebo přidávání obrázků do výsledků vyhledávání, ale chci nad tím mít kontrolu.

Související:

Zařazeno do kategorií |
Tomáš Kučera (Út, 2006-04-04 15:41):

I ja si toho vsiml a take mi to vadi. Proto pouzivam prepsani kousku retezce v URL: http://www.go­ogle.com/sear­ch?… bych prepsal na http://www.go­ogle.com/sear­ch?…

jednoduse receno zmenit zkratku jazyka (cz > en)

Mimochodem je zajimavosti, ze google oznaci na doatz „seo“ i text „search engine optimization“ :-)

jilm (Út, 2006-04-04 15:46):

Přesně tak, to preferování českých výsledků mě donutilo nastavit si anglické prostředí, abych dostával skutečně to, co chci. Nechápu, proč když si uživatel může nastavit „Hledat ve světě“ nebo „Hledat české stránky“, proč mu to tu češtinu cpe i do hledání ve světě.

Stejně tak nechápu, jak může fungovat personalizace vyhledávání, když se objevuje i na dotazy, které jsem nikdy předtím nehledal. Ale třeba to Google nějak umí. :-)

Naopak ty OneBox odkazy mi připadají dobré. Google vychází z toho, že lidé nechtějí vyplňovat 10 různých formulářů když hledají 10 různých druhů dokumentů. Proto když hledám jannifer aniston, asi často chci její fotku či zprávy o ní. Když hledám los angeles toronto flights, asi chci letenku, nebo informace o nich. Když hledám new york map, asi chci mapu. Když hledám GOOG, chci burzovní informace o Googlu. Když hledám jobs in toronto, chci práci v Torontu a již brzy se na podobné dotazy začnou objevovat inzeráty z Google Base. Zkrátka OneBox je způsob, jak usnadnit uživateli život (a samozřejmě jej také poslat na další své služby). IMHO je to budoucnost vyhledávání, vyhledávače si budou domýšlet stále více a více a časem „klasické výsledky“ ustoupí do pozadí, stejně jako SEO.

Mimochodem mně se to zdá spíše jako ústup strojového myšlení – stroj jsou mechanické výsledky podle nastavených vah. OneBoxy naopak mají pevně danou, nadefinovanou podobu podle toho, co si autoři Googlu myslejí, že právě tímto dotazem máte na mysli.

Josef Rousek (Út, 2006-04-04 15:50):

Google se mi zdá takový „vlezlý“. Chtělo by to dvě verze:

  1. Pro normální lid. Těm se to určitě líbí.
  2. Normální. Bez těchto nesmyslů.

A také je dobré občas zkusit MSN.com

Radim Smička (Út, 2006-04-04 15:52):

Google prostě začíná být příliš velký. V Evropě má v řadě zemí téměř monopol a to nikdy nepřináší nic dobrého. Ty výsledky se převážně upravují podle jazyka rozhraní, což lze v nastavení změnit.

Jakub Vrána (St, 2006-04-05 07:43):

Nemám rád, když stroj myslí za mě

V tom případě bys měl nejlepší použít starou dobrou AltaVistu, která řadila výsledky podle abecedy. Nejlepší vlastností Googlu je právě to, že se snaží pochopit, jaké stránky jsou relevantní. Jeden z faktorů, který do toho zasahuje, je i jazyk stránky. Samozřejmě bys mohl chtít udělat personalizovaný Google, kde by sis zaškrtl, co je pro tebe důležité (on-page, off-page faktory, PageRang, jazyk a co já vím co ještě), ale jednak by byl problém to spočítat, jednak by to většina uživatelů asi nevyužila a jednak by v tom byl větší zmatek – každému by se zobrazovalo něco jiného a optimalizátoři stránek by měli v ruce příliš silnou zbraň.

Informační boxíky pracují na stejném principu – pokud je relevance výsledků z jiných oblastí nad určitou hranici, tak se zobrazí, jinak ne.

A ještě jedna poznámka: žádné „normální“ výsledky neexistují. České rozhraní preferuje české stránky, anglické zase anglické. Jazyk stránky je prostě jeden z faktorů na určení relevance stránky a já to považuji za výhodu.

Borek (St, 2006-04-05 08:48):

2 Jakub Vrána: Já preferování českých stránek nekritizuju – vím, jak se toho zbavit, ale nedělám to, protože to pro mě je užitečná funkce. Kritizuju fakt, že mi Google o změně pořadí výsledků nedává vědět a ani mi nedává jednoduchou možnost, jak se dostat na „celosvětové“ výsledky. Vždyť jsem dal „Prohledat internet“ a takhle mám dojem, že třeba o M6VA se píše jen u nás.

žádné „normální“ výsledky neexistují

Podle mě existují. Každá stránka má svůj PageRank a „normální“ výsledky jsou takové, které řadí výsledky podle tohoto PR. Já nepožaduju, abych měl přístup k nastavení kdejakých detailů a mohl si algoritmus PR upravit podle svého – od toho tu je Google, věřím, že svou práci dělá dobře. Ale když k PR začne míchat ještě jakousi zcela magickou úpravu pořadí výsledků, ačkoliv jsem chtěl prohledat celý internet, zdá se mi, že něco není v pořádku.

Jakub Vrána (St, 2006-04-05 10:57):

PageRank je pro každou stránku jedna hodnota. Kdyby se řadilo pouze podle PageRanku, tak by na libovolný dotaz vyjížděly stránky jako Microsoft, Google, W3C,…. Výsledky se řadí podle mnoha faktorů – PageRanku, on-page faktorů (co je na stránce napsané), off-page faktorů (jaké odkazy na stránku směřují), jazyka a jistě i dalších kritérií.

Výsledky nezávislé na jazyku neexistují nebo o nich alespoň nevím. „Celosvětové“ výsledky jsou ve skutečnosti optimalizované na angličtinu stejně jakou jsou české optimalizované na češtinu. Optimalizaci podle jazyka považuji za velice užitečnou (na korejských stránkách se toho moc nedozvím). Jistě by se dalo vypnutí tohoto kritéria (nebo naopak zaškrtnutí všech jazyků, které ovládám) povolit, ale se všemi úskalími, která už jsem zmiňoval.

Stejně tak, jako Google nepopisuje, že na slova v TITLE dává o 20 % větší váhu než na slova na stránce, tak ani nepopisuje, jak moc zvýhodňuje stránky ve stejném jazyce, a nedovoluje to změnit.

Borek (St, 2006-04-05 12:33):

Kdyby se řadilo pouze podle PageRanku, tak by na libovolný dotaz vyjížděly stránky jako Microsoft, Google, W3C,….

To je trochu zvláštní úvaha. Každý vyhledávač samozřejmě funguje tak, že nejdřív vrátí nějakou množinu dokumentů odpovídajících dotazu a teprve ty potom seřadí podle relevance. Ale to samozřejmě oba dobře víme.

Co se „celosvětových“ výsledků hledání týče, nejsem odborník na SEO a můžu tak maximálně spekulovat. Ale mně se občas stane, že se ve výsledcích objeví nějaká asijská stránka, navíc je možné, že nahoře jsou anglické stránky prostě proto, že mají vyšší PR (na anglické stránky budou lidi patrně odkazovat daleko víc než na ty asijské). Ale opravdu nevím…

Jedno je jisté – nejsem sám, kdo není s chováním Googlu tak úplně spokojen.

Jakub Vrána (St, 2006-04-05 13:07):

Samozřejmě, že se berou jen relevantní stránky, ale neřadí se podle PageRanku. To je jen jedno z kritérií, které se na řazení podílí, navíc nijak významnou měrou. Výsledky se řadí podle relevance, což je soubor mnoha vlastností, do kterých je zahrnut i jazyk.

On je to poměrně rozšířený omyl – PageRank se dá uložit do tabulky (page_id, rank) a nikoliv (page_id, word_id, rank), jak si mnoho lidí myslí.

Petr (St, 2006-04-05 13:41):

>On je to poměrně rozšířený omyl – PageRank se dá uložit do tabulky >(page_id, rank) a nikoliv (page_id, word_id, rank), jak si mnoho lidí >myslí.

Skutečně jsem nečekal, že někdo si myslí, že PR je vztažen na konkrétní slovo. Proč by so to někdo mel myslet?

Mnohem rozšířenější omyl je podle mě ten, že google používá váhy, které se nemění dynamicky. Neverim tomu, že nekde v jadru googlu je receno, ze toto bude mit vahu 0.5%, toto 10% apod. Možná to používá Seznam, ale Google rozhodne ne. Podle me vahy svoje vahy vytvari vzdy pri kladeni dotazu zcela dynamicky. Je v tom dost slozita matematika plna matic, prostoru a vektoru ;)

Jakub Vrána (St, 2006-04-05 14:07):

Skutečně jsem nečekal, že někdo si myslí, že PR je vztažen na konkrétní slovo. Proč by so to někdo mel myslet?

Kvůli názoru, že výsledky se řadí podle PR.

Borek (St, 2006-04-05 14:23):

Napsal jsem to nešťastně, měl jsem na mysli „page rank“ a ne PageRank. Nikdy by mě nenapadlo myslet si, že PR závisí i na hledaném slovu. Ale to už je trošku od tématu…

Ještě bych se tě chtěl, Jakube, zeptat, odkud máš informaci, že se PR na celkové relevanci podílí „nijak významnou měrou“. Jak jsem řekl, nejsem odborník na SEO, takže bych se o tom rád něco dozvěděl. Díky.

Petr (St, 2006-04-05 14:30):

>Kvůli názoru, že výsledky se řadí podle PR.

To jsou ale dva zcela nezávislé jevy. Google řadí výsledky podle PR, o tom není pochyb. Ale problém je v tom, že výsledky NEvytváří JEN podle pageranku. Předchozí věta přece neznamená, že musí mít ke každému kartézskému součinu slovoXstránka vlastní PR, nemyslíte? ;)

Problém je v tom, že mnoho lidí si myslí, že záleží jen na velikosti pageranku, ale nějak si neuvědomí, že záleží na samotném dotazu ;)

Petr (St, 2006-04-05 14:33):

>PR na celkové relevanci podílí „nijak významnou měrou“

Ta „nijak významná míra“ je značně zavádějící pojem. U nás na mnoho termínů nehraje velikost PR nijak zásadní roli, ale stačí se podívat trochu do konkurečního prostředí a tam uvidíte, jak moc ta „nijak významná míra“ je veliká :)

Jakub Vrána (St, 2006-04-05 15:35):

Ta „nijak významná míra“ je jen můj pocit. Mám dojem, že on-page i off-page faktory mají větší význam (protože určují relevantnost stránky k dotazu). Oproti tomu PageRank vyjadřuje jen jakousi popularitu stránky. Pokud mají dvě stránky podobné on-page i off-page hodnocení, pak PageRank samozřejmě hraje velkou roli.

Ještě na příkladu: Pokud má nějaká stránka někde dole v rohu hledané slovo a PageRank 8, nebude na tom podle mě tak dobře, jako stránka, která má to slovo v titulku, URL, nadpisu, několikrát na stránce a v příchozích odkazech a PR má 6.

Borek (St, 2006-04-05 15:51):

To zní rozumně.

jilm (St, 2006-04-05 16:17):

A ještě jedna poznámka: žádné „normální“ výsledky neexistují. České rozhraní preferuje české stránky, anglické zase anglické. Jazyk stránky je prostě jeden z faktorů na určení relevance stránky a já to považuji za výhodu.

S tím nesouhlasím. V českém rozhraní mám dvě možnosti. Vyhledávat české stránky, nebo vyhledávat jakékoliv stránky. Pokud je i ve „vyhledávání ve světě“ jazyk faktorem, pak je smysl této volby (česko x svět) dosti omezen. Když hledám „subtitles“ a vylezou mi samé stránky na .cz, nebo hledám „Google Pack“ a vyleze mi 5 českých blogů na první stránce, pak to pro mě není zlepšení relevance, ale zhoršení. Google má předpokládat, že když si někdo explicitně nastaví, že nechce jen české stránky, ale jakékoliv, pak asi pro něj čeština není faktorem relevance.

Mimochodem z tohoto důvodu občas používám Jyxo. Mám Google v anglickém rozhraní, aby mi anglicky hledal „správně“, a je jednodušší překliknout si ve Firefoxu na Jyxo. A řekl bych, že to tak bude dělat více lidí.

Komentáře jsou uzavřeny (blog je v read-only módu). Pokud mě chcete kontaktovat, můžete mailem.