(Ne)viditelná práce pro Seznam

S nástupem do Seznamu se nezměnil jen charakter mé práce, ale také její obsah. Zatímco v Duze byla alespoň část mých výsledků vidět (třeba jen jako HTML připomínající ledovce čouhající ze zbytku programového kódu), v nové práci se potápím hluboko do backendu… a zůstávám tam.

Jeden z mých prvních úkolů bylo portování aplikací na Novinky a Sport na IPv6. Kupodivu to není jen věc adminů a síťařů. Třeba systému pro banování IP adres v diskuzních fórech by IPv6 nesedly do databáze, která s nimi v původní variantě prostě nepočítala.

I když si třeba Wizy myslí, že backend není tak cool, mně už by nudné patlání se šablonami (nebo dokonce s HTML) fakt nebavilo. A dostanu se tak vůbec k nějaké práci, která vidět bude?

Na Super.cz jsem nedávno implementoval i AB testování, ale to je interní ;-).

Zatím nejviditelnější plod mé práce nasadí Seznam během následujích dnů. Je to middleware, který zajišťuje zjedodušené vyhledávání na Nápovědě. Zatímco dřív si Nápověda zajišťovala hledání sama (přes proprietání vyhledávací engine, který pro skloňování mj. využívá i slavnou Ajku), ta nová využívá neveřejné vyhledávací fultextové API Seznamu. Když tedy v Nápovědě vyhledáváte třeba „heslo„, je výpis výsledků ekvivalentní s vyhledáváním „heslo site: napoveda.seznam.cz“ na Seznamu.

Zatímco starší nápověda nám zobrazovala datum poslední změny, nový systém toto neumožňuje. Takže tradáá — toto je viditelná změna — chybí datum změny u vyhledaných výsledků ;-).

Při implementaci jsem narazil na jednu zajímavost. Pokud byste ještě před týdnem zadali do vyhledání „Zrušení e-mailové schránky“ site:napoveda.seznam.cz, výsledek by vypadal nějak takto.

Všiměte si, že totožná stránka se nachází na dvou různých URL. Tyto stránky mají stejnou relevanci, proto je vyhledávač vrátí hned vedle sebe. Ano, můžeme nadávat na fulltextový tým že neumí detekovat duplicity. Když však budeme konstruktivní, zamyslíme se jak vyhledávači pomoct totožné stránky odhalit.

Logickým řešením jsou kanonické URL. Jednoduše do hlaviček obou duplicitních stránek napíšu která je ta „preferovaná“. Po dalším zaindexování botem pak vyhledávač zobrazí jen tu jednu. Tímto se řídí i Google. A to máme další čárku za viditelnou změnu — lepší vyhledávání na Nápovědě (nejen) přes Seznam.

Takže na Nápovědět čekáme až nás zaindexuje Seznambot. Už teď si však můžete užívat nesouvisejícího vylepšení které jsme vydali dnes — další dvě možnosti obnovy zapomenutého hesla. Enjoy.

6 komentářů to “(Ne)viditelná práce pro Seznam”

  1. Jaké procento ještě používá vyhledávání skrz Seznam? Dá se vůbec nějak bojovat proti Googlu? Já osobně jsem hledání na Seznamu použil snad někdy před pěti lety.

  2. Ondra napsal:

    Na tvoji první otázku asi nejlíp z veřejných zdrojů odpověděl svoji letošní analýzou Martin Vyleťal — http://www.lupa.cz/clanky/google-nad-seznamem-zatim-nezvitezil/ (nebo http://history.toplist.cz/stat/?a=history&type=4 )
    Bojovat proti Googlu podle mě má smysl — znáš ten Gandhiho citát: „First they ignore you, then they laugh at you, then they fight you, then you win“ (viz třeba Linux x Windows — Linux už je ted na více zařízeních než Win).
    Fulltext Seznamu je podle mě skoro tak dobrý jen tak Googlí. Ale Seznam není jen fulltext :), koukni kolik má služeb — http://www.seznam.cz/sluzby-na-seznamu
    Já třeba používám Mapy.cz, Sreality a občas fulltext.
    Mě osobně přijde krásný že Seznam řadí naši repuliku mezi pět států, které ještě neovládl Google — http://www.sitepoint.com/5-countries-stand-betweent-google-and-world-domination/ Myslím že bojovat proti největšímu je ještě víc super než po jeho boku :).

    To jsem se rozepsal :-p.

  3. Orwen napsal:

    „… že se zajímavé pozici těšíme i díky silnému Seznamu. Zatímco na mnohých dalších trzích Google soupeří s Yahoo, Microsoftem nebo s rozdrobeným trhem hromady menších rovnocenných portálů, u nás se vede roky tvrdý, černobílý a ryze lokální boj. V mnoha ohledech je to poměrně unikátní situace. Samozřejmě můžete podotknout, že něco podobného probíhá i v Rusku, nebo Číně, ten druhý hráč je však jen stěží uchopitelný a srovnatelný se západním světem a Rusko je zase příliš velké a vzdálené.“
    CItace z http://www.zive.cz/clanky/pet-let-ceskeho-googlu-a-novy-prazsky-googleplex/sc-3-a-159494/default.aspx

  4. Tomáš napsal:

    Když to tu tak pročítám, napadá mě otázka – má pořád Seznam tendenci nadhodnocovat počet vyhledávání? …Pokud vím, v minulosti to fungovalo tak, že se zadaný dotaz počítal dodruhé, pokud uživatel přešel na další stránku vyhledávání (a potřetí, počtvrté… – takže jeden zadaný dotaz mohl být klidně započítán jako 8)

    Pokud o tom něco víš, díky za odpověď 🙂

  5. Orwen napsal:

    Já v Seznamu dělal především obsahové služby (Novinky.cz, Sport.cz, Super.cz, …) I když jsem se o fulltext zajímal docela dost, o tomto jsem nikdy neslyšel.
    Ale přijde mě to dost velká chyba na to, aby zůstala v provozu nějakou relevantní dobu.
    Víc asi budou vědt kluci z Fulltextového týmu http://fulltext.sblog.cz/

  6. Tomáš napsal:

    Seznam o ní dle mých informací věděl dost dlouho, ale nebral ji jako chybu, spíš jako součást systému. Psal o tom i Michal Kubíček cca před rokem.
    Ozvu se teda fulltexťákům 🙂