Vítejte na stránkách věnovaných nástroji OpenRefine,
na kterých najdete všechny potřebné a důležité informace.
openrefine@getfound.cz

Blog

Navody

Zpracování sitemap a získání počtu tweetů pro URL

Review

  • Odbornost:
  • Doba zpracování:

Total:

2.5
0 Sdílení 0 Sdílení ×

V tomto návodu si ukážeme, jakým způsobem lze získat ze sitemap vlastních stránek nebo konkurence URL a k nim zjistit data o počtu tweetů a případně dalších sociálních interakcí.

 

1. Přidání sitemap.xml do OpenRefine

Začněme přidáním sitemap do OpenRefine. Na úvodní obrazovce klikněte na Create Project a zvolte možnost Web Addresses (URLs). Do tlačítka vložte URL jednoho nebo více souborů sitemap.xml.

Import sitemapy

2. Získání URL ze sitemap.xml

Jakmile zvolíte tlačítko Next, soubor sitemap.xml se naimportuje do OpenRefine. Zde jsem jako příklad použil svou sitemap.xml. Před vytvořením projektu se vám zobrazí OpenRefine parser pro XML, ve kterém najetí myší můžete zvolit, jakou část XML chcete importovat.

Zvolte část s URL, pro které chcete zjišťovat údaje o počtu tweetů a poté nazvěte a založte projekt.

Vyseparované URL ze sitemap

3. Přidání sloupce na základě získaného obsahu

Dalším krom je přidat nový sloupec, který se bude dotazovat na URL v buňkách a získávat pro ně data o počtu jejich tweetů. To uděláte tak, že u sloupce s URL kliknete na Edit cells -> Add column by fetching URLs.

Volba přidání sloupce

4. Vložení výrazu pro získání dat

Do tabulky, která vyskočí vložíte jako výraz "http://urls.api.twitter.com/1/urls/count.json?url=" + value, tedy v jednoduchosti: “Stáhni obsah z URL http://urls.api.twitter.com/+/urls/count.json?url=” a na konec URL doplň hodnotu z buňky (tedy URL, pro kterou chceme získat data o počtu tweetů)”.

Po vložení výrazu zvolte rozumné Throttle delay (doporučuji 1 000 ms) a po spuštění počkejte, než OpenRefine získá data.

Výraz pro získání počtu tweetů

Po získání dat by měl výstup vypadat cca. následovně:

Výstup v JSON

5. Parsování JSON výstupu

Nyní je třeba z JSON výstupu získat pouze data o počtu tweetů, která jsou skryta pod “count”. To uděláte kombinací JSON parseru a funkce get. U sloupce s JSON výstupem zvolíte Edit cells -> Trnasform. Výraz bude vypadat následovně: value.parseJson().get("count").

Pod výrazem rovnou uvidíte, náhled výstupu takové transformace dat. Měl by se vám místo JSON výstupu zobrazit pouze počet tweetů.

Výraz pro získání počtu tweetů

6. Vyhodnocení získaných dat

Projekt poté můžete seřadit podle počtu tweetů a získat tak přehled nejsdílenějších článků dané domény na Twitteru. V případě získání dat o sdílení na více sociálních sítí můžete získávat “hvězdy” obsahu pomocí filtrace ve Scatterplot facet.

Pro získání dat z jiných sítí můžete využít velmi obdobným způsobem jejich API (například v případě sítě Facebook API Graph.Facebook.com)

Výstup

 

  1. Tomáš VojtaTomáš Vojta12-20-2013

    Díky za pěkný návod, jen u bodu 3 opravte z “http://urls.api.twitter.com/1/urls/count.json?url=” + value na “http://urls.api.twitter.com/1/urls/count.json?url=” + value jinak to háže chybu ty různý uvozovky.

    • Filip PodstavecFilip Podstavec12-20-2013

      Díky Tomáši – upraveno.

Napiše komentář

© 2013 Openrefine
0 Sdílení Twitter 0 Google+ 0 Facebook 0 0 Sdílení ×