Vítejte na stránkách věnovaných nástroji OpenRefine,
na kterých najdete všechny potřebné a důležité informace.
openrefine@getfound.cz

Sloupce a práce s nimi

0 Sdílení 0 Sdílení ×

Sloupce jsou jeden ze základních prvků každého projektu. O to důležitější je práce s nimi. Níže naleznete základní operace, které můžete se sloupci provádět a příklady.

 Operacemi se sloupci

Split into several columns (Rozdělení sloupce na více sloupců)

Představte si, že máte v datasetu v jednom sloupci více hodnot. Například GPS souřadnice pozice “50°4’15.963″N, 14°24’3.179″E”. Tyto souřadnice chcete rozdělit na dva různé sloupce, přičemž jeden bude obsahovat pouze severní a druhý pouze východní souřadnice. To uděláte za pomoci funkce Split into several columns, kde jako separátor mezi souřadnicemi nastavíte “,” a OpenRefine vám vytvoří nový sloupec s oddělenou částí dat a v původním ponechá první část.

Split into several columns tedy slouží k rozdělení příslušného sloupce na základě separátoru.

 

Přidávání sloupců

Potřebujete získat nová data na základě dat, které již máte k dispozici? Chcete stahovat aditivní data z Freebase? To a mnohem více vám umožní právě přidávání sloupců v OpenRefine.

 

Jak přidat prázdný nový sloupec:

Klikněte na příslušný sloupec, vedle kterého chcete napravo vytvořit sloupec nový, prázdný. V něm Edit column -> Add column base on this column a nazvěte svůj sloupec jak uvážíte. Do Expression doplňte nálsedující kód: “” a zvolte Ok.

 

Add column based on this column

V překladu “Přidat sloupec na základě dat sloupce”. Jedná se o operaci, která na základě dat v příslušném sloupci vytváří nový sloupec s výstupem.

Příklad: Pokud máte sloupec s celým jménem uživatelů a chcete vytvořit nový sloupec pouze s jejich příjmeními.

V tom případě u sloupce s celým jméno dáte Edit column -> Add column based on this column, vyplníte název nového sloupce a do Expression vložíte value.split(“ ”)[1]. Funkce split je detailněji rozebrána v sekci funkce na řetězcích.

 

Add column by fetching URLs

V českém překladu: “Přidat sloupec na základě dat stažených z URL”. Nutno poznamenat, že při tomto procesu můžete stále pracovat s daty z příslušného sloupce. U přidávání nového sloupce se objevuje jedna nová sekce, nazvaná Throttle delay. Jedná se zpoždění mezi dotazy, které bude OpenRefine odesílat v ms (ne v seKundách!).

Příklad: Pokud máte sloupec plný URL a chcete k nim nastahovat data o jejich sdílení a likes, uděláte to tak, že u daného sloupce dáte Edit column -> Add column by fetching URLs, nazvete nový sloupec, zadáte zpoždění (v tomto případě doporučuji 500 ms) a do Expression vložíte následující výraz: http://graph.facebook.com/?ids= + value . Po dokončení získáte v novém sloupci výstup v Json. O Json, jeho parsování a širším využití tohoto procesu naleznete více informací v sekci příklady.

 

Add columns from Freebase

“Přidat sloupec na základě synchornizace obsahu buněk s Freebase”. Tato funkce je přímo navázáná na použití Reconcilation, které podrobněji naleznete v sekci praktické příklady.

 

Rename this column

Přejmenování sloupce.

Remove this column

Odstranění sloupce.

Move column

Posun sloupce, na výběr máte ze 4 možností:

  1. Move column to beginning – přesun sloupce na začátek

  2. Move columnt to end – přesun sloupce na konec (za všechny sloupce)

  3. Move column left – Přesun sloupce o jednu pozici doleva

  4. Move column right – Přesun sloupce o jednu pozici doprava

© 2013 Openrefine
0 Sdílení Twitter 0 Google+ 0 Facebook 0 0 Sdílení ×