Vítejte na stránkách věnovaných nástroji OpenRefine,
na kterých najdete všechny potřebné a důležité informace.
openrefine@getfound.cz

Základní operace s buňkami

0 Sdílení 0 Sdílení ×

Buňky(Cells) jsou základní jednotkou OpenRefine. Každá buňka obsahuje nějakou hodnotu, která může být textového, numerického nebo datového formát a přísluší ji právě jeden sloupec.

Operace s bunkami

Transformace

Změna obsahu buněk na základě vložené funkce v GREL, Jython nebo Closure. O GREL a funkcích, které se dají využít při transformaci, naleznete více informací v sekci funkce. 

Přizpůsobené transformace

OpenRefine také nabízí základní set předpřipravených transformací, které můžete rovnou aplikovat:

  • Trim leading and trailing whitespace – odstraní mezery na koncích a začatcích buněk ve sloupci

  • Collapse consecutive whitespace – pokud v buňce nalezne dvě po sobě jdoucí mezery, změní je pouze na jednu

  • Unescape HTML entities – převede HTML na klasické znaky (například ! na !)

  • To titlecase – Každé slovo buňky bude začínat velkým písmenem

  • To uppercase – Změní text v buňkách na velká písmena

  • To lowercase – Změní text v buňkách na malá písmena

  • To number / To date / To text – Změna formátu buněk na číslo / datum / text

  • Blank out cells – Smaže obsah všech buněk příslušného sloupce

Fill down (vyplň pod)

Fill down je funkcí, která vyplní prázdné buňky sloupce buňkami nad nimi. Je proto důležité dbát na pořadí buněk ve chvíli, kdy chcete tuto funkci využít.

Blank down (vymaž pod)

Blank down je funkcí opačnou k Fill down. Pokud OpenRefine nalezne v příslušném sloupci dvě stejné buňky pod sebou, smaže té níže postavené obsah buňky.

Tato funkce se často používá při zbavování se duplicit (příkazy Sort + Edit cells -> Blank down).

Split multi-valued cells (rozdělení řádků s více hodnotami)

Rozdělení řádku na základě pevně určeného separátoru. Funkce podobná Split into several columns, s tím rozdílem, že nerozdělí obsah buněk na nové sloupce, ale rozdělí hodnoty do nových řádků.

Příklad:

Při dělení hodnoty “7.1” s použitím separátoru “.” zůstane na řádku hodnota 7 a do nového řádku se vepíše hodnota 1.

Join multi-valued cells (spojení řádků s více hodnotami)

Opačná funkce k funkci Split multi-valued cells. Podívá se o řádek níže a pokud je v daném řádku hodnota, s prázdným sloupcem úplně nalevo, vloží tuto hodnotu o buňky výše a oddělení hodnoty separátorem.

Příklad:

Po rozdělení hodnot, viz. příklad výše, na stejném sloupci spustíme funkci Edit cells -> Join multi-valued cells a jako separátor určíme “.”. Dostaneme se tak na původní hodnotu, tedy “7.1”. 

Clusterizace

Clusterizace je slučování hodnot na základě podobnosti. Hodí se především ve chvíli, kdy v jednom sloupci máte soubor hodnot, které jsou podobné, ale ne stejné a chcete je změnit na ucelený název.

Například pokud ve sloupci “Země” budete mít uvedeny země původu objektů v datasetu a některé buňky sloupce “Země” budou pro označení České republiky užívat názvy jako: ”Česká republika”, “Česká Republika”, “České republiky”, “Ceska republika”, “CESKA REPUBLIKA”. Tyto všechny názvy pomocí clusterizace spojíte do jednoho primárního tvaru, který si zvolíte.

Při nacházení podobných frází je třeba vybrat konkrétní metodu, kterou OpenRefine použije. Mezi metody, které k cluesterizaci můžete využít patří:

  • Key collision

  • Nearest neighbor

… a k nim přidružené funkce.

Clusterizace se také často využívá v pozdějších fázích analýzy klíčových frází pro slučování frází na jednotný tvar. Konkrétní návod jak na to naleznete v příkladu clusterizace a slučování hodnot.

 

© 2013 Openrefine
0 Sdílení Twitter 0 Google+ 0 Facebook 0 0 Sdílení ×