Google paranoja a záloha web 2.0

Dnes som sa trochu hrabal v službách Google a natrafil som na neznámu službu Google Bookmarks. Nič nezvyčajné, keby boli bookmarky prázdne, no zrejme koncom februára a v marci sa mi tam neznámym spôsobom podarilo niečo popridávať.

Pozitívne na tej službe je, že vľavo je odkaz na Web History, kde som si skontroloval, že ukladanie všetkých údajov by malo byť vypnuté.

Zároveň mi teda napadlo, že by som si mal zálohovať bookmarky, ktoré som si vytvoril na del.icio.us, a vôbec aj ďalších služieb, kde mám aspoň relatívne cenné dáta.

last.fm

Začnem teda od konca, kedy som sa po zložitom hľadaní dopracoval k užitočnej utilite lfmCOL.pl - last.fm Data Collector.

Použitie je veľmi jednoduché, stačí nahradiť USER prihlasovacím menom:

perl lfmCOL.pl -xmlfile=myLovedTracks.xml method=user.getLovedTracks user=USER
# Collect your complete scrobbling history:
perl lfmCOL.pl -xmlfile=myRecentTracks.xml method=user.getRecentTracks limit=50 user=USER
# Collect your complte music library:
perl lfmCOL.pl -xmlfile=myMusicLibrary.xml method=library.getTracks user=USER

YouTube

Tu ma zaujímajú iba obľúbené videá, ale dopracovať sa k správnemu spôsobu dolovania dát chvíľu trvalo.

API poskytuje XML výstup na adrese http://gdata.youtube.com/feeds/api/users/USER/favorites?max-results=50&start-index=1. Počiatočný index musí byť 1 a potom môžeme pridávať po 50. Počet som si musel zistiť z profilu.

ČSFD

Tu nie je žiadne API, ale dá sa stiahnuť jednoducho HTML výstup, ktorý obsahuje komentáre a ohodnotenia. Keď zistíme počty, tak je to pomerne jednoduché sťahovanie.

del.icio.us

Úplne bez problémov výstup: http://delicious.com/settings/bookmarks/export

Záver

V závere sa podelím o škaredé kombinácie Ruby/shell skriptov, ktoré sú pre mňa dostatočné: source tarball.

Ešte by som spomenul, že napriek existencii Data Liberation Front, ktorý má pomáhať s extrakciou dát uložených v aplikáciách od Google, zrejme nie je možné nijak dostať z Google Reader nič okrem zoznamu feedov.

weblog.txt · Last modified: 2010/08/03 06:21 by 127.0.0.1