?

Log in

No account? Create an account

Previous Entry | Next Entry

Техническое

Вот все побежали в Dreamwidth, а я не побежала, потому что забыла пароль от своего аккаунта 2011 года (такой гусичек) и почту тоже забыла (молодец вообще) и лень.

Но зато на этих каникулах у меня дошли руки до пункта "настроить оффлайн-бэкап ЖЖ". Вот уж танцы с бубном. Я пробовала ljArchive, который у меня не заработал за старостью лет. Пробовала другие всякие штуки, из которых ни одна не делала того, что я хочу. Я посмотрела даже на API ЖЖ (чур меня) и быстренько закрыла страницу.

Моё решение в результате -- чудо изворотливости.
1) плагином к Файерфоксу экспортировать печеньки в cookies.txt (чтобы можно было скачивать подзамочные посты)
2) получать весь ЖЖ с комментариями через wget, примерно так (wget у меня отказывается сохранять page requisites, даже когда я его об этом прошу, поэтому соответствующие параметры я из команды здесь убрала)
wget --load-cookies cookies.txt -r -N -l 3 --no-parent --reject-regex '(.*)\?(.*)|(.*)\@(.*)' --exclude-directories=feed,tag -e robots=off http://be-unafraid.livejournal.com/calendar
3) запускать на полученных файлах свеженаписанный скрипт на питоне, который выпускает щупальца тредов и переводит всё полученные файлы в PDF, уже с картинками и аккуратно обходя встреченные по дороге баги.

Более простым решением было бы дать файл с печеньками HTTrack, у которого нет проблем со скачиванием page requisites, но у меня пока не хватило терпения разобраться, почему он их не ест.

Если у вас для оффлайн-бэкапа в PDF есть решения проще, расскажите мне о них. :)

Tags:

Comments

( 17 comments — Leave a comment )
doublle_troub
Jan. 1st, 2017 11:51 am (UTC)
У меня механическое ручное тупое решение: я скачиваю на компьютер веб-страницу, потом печатаю ее в pdf через Bullzip принтер. А потом сохраняю на яндекс.диск в облако на всякий случай.
И повторяю столько раз, сколько в жж веб-страниц.
be_unafraid
Jan. 1st, 2017 11:54 pm (UTC)
Тоже хорошо, правда, для маленьких масштабов :)
jrc4558
Jan. 1st, 2017 03:29 pm (UTC)
lj API. Ahhhhhhhhhhahahahaaaaaaaaaaaaaaaaaaa

Great job tho!
be_unafraid
Jan. 1st, 2017 11:55 pm (UTC)
А чо! Я прихожу туда такая с намерением быстренько всё заскриптовать...

В общем, я бы не так API писала :)
perelynn
Jan. 1st, 2017 05:35 pm (UTC)
Очень актуальный вопрос, особенно теперь, когда сервера ЖЖ переехали в Россию и экспорт в Вордпресс перестал работать.
В следующий раз, как будешь у нас в гостях, я захочу об этом поговорить.
be_unafraid
Jan. 1st, 2017 11:57 pm (UTC)
Давай :)

Совсем перестал работать или глючит пока? Я помню, он у меня и до того глючил.

А вот народ на dreamwidth переезжает, у них тоже импорт есть и работает у людей вроде.
(Deleted comment)
be_unafraid
Jan. 1st, 2017 11:58 pm (UTC)
Я до того тем же манером бэкапила в wordpress, но хотелось ещё оффлайн :)
(Deleted comment)
be_unafraid
Jan. 4th, 2017 04:02 am (UTC)
Хороший вариант!
sciuro
Jan. 1st, 2017 11:26 pm (UTC)
Попробуй поговори с дримовским саппортом, они очень вменяемые.
be_unafraid
Jan. 1st, 2017 11:59 pm (UTC)
А!.. попробую, терять нечего. Они там все волонтёры, я верно понимаю?
sciuro
Jan. 2nd, 2017 12:06 am (UTC)
Там есть несколько основателей и программистов на зарплате, они иногда отвечают на самые заковыристые запросы. Но тебе в данном случае и волонтера хватит - все зависит от их правил.
be_unafraid
Jan. 2nd, 2017 12:08 am (UTC)
Cпасибо :) А то лежит пустой, печальный...
mynegation
Jan. 7th, 2017 05:55 am (UTC)
Давно я тут не был, а почему надо бежать - ЖЖ закрывают? Вообще в любом случае нужно над экспортом поработать.
be_unafraid
Jan. 7th, 2017 06:39 am (UTC)
А сервера недавно перевели в Россию, и народ заволновался. Плюс ЖЖ чаще и дольше бывает последнее время сломан. Бежать не то чтобы надо -- ну, я не собираюсь -- но для многих это уже критическая отметка.
dennyrolling
Mar. 29th, 2017 03:05 pm (UTC)
неожиданно оказалось что на маке нет wget по умолчанию и вместо того чтобы разобраться с тем откуда его скачать я зафигачил скриптец который скачивает curl-ом, вытаскивает линки и скачивает их тоже.

I feel myself a little dirty after that.
( 17 comments — Leave a comment )