Migracja Jogger - Octopress

tl;dr

Skrypt w pythonie 3 przetwarzający plik xml z danymi Joggera na pliki .markdown gotowe do wrzucenia do source/_posts/ w Octopressie

Pobieranie danych z Joggera

Dane z Joggera można pobrać z panelu administracyjnego: Opcje → Eksport → Wygeneruj eksport → Pobierz Są one w formacie XML, spakowane gz. Odpowiednio sformatowane prezentują się jak poniżej:

<?xml version="1.0" encoding="UTF-8"?>
<jogger>
  <user>
    <jid>malpka@przykladowy.jid</jid>
    <domain>malpka</domain>
    <alias/>
  </user>
  <entry>
    <date>2007-01-11 00:29:07</date>
    <jid>malpka@przykladowy.jid</jid>
    <level_id>1</level_id>
    <comment_mode>0</comment_mode>
    <subject>temat</subject>
    <body>
      &lt;p&gt;tresc tresc tresc&lt;/p&gt;
    </body>
    <tags/>
    <permalink>temat</permalink>
    <trackback/>
    <category>Ogólne</category>
    <category>Inna kategoria</category>
    <comment>
      <date>2007-01-11 03:35:52</date>
      <nick>NickKomentujacy</nick>
      <nick_url>http://google.pl</nick_url>
      <body>&lt;p&gt;*wpadłem bo spać nie mogę :)*&lt;/p&gt;</body>
      <ip>127.0.0.1</ip>
      <trackback/>
    </comment>
  </entry>
    ...
</jogger>

Oczywiście wartość gałęzi body to escapowany html wpisu.

W razie czego można wygenerować sobie XSD z XML.

Przetwarzanie danych eksportu na wpisy Octopressa

Skoro już wiadomo co i jak, można pokusić się o wyciągnięcie podstawowych informacji z XML’a: daty, tytułu, permalinka (który potraktuję jako część nazwy pliku), kategorii i treści wpisu. Przy okazji wyszło, że Jogger pozwalał na ustawienie pustego tytułu wpisu, co skutkuje brakiem wartości taga <subject/>

Tym razem python 3.

Sposób użycia:

rozpakować plik z danymi eksportu jako jogger_eksport.xml, najlepiej do osobnego katalogu
umieścić skrypt razem z plikiem xml
uruchomić skrypt
w katalogu dla każdego wpisu powstanie osobny plik .markdown, nazwany zgodnie z regułami Octopressa, z uzupełnionymi polami: tytuł, data, kategorie, oraz z treścią posta wpisaną w HTML’u

import re import codecs from xml.dom import minidom from html.parser import HTMLParser XMLFILENAME = 'jogger_eksport.xml' def createFileName(date, permalink, subject): """Data wymagana, w formacie YYYY-mm-dd""" fileName = date[:10] + '-' if permalink != None: fileName += permalink else: fileName += re.sub(r'[^a-zA-Z\d\.-]', '_', subject.lower()) return fileName + '.markdown' DOMTree = minidom.parse(XMLFILENAME) cNodes = DOMTree.childNodes postNo = 1 for i in cNodes[0].getElementsByTagName("entry"): date = i.getElementsByTagName("date")[0].childNodes[0].toxml() subject = 'Bez tytułu '+str(postNo) postNo = postNo + 1 if i.getElementsByTagName("subject")[0].firstChild != None: subject = i.getElementsByTagName("subject")[0].firstChild.toxml() permalink = None if i.getElementsByTagName("permalink")[0].firstChild != None: permalink = i.getElementsByTagName("permalink")[0].firstChild.toxml() fileName = createFileName(date, permalink, subject) body = '' if i.getElementsByTagName("body")[0].firstChild != None: body = i.getElementsByTagName("body")[0].firstChild.toxml() body = HTMLParser().unescape(body) categories = [] for cat in i.getElementsByTagName("category"): categories.append(cat.firstChild.nodeValue) text_file = codecs.open(fileName, "w", "utf-8") text_file.write('---\n') text_file.write('layout: post\n') text_file.write('title: "' + subject + '"\n') text_file.write('date: ' + date[:16] + '\n') text_file.write('comments: true\n') text_file.write('categories:\n') for cat in categories: text_file.write('- ' + cat + '\n') text_file.write('---\n') text_file.write(body) text_file.close()

TODO:

zachowanie treści szkiców (to już trzeba ręcznie)
zmiana treści na markdown

co.de.mon.key

Weblog

Migracja Jogger - Octopress

tl;dr

Pobieranie danych z Joggera

Przetwarzanie danych eksportu na wpisy Octopressa

Comments