Seite 1 von 2 12 LetzteLetzte
Ergebnis 1 bis 10 von 18
  1. #1
    Jonagold
    Themenstarter

    Registriert
    04.2008
    Beiträge
    23

    Automatisierter Download von PDF Dateien auf Springerlink

    Hallo zusammen,

    ich bin ein Neuling auf dem Gebiet der OS X Programmierung. Würde jetzt aber gerne eine Software entwickeln, die mir PDFs von SpringerLink herunterlädt. Auf SpringerLink kann man mit einem Account einen großen Buchbestand kostenlos bekommen. Meiner Meinung nach herrscht dort eine gewisse Struktur auf den Seiten sodass ich denke, wenn ich den Quellcode einer Seite auslesen kann, diesen dann so weiterverarbeiten kann, dass ich irgendwann zu jedem Buch eine Downloadadresse bekomme.

    Könnt ihr mir vielleicht sagen, wie ich es hinbekomme, dass ich Internetseiten in einer Software aufrufe, deren Quelltext mir in eine Variable speichern und dann weiterverarbeiten kann? Oder wie würdet ihr das angehen? Die Struktur der Internetseite ist generell so, dass es zunächst eine Seite gibt, auf denen die bücher aufgelistet sind. Klickt man dann auf ein Buch, öffnet sich deren Seite und ich kann einzelne Kapitel herunterladen als PDF. Und das würde ich gerne automatisieren. D.h. ich gebe ich meiner Software ein Stichwort ein und diese spuckt mir dann irgendwann mehrere Bücher aus, die ich dann downloaden kann. Das ganze kann man dann natürlich auch für andere Seiten ausprobieren, aber ich möchte gerne mit SpringerLink anfangen. Was haltet ihr davon? Denkt ihr, dass das realistisch hinzubekommen ist? Ich habe damals nur mit C und C++ programmiert.

    Viele Grüße

  2. #2
    Hadelner Sommerprinz Avatar von quarx
    Registriert
    04.2005
    Ort
    Budenheim
    Alter
    36
    Beiträge
    8.528
    Schau doch mal hier, so etwas Ähnliches gibt's schon als Python-Skript: http://milianw.github.com/springer_download
    Wer A sagt, muss auch Rev. B sagen.
    AT-Bingo: #01 | #02 | #03 | #04 | #05 | #06

  3. #3
    Apfel der Erkenntnis Avatar von Irgendein Held
    Registriert
    06.2007
    Ort
    bei Bonn
    Beiträge
    731
    Was haelst du von Prototyping in, sagen wir, Ruby? Da kannst du mal schnell einen Parser basteln und schauen wie gut und wie stabil du an die einzelnen Namen und Links der PDF's kommst.
    Fuer die Implementierung kommt mir als erstes libcurl in den Sinn, damit geht das ganze eigentlich recht schnell und einfach.

    ...

    Das Python-Script sieht gut aus, job done. =)
    52 2E 54 2E 46 2E 4D 21 0A 44 65 6E 6E 1F 73 69 65 1F 77 69 73 73 65 6E 1F 6E 69 63 68 74 2C 1F 77 61 73 1F 73 69 65 1F 74 75 6E 21

    Make it idiot-proof, and they'll make a better idiot.

  4. #4
    Gala
    Registriert
    07.2009
    Beiträge
    50
    Wie bekomme ich das Ganze zum laufen? Ich hab jetzt pdftk und python installiert aber so ganz blicke ich immernoch nicht durch

  5. #5
    Hadelner Sommerprinz Avatar von quarx
    Registriert
    04.2005
    Ort
    Budenheim
    Alter
    36
    Beiträge
    8.528
    ... der Skript-Aufruf steht doch auf der o.a. Webseite? Er ist im Terminal einzugeben.
    Wer A sagt, muss auch Rev. B sagen.
    AT-Bingo: #01 | #02 | #03 | #04 | #05 | #06

  6. #6
    Englischer Kantapfel
    Registriert
    10.2007
    Beiträge
    1.075
    Bekomme das Skript leider auch nicht zum laufen...könnte jemand ne kurze Erläuterung unter OS X geben?

  7. #7
    Uelzener Rambour Avatar von rastex
    Registriert
    11.2007
    Ort
    Darmstadt
    Alter
    28
    Beiträge
    373
    ./springer_download.py -l "HIER DEN LINK VON DER SPRINGERLINK WEBSITE EINTRAGEN IN DER FORM http://www.springerlink.com/content/978-3-540-38439-7 - WICHTIG DABEI SIND DIE ANFÜHRUNGSZEICHEN "

    Und den Link natürlich ändern sonst lädst Du das Strömungslehre Buch vom Spurk runter

    Viel Spaß damit.
    an apple a day...

  8. #8
    Melrose Avatar von s0f4surf3r
    Registriert
    09.2008
    Beiträge
    2.501
    Hallo, ich bin leider der voll Noob in Solchen Sachen. Habe mir das neueste Python 2.7x geladen und das pdftk und beides unter Lion installiert. Das Script von oben hab ich mir auch geladen. Aber was mache ich nun? Welches Terminal? Muss ich das Script irgendwo hin kopieren? Was muss ich starten und wo eingeben?

    Wäre super wenn ihr mir helfen könntet.
     iPhone 4 16 GB FYVE (iOS 5)  iPod Shuffle 2G 2GB green
     MacBook Air 13" 2011, i5, 4 GB RAM, Samsung 250er SSD  ATV2

  9. #9
    Gelber Richard
    Registriert
    12.2005
    Ort
    Alzenau
    Beiträge
    12.363
    Welches Terminal? Gibt nur eines für OS X, im Dienstprogramme-Ordner.
    Solange du dort den kompletten Pfad zum Skript eingibst, sollte es egal sein, wo es liegt. Den musst du aber nicht immer eintippen, du kannst das Skript auch mit der Maus ins Terminalfenster ziehen, dann hast du automatisch den korrekten Namen.
    Ansonsten muß der Pfad zum Verzeichnis mit deinen Skripten dem Terminal mitgeteilt werden, in der Variable $PATH, dann reicht der Name des Skripts im Terminal.

  10. #10
    Melrose Avatar von s0f4surf3r
    Registriert
    09.2008
    Beiträge
    2.501
    äh ok, ich hab jetzt im User Ordner den Ordner bin angelegt und hab das Script reinkompiert. Dann bin ich im Terminal mit cd bin in den Ordner. Dort hab ich dann

    ./springer_download.py -l "http://www.springerlink.com.ubproxy.ub.uni-heidelberg.de/content/978-3-531-17934-6/contents/"

    eigegeben. Das Terminal sagt mir dann:

    ERROR: You have to install the packet ImageMagick in order to use convert

    Wahh. Hab eben nach dem ImageMagick geschaut. Das verwirrt mich noch mehr, ich bräuchte MacPorts um es zu installieren und für MacPorts bräuchte ich xcode... Aber laut der Seite von dem Milian braucht man das doch gar nicht. oO dieses iconv konnte ich auch nicht wirklich finden. Hab ich das schon? Liegt es daran?

    Danke für die Hilfe MacAlzenau
    Geändert von s0f4surf3r (24.01.2012 um 18:21 Uhr)
     iPhone 4 16 GB FYVE (iOS 5)  iPod Shuffle 2G 2GB green
     MacBook Air 13" 2011, i5, 4 GB RAM, Samsung 250er SSD  ATV2

Seite 1 von 2 12 LetzteLetzte

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •