Schau doch mal hier, so etwas Ähnliches gibt's schon als Python-Skript: http://milianw.github.com/springer_download
Ergebnis 1 bis 10 von 18
- 16.07.2010, 09:00 #1Jonagold
Themenstarter
- Registriert
- 04.2008
- Beiträge
- 23
Automatisierter Download von PDF Dateien auf Springerlink
Hallo zusammen,
ich bin ein Neuling auf dem Gebiet der OS X Programmierung. Würde jetzt aber gerne eine Software entwickeln, die mir PDFs von SpringerLink herunterlädt. Auf SpringerLink kann man mit einem Account einen großen Buchbestand kostenlos bekommen. Meiner Meinung nach herrscht dort eine gewisse Struktur auf den Seiten sodass ich denke, wenn ich den Quellcode einer Seite auslesen kann, diesen dann so weiterverarbeiten kann, dass ich irgendwann zu jedem Buch eine Downloadadresse bekomme.
Könnt ihr mir vielleicht sagen, wie ich es hinbekomme, dass ich Internetseiten in einer Software aufrufe, deren Quelltext mir in eine Variable speichern und dann weiterverarbeiten kann? Oder wie würdet ihr das angehen? Die Struktur der Internetseite ist generell so, dass es zunächst eine Seite gibt, auf denen die bücher aufgelistet sind. Klickt man dann auf ein Buch, öffnet sich deren Seite und ich kann einzelne Kapitel herunterladen als PDF. Und das würde ich gerne automatisieren. D.h. ich gebe ich meiner Software ein Stichwort ein und diese spuckt mir dann irgendwann mehrere Bücher aus, die ich dann downloaden kann.
Das ganze kann man dann natürlich auch für andere Seiten ausprobieren, aber ich möchte gerne mit SpringerLink anfangen. Was haltet ihr davon? Denkt ihr, dass das realistisch hinzubekommen ist? Ich habe damals nur mit C und C++ programmiert.
Viele Grüße
- 16.07.2010, 09:38 #2
- 16.07.2010, 09:38 #3
Was haelst du von Prototyping in, sagen wir, Ruby? Da kannst du mal schnell einen Parser basteln und schauen wie gut und wie stabil du an die einzelnen Namen und Links der PDF's kommst.
Fuer die Implementierung kommt mir als erstes libcurl in den Sinn, damit geht das ganze eigentlich recht schnell und einfach.
...
Das Python-Script sieht gut aus, job done. =)52 2E 54 2E 46 2E 4D 21 0A 44 65 6E 6E 1F 73 69 65 1F 77 69 73 73 65 6E 1F 6E 69 63 68 74 2C 1F 77 61 73 1F 73 69 65 1F 74 75 6E 21
Make it idiot-proof, and they'll make a better idiot.
- 07.06.2011, 11:47 #4Gala
- Registriert
- 07.2009
- Beiträge
- 50
Wie bekomme ich das Ganze zum laufen? Ich hab jetzt pdftk und python installiert aber so ganz blicke ich immernoch nicht durch
- 07.06.2011, 13:39 #5
- 15.06.2011, 14:19 #6Englischer Kantapfel
- Registriert
- 10.2007
- Beiträge
- 1.075
Bekomme das Skript leider auch nicht zum laufen...könnte jemand ne kurze Erläuterung unter OS X geben?
- 15.07.2011, 23:21 #7
./springer_download.py -l "HIER DEN LINK VON DER SPRINGERLINK WEBSITE EINTRAGEN IN DER FORM http://www.springerlink.com/content/978-3-540-38439-7 - WICHTIG DABEI SIND DIE ANFÜHRUNGSZEICHEN "
Und den Link natürlich ändern sonst lädst Du das Strömungslehre Buch vom Spurk runter
Viel Spaß damit.an apple a day...
- 24.01.2012, 16:45 #8
Hallo, ich bin leider der voll Noob in Solchen Sachen. Habe mir das neueste Python 2.7x geladen und das pdftk und beides unter Lion installiert. Das Script von oben hab ich mir auch geladen. Aber was mache ich nun? Welches Terminal? Muss ich das Script irgendwo hin kopieren? Was muss ich starten und wo eingeben?
Wäre super wenn ihr mir helfen könntet. iPhone 4 16 GB FYVE (iOS 5) iPod Shuffle 2G 2GB green
MacBook Air 13" 2011, i5, 4 GB RAM, Samsung 250er SSD ATV2
- 24.01.2012, 17:08 #9Gelber Richard
- Registriert
- 12.2005
- Ort
- Alzenau
- Beiträge
- 12.363
Welches Terminal? Gibt nur eines für OS X, im Dienstprogramme-Ordner.
Solange du dort den kompletten Pfad zum Skript eingibst, sollte es egal sein, wo es liegt. Den musst du aber nicht immer eintippen, du kannst das Skript auch mit der Maus ins Terminalfenster ziehen, dann hast du automatisch den korrekten Namen.
Ansonsten muß der Pfad zum Verzeichnis mit deinen Skripten dem Terminal mitgeteilt werden, in der Variable $PATH, dann reicht der Name des Skripts im Terminal.
- 24.01.2012, 17:18 #10
äh ok, ich hab jetzt im User Ordner den Ordner bin angelegt und hab das Script reinkompiert. Dann bin ich im Terminal mit cd bin in den Ordner. Dort hab ich dann
./springer_download.py -l "http://www.springerlink.com.ubproxy.ub.uni-heidelberg.de/content/978-3-531-17934-6/contents/"
eigegeben. Das Terminal sagt mir dann:
ERROR: You have to install the packet ImageMagick in order to use convert
Wahh. Hab eben nach dem ImageMagick geschaut. Das verwirrt mich noch mehr, ich bräuchte MacPorts um es zu installieren und für MacPorts bräuchte ich xcode... Aber laut der Seite von dem Milian braucht man das doch gar nicht. oO dieses iconv konnte ich auch nicht wirklich finden. Hab ich das schon? Liegt es daran?
Danke für die Hilfe MacAlzenauGeändert von s0f4surf3r (24.01.2012 um 18:21 Uhr)
iPhone 4 16 GB FYVE (iOS 5) iPod Shuffle 2G 2GB green
MacBook Air 13" 2011, i5, 4 GB RAM, Samsung 250er SSD ATV2


Zitieren

