• Apfeltalk ändert einen Teil seiner Allgemeinen Geschäftsbedingungen (AGB), das Löschen von Useraccounts betreffend.
    Näheres könnt Ihr hier nachlesen: AGB-Änderung
  • Was gibt es Schöneres als den Mai draußen in der Natur mit allen Sinnen zu genießen? Lasst uns teilhaben an Euren Erlebnissen und macht mit beim Thema des Monats Da blüht uns was! ---> Klick

hosts file

Obineg

Fießers Erstling
Registriert
14.02.15
Beiträge
128
auf meinen 10.4 und 10.5 rechnern benutze ich ein modifizierte hosts file, was mir automatisch z.b.

verschwörungstracking.de

blockiert, so dass urls wie www666.verschwörungstracking.de/nervigewerbung/besondersnervig.html nicht mehr aufgerufen werden können.

neben dem blockieren ist auch die umleitung unerwünschter domains oder IPs auf localhost eine weit verbreitete variante.

was dabei allerdings als restproblem bestehen bleibt, ist dass das popup oder das neue fenster geöffnet wird - und offen bleibt.
beim manuellen browsen kann man damit noch leben, beim per scripting automatisierten browsen hingegen kommen so über nacht hunderte offene fenster dazu.

daher würde ich gerne künftig alles, was wir bislang blockiert haben, auf

localhost/pfad/schließtsichnach3sekundenautomatisch.html


umleiten.

was ich mich nun frage ist, ob das erstens überhaupt funktioniert, und zweitens, ob das in jeder hinsicht sicher ist, so zu verfahren.
 

oli.n

Golden Delicious
Registriert
21.10.14
Beiträge
9
Das ist zwar technisch mit hosts Datei möglich, aber Probleme wie
- lange Timeouts
- offene Fenster
- blockierende Skripte
oder ähnliche bekommt man dadurch oft.

Die hosts Datei hat eigentlich einen anderen Zweck, als ungewünschte Seiten zu blockieren.

Hier wäre ein Pop-Up oder Werbeblocker wohl sinnvoller, der die Elemente in der Seite komplett deaktiviert/entfernt, so dass diese gar nicht ausgeführt werden.

Aber mal die Frage: was browst du denn "scripting automatisiert"?

Ich kenne das eigentlich nur aus dem Software-Testing Bereich, wo wir z.B. komplexe Lastest ausführen. Da weiß man dann aber, was an ungewollten Elementen aufkommt und kann das direkt in den Scripten behandeln.
 

smoe

Roter Winterkalvill
Registriert
13.04.09
Beiträge
11.575
Per Scripting automatisiertes Browsen ist mir auch neu.

Was ist denn der Sinn des ganzen?

Evtl hilft da ja ein Werbeblocker oder vergleichbares an der Stelle ja besser weiter als ein verbogenes Hosts-File?
 

Rastafari

deaktivierter Benutzer
Registriert
10.03.05
Beiträge
18.150
Die Realitätspolizei warnt (erneut und erneut und erneut und..):
Die hosts-Datei ist zum sperren von unerwüschtem, abgehenden Netztraffic in etwa so gut geeignet wie ein Schnapsglas voll Wasser gegen einen bereits ziemlich kritisch ausgedehnten Zimmerbrand.

Was du willst (und bedienen lernen *musst*) ist eine Software wie HandsOff.
Oder, um der Konkurrenz auch die Ehre zu geben: LittleSnitch.
 

Obineg

Fießers Erstling
Registriert
14.02.15
Beiträge
128
das sind ja schon mal drei antworten, die mir bestätigen, dass es besser war, zweifel zu haben und mal zu fragen. :)

auf ein paar dinge gehe ich kurz ein.

- blockierende Skripte

das gehört zu den dingen, die ich bislang übersehen habe. andererseits, die "oringale" der blockierten seiten laden tendenziell eher noch schlimmere scripte als meine auto-zu seite.

was browst du denn "scripting automatisiert"

CMS basierte seiten wie z.b. hunderte seiten oder beiträge von blogs.

Hier wäre ein Pop-Up oder Werbeblocker wohl sinnvoller

hm, wenn es den sowas gibt? ich möchte die urls selbst festlegen und ab und zu die liste verändern/updaten.

LittleSnitch.

mit littlesnitch habe ich noch keinen weg gefunden, listen als textfiles zu importieren. vermutlich geht das irgendwo in einem prefs file manuell?
was ebenfalls nicht ideal ist, ist, dass man nur domänen nutzen kann, die live zu einer IP aufgelöst werden. dynamische IPs und die benutzung von subdomains scheint ausgeschlossen zu sein.
 

oli.n

Golden Delicious
Registriert
21.10.14
Beiträge
9
Darf ich nach dem Zweck fragen?

Warum browst du hunderte von Seiten an?

Willst du spezielle Informationen auslesen?
Dann mach das nicht mit dem Browser, sondern lade die Informationen direkt mit deinen Skripten.

URL Connections öffnen, Daten laden und den Quellcode der Seite nach den gewünschten Informationen durchsuchen. Das kann man in so ziemlich jeder Programmier-/Skriptsprache tun. Dafür braucht man keinen Browser (bzw. ist selbst der Browser).
 

Obineg

Fießers Erstling
Registriert
14.02.15
Beiträge
128
Willst du spezielle Informationen auslesen?

Ja.

Dann mach das nicht mit dem Browser, sondern lade die Informationen direkt mit deinen Skripten.

Eine eigene Software dafür zu schreiben ist vermutlich zu umständlich. Dennoch eine interessante Idee.

Derzeit kontrolliere ich die Browser mit Applescript, und die Ausgangsurls werden von einem Max/MSP-basierten Programm ans Open Transport (oder wie auch immer das unter OSX heißt) geschickt.

Im Browser Java abzuschalten geht übrigens auch nicht, weil da natürlich auch erwünschter Content davon abhängig ist. :)
 

MacAlzenau

Golden Noble
Registriert
26.12.05
Beiträge
22.522
Willst du spezielle Informationen auslesen?
Könnte sein, daß da mehr Informationen hilfreich wären. Um vielleicht einen anderen, besseren Weg zu finden.
Und: nein, ich kann da nichts sagen, aber ich hab halt so meine Erfahrungen mit Lösungsstrategien (um's mal gehoben auszudrücken).
Also: was willst du auslesen, vielleicht sogar: wozu willst du diese Informationen.
Letzteres könnte eventuell nützlich sein, völlig andere Wege zu finden.
Und letztendlich könnte das alles hilfreich sein für andere, die vielleicht mal später ähnliche Fragestellungen bearbeiten wollen.
 
  • Like
Reaktionen: Martin Wendel

ottomane

Golden Noble
Registriert
24.08.12
Beiträge
16.388
Im Browser Java abzuschalten geht übrigens auch nicht, weil da natürlich auch erwünschter Content davon abhängig ist. :)

Du meinst vermutlich JavaScript? Dass Content von Java abhängt, ist eher selten der Fall.

Ich verstehe Deinen Anwendungsfall noch nicht so recht, das muss ja auch nicht und das geht mich ja auch nichts an. Aber das Setup kommt mir suboptimal vor. Hast Du Dir schonmal HTTrack angesehen? Oder auch nur CURL? Oder, wenn Du nach bestimmten Dingen und Kombinationen suchst, einfach eine ausgeklügelte Google-Abfrage?

Für die etwas fuchsige Suche nutze ich in einem Projekt die kostenlose Bing-API und hole mir keine einzige Seite auf den Rechner. Die API ist simpelst zu benutzen.
 

oli.n

Golden Delicious
Registriert
21.10.14
Beiträge
9
Eine eigene Software dafür zu schreiben ist vermutlich zu umständlich. Dennoch eine interessante Idee.

Ich weiß nicht, ob das, was du da bisher tust, nicht viel zu umständlich ist.
Dazu weiß ich zu wenig über deinen Anwendungsfall.
Aber die Erfahrung lässt das vermuten.

Für solche Themen würde ich (als Softwareentwickler) definitiv eine eigene Software bzw. ein Skripting ohne Browser schreiben.

Z.B. schon um eine Vielzahl von diesen Abfragen zu parallelisieren.
Wenn das System korrekt konfiguriert ist, ist es kein Problem, Hunderte (oder Tausende) von Abfragen gegen die Zielseiten parallel zu fahren.
Die meiste Zeit beim Surfen verbringt man nämlich mit Warten.

Außerdem spart man sich das Rendering der Seiten, was viel Zeit und CPU-Power spart.

Es wäre auf jeden Fall gut, ein paar mehr Details zu erfahren, um den Anwendungsfall besser einschätzen zu können.
 

Marcel Bresink

Breuhahn
Registriert
28.05.04
Beiträge
8.582
Hier wäre ein Pop-Up oder Werbeblocker wohl sinnvoller
hm, wenn es den sowas gibt? ich möchte die urls selbst festlegen und ab und zu die liste verändern/updaten.

So was gibt es seit 20 Jahren. Du brauchst nur einen filternden HTTP Proxy dazwischenzuschalten. Das kann man beispielsweise durch Kombination der kostenlosen Programme squid und dansguardian erreichen.

Eine Änderung der hosts-Datei bietet keinen echten Schutz und kann stattdessen zu jeder Menge Problemen im lokalen Netz führen.
 

Obineg

Fießers Erstling
Registriert
14.02.15
Beiträge
128
die idee, das auslesen von einer offline version zu machen ist grundsätzlich interessant. offline bekomme ich dann aber vermutlich erneut probleme, wenn es darum geht, bestimmte quellen zu sperren, weil die dann in jedem projekt anders heissen.

bezüglich des anwendungsfalles verhält es sich leider so, das volle automatisierung nicht in frage kommt. teile der seiten, die "gefunden" wurden, sollen nämlich abschließend in lokale iframes eingebunden werden, und es ist letztlich ein mensch, der dann entscheidet, ob mit den gefundenen daten etwas gemacht wird.

bin jedenfalls für die ideen dankbar und werde das sicherlich mal irgendwann ausprobieren.

und ich werde mal recherrchieren, wo das problem mit der hosts datei liegen könnte, es leuchtet derzeit noch nicht ganz ein.
 

Scotch

Bittenfelder Apfel
Registriert
02.12.08
Beiträge
8.058
Da gibt's kein "Problem" - @Rastafari hat dazu eigentlich alles gesagt. Das ist "lediglich" eine relativ sinnfreie Herangehensweise und niemand ist motiviert, dir dafuer eine Loesung zu praesentieren. Du haemmerst doch auch nicht mit der Feile eine Schraube in die Wand.
 
  • Like
Reaktionen: ottomane und oli.n