Comment courber ou wget une page Web?

voix
16

Je voudrais faire un travail de nuit qui va chercher Cron ma page stackoverflow et diffs de la page de la veille, donc je peux voir un résumé de changement de mes questions, réponses, classement, etc.

Malheureusement, je ne pouvais pas obtenir le bon ensemble de cookies, etc, pour faire ce travail. Des idées?

En outre, lorsque la bêta est terminée, sera ma page d'état accessible sans vous connecter?

Créé 05/08/2008 à 21:38
source utilisateur
Dans d'autres langues...                            


5 réponses

voix
9

Votre page d'état est maintenant disponible sans vous connecter (cliquez sur fermeture de session et essayer). Lorsque la bêta-cookie est désactivé, il n'y aura rien entre vous et votre page d'état.

Pour wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Créé 05/08/2008 à 21:43
source utilisateur

voix
6

De Mark Harrison

Et voici ce qui fonctionne ...

pelotonner -s --cookie soba =. https://stackoverflow.com/users

Et pour wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Créé 05/08/2008 à 23:04
source utilisateur

voix
3

Bonne idée :)

Je présume que vous avez est utilisé de wget

--load-cookies (filename)

pourrait aider un peu, mais il pourrait être plus facile à utiliser quelque chose comme Mechanize (en Perl ou Python) pour imiter un navigateur plus complètement pour obtenir une bonne araignée.

Créé 05/08/2008 à 21:43
source utilisateur

voix
2

Et voici ce qui fonctionne ...

curl -s --cookie soba=. http://stackoverflow.com/users
Créé 05/08/2008 à 22:22
source utilisateur

voix
2

Je ne pouvais pas comprendre comment obtenir les cookies pour travailler non plus, mais j'ai pu arriver à ma page d'état dans mon navigateur alors que je connecté, donc je suppose que cela fonctionnera une fois stackoverflow va public.

Ceci est une idée intéressante, mais ne vous choisir également diffs du code html sous-jacent? Avez-vous une stratégie pour éviter de se retrouver avec un diff du html et non le contenu réel?

Créé 05/08/2008 à 21:46
source utilisateur

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more