Перепрыгнеть в содержание


- - - - -

parser без бана или как правильно качать с www.greyhound-data.com


4 ответов в эту тему

#1 OFFLINE   apiprogramming

    Новичок


  • Участник
  • Пип
  • 13 сообщения
0

Добавлено 17 July 2012 - 12:30

здравствуйте!
Хочу написать парсер для www.greyhound-data.com у меня один только вопрос.
как правильно качать, чтобы не вручили бан?
замаскироваться под браузер и делать перерыв между загрузок страниц этого будет достаточно?

У кого есть опыт отпишитесь, есть похожие пробыли которые я описал выше?
Просто будет обидно, если я напишу и меня будут банить, тогда справишавается какой смысл потраченного времени

#2 OFFLINE   Jericho

    Иерихон


  • RSB
  • ПипПипПипПипПип
  • 2226 сообщения
859

Добавлено 17 July 2012 - 14:35

Сообщенияapiprogramming, on 17 July 2012 - 12:30, сказал:

здравствуйте!
Хочу написать парсер для www.greyhound-data.com у меня один только вопрос.
как правильно качать, чтобы не вручили бан?
замаскироваться под браузер и делать перерыв между загрузок страниц этого будет достаточно?

У кого есть опыт отпишитесь, есть похожие пробыли которые я описал выше?
Просто будет обидно, если я напишу и меня будут банить, тогда справишавается какой смысл потраченного времени
Да,
Для парсинга "хитрых" ресурсов желательно маскировать парсер под известные браузеры.
Ну и в цикле перебора рейскардов сделай задержку. Этого будет достаточно.

#3 OFFLINE   apiprogramming

    Новичок


  • Участник
  • Пип
  • 13 сообщения
0

Добавлено 17 July 2012 - 14:39

А можно уточнить сколько секунд паузы между загрузками лучше ставить?

Отредактировано Jericho, 17 July 2012 - 14:50.


#4 OFFLINE   Jericho

    Иерихон


  • RSB
  • ПипПипПипПипПип
  • 2226 сообщения
859

Добавлено 17 July 2012 - 14:52

Сообщенияapiprogramming, on 17 July 2012 - 14:39, сказал:

А можно уточнить сколько секунд паузы между загрузками лучше ставить?
Поставь рандом между 500 и 1500 миллисекунд или побольше. Если фиксированную величину выберешь, лишние подозрения будут

#5 OFFLINE   italias

    Новичок


  • Участник
  • Пип
  • 1 сообщения
0

Добавлено 28 September 2012 - 12:37

Да, меняй постоянно усер-агент, если надо могу скинуть функцию в которую можно подставить значение, через сколько будет меняться усер-агент, так же sleep(1) делай перед запросами, хотя меня однажды все равно забанили выполняя даже эти меры предосторожности.