Парсим Wordstat с помощью cURL

Задумался над многопоточной мощной парсилкой Wordstat, и столкнулся с капчей на любой запрос. Методом тыка обнаружил, что такое же случается при отключенных куках в браузере. Погуглил, подтвердив свои догадки. Посмотрел, что за куки ставит Wordstat файрфоксу.

Решение простое: вставляем свою куку вида “yandexuid=6081541431294991373; fuid01=4c83ac2335d3c447. jSvVt6h543bRoObsRA6oECJweFiD400y9y3WNSAh8yQtN6y7Hf5OpeJjsFUf mY_qF6MPcYnjtbUJ9neZfyx7-6vFKOcip7Jw_Jz578 iIl7LmE046W763UfPxftmW6qZi; my=YwA=; L=Z2MPLGRfUlxCSGhGXkB/b0NRVQcEfWtDESZ/AF5bNkRtdA4oBXlfVGomAy5CETwFPCU5HwAAL Q4cNnEqX0l+PA==.1295133021.8746.227910.aadd918 4439a1f1affbb72152ca2797a; yabs-sid=2334683301295792152”. Может, её лучше откуда-то парсить, но пока работает и так, то есть без изменения этих страшных кодов.

Юзайте, кому не лень 😉

UPD:

Кука копируется из браузера, и действительна до выбивания капчи. А чтобы все было как нужно, делается так:

<?php
mycurl('http://kiks.yandex.ru/su/');
mycurl('http://wordstat.yandex.ru/?cmd=words&page=1&text=word&geo=&text_geo=');
?>

И от этого уже пляшем. Здесь mycurl() – это обертка для cURL (можно взять из класса для постинга в wordpress)

 

И что вы об этом думаете?

Несколько ботов уже оставили свой след в истории поста. А именно 5 шт.

Rus:
24 января 2011  
  

Лучше пофикси регер народа.

Белый Негр:
24 января 2011  
  

Пофиксил, обновляйся

Teimos:
27 января 2011  
  

Это так называемая кик-кука. Добавляется если стукнуть kiks.yandex.ru (вроде так, не помню точно).

Я парсер вордстата делал полгода назад наверное, так от капчи избавился. Почему-то мало кто об этом методе знает.

Белый Негр:
27 января 2011  
  

Да, там он айфреймом инклюдится в страницу. Сейчас обновлю пост

Alex:
4 февраля 2011  
  

спасибо за код