php curl函数采集网页程序代码

三月 06, 2019 | views
Comments 0

curl来抓取网页内容是一个性能比较好的函数了,我们通常会使用它来快速模仿用户去访问我们要抓取的网页了,下面看一个例子有兴趣的朋友可进入参考.

早上想写了一个抓取是京东618魅族专题页的抓取,然后想着自动下单购买,尼玛,算了,太多了,写到判断是否开始了,商品价格进行了变化,后边工程量有点大就懒的写了,如果要完善的话就需要写模拟登陆(这个不难)加入购物车,下单,下单的时候判断一下价格,如果价格个官方优惠价格相同就下单,不同就接着去抓,算了,懒的写了,下边是部分代码:

  1. <?php 
  2. $cookie_file = dirname(__FILE__)."/jd.cookie"
  3. //专题首页url 
  4. $indexurl = 'http://sale.jd.com/act/BOxFsKPGNZwpet4.html'
  5. //获取专题页到产品详情的地址 
  6. $indexstr = get($indexurl); 
  7. //var_dump($indexstr);exit; 
  8. preg_match_all('/<area shape="rect" coords="802,199,941,244" href="(.*?)"/is',$indexstr,$data);  //开源软件:phpfensi.com 
  9. $tmp = pathinfo($data[1][0]); 
  10. $pinfo['id'] = $tmp['filename']; 
  11. $pinfo['url'] = $data[1][0]; 
  12. unset($tmp,$data); 
  13. $pinfo = getPrice($pinfo['id']); 
  14. if($pinfo['mainproduct']['price'] == 1799){ 
  15. addcar(); 
  16. }else
  17. echo "还没有开始抢购"
  18. function get($url,$flag=true){ 
  19. global $cookie_file
  20. $headerArray = array
  21. "content-type: application/x-www-form-urlencoded;charset=UTF-8"
  22.  
  23. ); 
  24. //echo $cookie_file;exit; 
  25. $ch = curl_init(); 
  26. curl_setopt($ch,CURLOPT_URL,$url); 
  27. curl_setopt($ch,CURLOPT_RETURNTRANSFER,1); 
  28. curl_setopt($ch,CURLOPT_USERAGENT,'"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0"'); 
  29. curl_setopt($ch,CURLOPT_HTTPHEADER,$headerArray);//设置头信息 
  30. curl_setopt($ch,CURLOPT_COOKIEFILE,$cookie_file); 
  31. curl_setopt($ch,CURLOPT_COOKIEJAR,$cookie_file); 
  32. $return = curl_exec($ch); 
  33. curl_close($ch); 
  34. if($flag)$return = gzdecode($return); 
  35. return $return
  36. function getPrice($id){ 
  37. $priceUrl = "http://rs.jd.com/accessorie/newServiceWhite.jsonp?sku=".$id
  38. $data = json_decode(get($priceUrl,false),true); 
  39. return $data
  40. function addcar(){ 
  41. global $pinfo
  42. $addurl = "http://gate.jd.com/InitCart.aspx?pid=".$pinfo['mainproduct']['sku']."&pcount=1&ptype=1"
  43. echo get($addurl,false); 
  44. ?> 

php 在curl抓取的时候出现乱码

用站长工具查看我们抓取的网而不是使用了gzip压缩了,如果有返回"Accept-Encoding:gzip,deflate" 就是打开了gzip了,我们只要如下操作,代码如下:

  1. $res=curl_exec($ch1); 
  2. if(!emptyempty($res)){ //save capcha 
  3. echo gzdecode($res); 

GBK或者UTF8汉字之类的乱码,代码如下:

mb_convert_encoding($str, 'utf-8', 'GBK,UTF-8,ASCII');就行了

我们设置页面为GBK兼容GB2312,GB2312是GBK的子集,所有GB2312编码的用GBK都能正确解出来.



zend