上一章节我们讲完了自动加载,现在我们正式进入爬虫核心代码的编写中,首先我们需要先看看整个目录
config.php 这个是我们的配置文件加载文件ProxyPool.php 这个是爬虫的核心处理文件
Queue.php 这个是队列操作的处理文件
Requests.php 这个是发起请求的处理文件
然后我们在回忆一下入口文件的代码
<?php
require_once __DIR__ . '/autoloader.php';
require_once __DIR__ . '/vendor/autoload.php';
use ProxyPool\core\ProxyPool;
$proxy = new ProxyPool();
$proxy->run();
通过这里可以看到我们使用了core里面ProxyPool的run方法,先来看看ProxyPool的内容吧
<?php
use ProxyPool\core\Requests; //HTTP请求文件
use ProxyPool\core\Queue; //队列操作文件
class ProxyPool
{
private $redis;
private $httpClient;
private $queueObj;
function __construct()
{
$redis = new \Redis();
$redis->connect(config("database.redis_host"), config("database.redis_port"));
$this->redis = $redis;$this->httpClient = new Requests(['timeout' => 10]);
$this->queueObj = new Queue();
}
public function run()
{
echo "start to spider ip...." . PHP_EOL;
$ip_arr = $this->get_ip(); //获取IP的具体方法
echo "select IP num: " . count($ip_arr) . PHP_EOL;
echo "start to check ip...." . PHP_EOL;
$this->check_ip($ip_arr); //验证IP可用性的方法
$ip_pool = $this->redis->smembers('ip_pool'); //读取redis中的ip
echo "end check ip...." . PHP_EOL;
print_r($ip_pool); //输出ip数组
die;
}
}
其中get_ip方法会爬取两个网站的IP
//获取各大网站代理IP
private function get_ip()
{
$ip_arr = [];
$ip_arr = $this->get_xici_ip($ip_arr); //西刺代理
$ip_arr = $this->get_kuaidaili_ip($ip_arr); //快代理
return $ip_arr;
}
我们先来来看看西刺代理的爬取
private function get_xici_ip($ip_arr)
{
for ($i = 1; $i <= config('spider.page_num'); $i++)
{
list($infoRes, $msg) = $this->httpClient ->request('GET','http://www.xicidaili.com/nn/'.$i,[]);
if (!$infoRes)
{
print_r($msg); //输出错误信息
exit();
}
$infoContent = $infoRes->getBody();
$this->convert_encoding($infoContent);
preg_match_all('/<tr.*>[\s\S]*?<td class="country">[\s\S]*?<\/td>[\s\S]*?<td>(.*?)<\/td>[\s\S]*?<td>(.*?)<\/td>/', $infoContent, $match);
$host_arr = $match[1];
$port_arr = $match[2];
foreach ($host_arr as $key => $value)
{
$ip_arr[] = $host_arr[$key].":".$port_arr[$key];
}
}
return $ip_arr;
}
这个方法里面,我们首先使用 config('spider.page_num') 这个方法读取了配置文件里面定义的爬取页数,我这里定义的是3页,然后我们打开西刺代理的网站,会发现域名是
http://www.xicidaili.com/nn/XX 这个XX是第几页,第一页就是1,第二页就是2,以此类推
所以我们在代码里面循环访问了三次网站,获取到网页的返回值,然后用正则匹配html去获取里面的地址和端口号(具体html元素可以在网站右键点击审查元素查看)
preg_match_all('/<tr.>[\s\S]?<td class="country">[\s\S]?<\/td>[\s\S]?<td>(.?)<\/td>[\s\S]?<td>(.*?)<\/td>/', $infoContent, $match);
然后经过一些处理,将获取到的IP返回。这就是get_xici_ip这个方法做的事情,它就是负责爬取IP。
然后我们来看看
//检测IP可用性
private function check_ip($ip_arr)
{
$this->queueObj = $this->queueObj->arr2queue($ip_arr);
$queue = $this->queueObj->getQueue();
foreach ($queue as $key => $value)
{
//用百度网和腾讯网测试IP地址的可用性
for ($i=0; $i < config('spider.examine_round'); $i++)
{
$response = $this->httpClient->test_request('GET','https://www.baidu.com', ['proxy' => 'https://'.$value]);
if (!$response)
{
$response = $this->httpClient->test_request('GET','http://www.qq.com', ['proxy' => 'http://'.$value]);
if ($response && $response->getStatusCode() == 200)
{
break;
}
}
else if($response->getStatusCode() == 200)
{
break;
}
}
//将结果存入redis
if ($response && $response->getStatusCode() == 200)
{
$this->set_ip2redis($value);
}
else{
echo $value . " error... ". PHP_EOL;
}
}
}
这里我们使用了https的百度和http的qq来检测,如果成功访问就把这个IP插入redis中。
这样我们就能做到爬取IP并且校验可用性了。
原网址: 访问
创建于: 2018-10-13 16:06:50
目录: default
标签: 无
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
java windows火焰图_mob64ca12ec8020的技术博客_51CTO博客 - 在windows下不可行,不知道作者是怎样搞的 监听SpringBoot 服务启动成功事件并打印信息_监听springboot启动完毕-CSDN博客 SpringBoot中就绪探针和存活探针_management.endpoint.health.probes.enabled-CSDN博客 u2u转换板 - 嘉立创EDA开源硬件平台 Spring Boot 项目的轻量级 HTTP 客户端 retrofit 框架,快来试试它!_Java精选-CSDN博客 手把手教你打造一套最牛的知识笔记管理系统! - 知乎 - 想法有重合-理论可参考 安宇雨 闲鱼 机械键盘 客制化 开贴记录 文本 linux 使用find命令查找包含某字符串的文件_beijihukk的博客-CSDN博客_find 查找字符串 ---- mac 也适用 安宇雨 打字音 记录集合 B站 bilibili 自行搭建 开坑 真正的客制化 安宇雨 黑苹果开坑 查找工具包maven pom 引用地 工具网站 Dantelis 介绍的玩轴入坑攻略 --- 关于轴的一些说法 --- 非官方 ---- 心得而已 --- 长期开坑更新 [本人问题][新开坑位]关于自动化测试的工具与平台应用 机械键盘 开团 网站记录 -- 能做一个收集的程序就好了 不过现在没时间 -- 信息大多是在群里发的 - 你要让垃圾佬 都去一个地方看难度也是很大的 精神支柱 [超级前台]sprinbboot maven superdesk-app 记录 [信息有用] [环境准备] [基本完成] [sebp/elk] 给已创建的Docker容器增加新的端口映射 - qq_30599553的博客 - CSDN博客 [正在研究] Elasticsearch, Logstash, Kibana (ELK) Docker image documentation elasticsearch centos 安装记录 及 启动手记 正式服务器 39 elasticsearch 问题合集 不断更新 6.1.1 | 6.5.1 两个版本 博客程序 - 测试 - bug记录 等等问题 laravel的启动过程解析 - lpfuture - 博客园 OAuth2 Server PHP 用 Laravel 搭建带 OAuth2 验证的 RESTful 服务 | Laravel China 社区 - 高品质的 Laravel 和 PHP 开发者社区 利用Laravel 搭建oauth2 API接口 附 Unauthenticated 解决办法 - 煮茶的博客 - SegmentFault 思否 使用 OAuth2-Server-php 搭建 OAuth2 Server - 午时的海 - 博客园 基于PHP构建OAuth 2.0 服务端 认证平台 - Endv - 博客园 Laravel 的 Artisan 命令行工具 Laravel 的文件系统和云存储功能集成 浅谈Chromium中的设计模式--终--Observer模式 浅谈Chromium中的设计模式--二--pre/post和Delegate模式 浅谈Chromium中的设计模式--一--Chromium中模块分层和进程模型 DeepMind 4 Hacking Yourself README.md update 20211011
Laravel China 简书 知乎 博客园 CSDN博客 开源中国 Go Further Ryan是菜鸟 | LNMP技术栈笔记 云栖社区-阿里云 Netflix技术博客 Techie Delight Linkedin技术博客 Dropbox技术博客 Facebook技术博客 淘宝中间件团队 美团技术博客 360技术博客 古巷博客 - 一个专注于分享的不正常博客 软件测试知识传播 - 测试窝 有赞技术团队 阮一峰 语雀 静觅丨崔庆才的个人博客 软件测试从业者综合能力提升 - isTester IBM Java 开发 使用开放 Java 生态系统开发现代应用程序 pengdai 一个强大的博主 HTML5资源教程 | 分享HTML5开发资源和开发教程 蘑菇博客 - 专注于技术分享的博客平台 个人博客-leapMie 流星007 CSDN博客 - 舍其小伙伴 稀土掘金 Go 技术论坛 | Golang / Go 语言中国知识社区
最新评论