php cron作业可以运行多久/我做得对吗？

我已经创建了一个运行良好的PHP / mysql scraper,并且不知道如何最有效地将其作为cron作业运行.

有300个网站,每个网站都有20到200页被刮掉.刮掉所有站点需要4到7个小时(取决于网络延迟和其他因素).刮刀需要每天完成一次完整的运行.

我应该将其作为1个cron作业运行,运行整个4-7个小时,或者每小时运行7次,或者每10分钟运行一次直到完成？

该脚本设置为从cron运行,如下所示：

while($starttime+600 > time()){
   do_scrape();
}

这将运行do_scrape()函数,该函数一次擦除10个URL,直到(在这种情况下)600秒已经过去. do_scrape可能需要5到60秒才能运行.

我在这里问,因为我无法在网上找到有关如何运行此信息的任何信息,并且对于每天运行这一点非常谨慎,因为PHP并非真正设计为在7小时内作为单个脚本运行.

我用vanilla PHP / MysqL编写了它,它运行在减少debian VPS上,只安装了lighttpd / MysqL / PHP5.我已经运行它超时6000秒(100分钟)没有任何问题(服务器没有倒下).

任何有关如何执行此任务的建议表示赞赏.我应该注意什么……？还是我要执行这一切都错了？

谢谢！

长时间运行编写良好的PHP脚本没有任何问题.我有一些脚本几乎连续运行了好几个月.只是看你的内存使用情况,你应该没事.

也就是说,您的架构非常基础,并且不太可能扩展.

您可以考虑从一个庞大的单片脚本转变为分而治之的策略.例如,听起来你的脚本正在对每个URL进行同步请求.如果这是真的,那么大部分7小时的运行时间都在等待来自某个远程服务器的响应.

在一个理想的世界里,你不会写这种东西PHP.一些处理线程并且可以使用回调轻松执行异步http请求的语言将更适合.

也就是说,如果我在PHP中这样做,我的目标是创建一个脚本,让N个孩子从URL中获取数据,然后将响应数据粘贴到某种工作队列中,然后再使用另一个脚本一直运行,处理它在队列中找到的任何工作.

然后你只需要你的fetcher-script-manager一小时运行一次,它管理一些获取数据的工作进程(在parellel中,所以延迟不会杀死你),并将工作粘在队列上.然后,queue-cruncher会查看队列中的工作并对其进行处理.

根据您实现队列的方式,这可以很好地扩展.您可以使用多个框来获取远程数据,并将其粘贴在某个中央队列框中(使用MysqL或memcache或其他任何方式实现队列).你甚至可以想象有多个盒子从队列中完成工作并完成工作.

当然,魔鬼在细节中,但这种设计通常比单线程fetch-process-repeat脚本更具可伸缩性,并且通常更强大.