有300个网站,每个网站都有20到200页被刮掉.刮掉所有站点需要4到7个小时(取决于网络延迟和其他因素).刮刀需要每天完成一次完整的运行.
我应该将其作为1个cron作业运行,运行整个4-7个小时,或者每小时运行7次,或者每10分钟运行一次直到完成?
该脚本设置为从cron运行,如下所示:
while($starttime+600 > time()){ do_scrape(); }
这将运行do_scrape()函数,该函数一次擦除10个URL,直到(在这种情况下)600秒已经过去. do_scrape可能需要5到60秒才能运行.
我在这里问,因为我无法在网上找到有关如何运行此信息的任何信息,并且对于每天运行这一点非常谨慎,因为PHP并非真正设计为在7小时内作为单个脚本运行.
我用vanilla PHP / MysqL编写了它,它运行在减少debian VPS上,只安装了lighttpd / MysqL / PHP5.我已经运行它超时6000秒(100分钟)没有任何问题(服务器没有倒下).
任何有关如何执行此任务的建议表示赞赏.我应该注意什么……?还是我要执行这一切都错了?
谢谢!
也就是说,您的架构非常基础,并且不太可能扩展.
您可以考虑从一个庞大的单片脚本转变为分而治之的策略.例如,听起来你的脚本正在对每个URL进行同步请求.如果这是真的,那么大部分7小时的运行时间都在等待来自某个远程服务器的响应.
在一个理想的世界里,你不会写这种东西PHP.一些处理线程并且可以使用回调轻松执行异步http请求的语言将更适合.
也就是说,如果我在PHP中这样做,我的目标是创建一个脚本,让N个孩子从URL中获取数据,然后将响应数据粘贴到某种工作队列中,然后再使用另一个脚本一直运行,处理它在队列中找到的任何工作.
然后你只需要你的fetcher-script-manager一小时运行一次,它管理一些获取数据的工作进程(在parellel中,所以延迟不会杀死你),并将工作粘在队列上.然后,queue-cruncher会查看队列中的工作并对其进行处理.
根据您实现队列的方式,这可以很好地扩展.您可以使用多个框来获取远程数据,并将其粘贴在某个中央队列框中(使用MysqL或memcache或其他任何方式实现队列).你甚至可以想象有多个盒子从队列中完成工作并完成工作.
当然,魔鬼在细节中,但这种设计通常比单线程fetch-process-repeat脚本更具可伸缩性,并且通常更强大.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。