PHP的parse_url()有一个主机字段,其中包含完整的主机.我正在寻找最可靠(最低成本)的方式来只返回域名和TLD.
给出了例子:
> http://www.google.com/foo,parse_url()返回www.google.com为主机
> http://www.google.co.uk/foo,parse_url()返回www.google.co.uk为主机
我只想google.com或google.co.uk.我已经考虑了一个有效TLD /后缀的表,只允许这些和一个字.你会做任何其他方式吗?有没有人知道这种事情的预先有效的REGEX?
这样的东西怎么样?
function getDomain($url) { $pieces = parse_url($url); $domain = isset($pieces['host']) ? $pieces['host'] : ''; if (preg_match('/(?P<domain>[a-z0-9][a-z0-9\-]{1,63}\.[a-z\.]{2,6})$/i',$domain,$regs)) { return $regs['domain']; } return false; }
将使用经典的parse_url提取域名,然后寻找一个没有任何子域(www作为子域)的有效域.不会像“localhost”那样工作.如果不匹配任何东西,将返回false.
//编辑:
尝试一下:
echo getDomain('http://www.google.com/test.html') . '<br/>'; echo getDomain('https://news.google.co.uk/?id=12345') . '<br/>'; echo getDomain('http://my.subdomain.google.com/directory1/page.PHP?id=abc') . '<br/>'; echo getDomain('https://testing.multiple.subdomain.google.co.uk/') . '<br/>'; echo getDomain('http://nothingelsethan.com') . '<br/>';
它应该返回:
google.com google.co.uk google.com google.co.uk nothingelsethan.com
当然,如果没有通过parse_url
,它不会返回任何东西,所以确保它是一个格式良好的URL.
//附录:
Alnitak是对的上述解决方案在大多数情况下将会起作用,但不一定是全部的,需要维护,以确保例如,他们不是具有超过6个字符的新TLD等等.提取域名的唯一可靠方法是使用维护的列表,如http://publicsuffix.org/.起初,更容易,更加强大的是长期的.您需要确保了解每种方法的优缺点以及它与项目的配合.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。