如何解决必要时如何在网址前添加“ http://”协议? [重复]
| 这个问题已经在这里有了答案:解决方法
该文档在您粘贴的文本下方,有一个确切的示例。如果不存在,则添加\'// \'将得到您想要的。如果您不知道它是否具有协议和\'// \',则可以使用正则表达式(甚至只是查看它是否已包含\'// \')来确定是否需要添加它。
您的另一个选择是使用split(\'/ \')并获取它返回的列表的第一个元素,仅当url没有协议或\'// \'时才起作用。
编辑(为将来的读者添加):用于检测协议的正则表达式类似于“ 0”
, 看起来您需要指定协议才能获得netloc。
如果不存在,则将其添加可能如下所示:
import urlparse
url = \'www.amazon.com/Programming-Python-Mark-Lutz\'
if \'//\' not in url:
url = \'%s%s\' % (\'http://\',url)
p = urlparse.urlparse(url)
print p.netloc
, 如果协议始终为http,则只能使用一行:
return \"http://\" + url.split(\"://\")[-1]
更好的选择是使用通过的协议:
return url if \"://\" in url else \"http://\" + url
, 从文档:
按照RFC 1808中的语法规范,urlparse仅在由“ //”正确引入了netloc的情况下才识别它。否则,假定输入为相对URL,因此从路径组件开始。
因此,您可以执行以下操作:
In [1]: from urlparse import urlparse
In [2]: def get_netloc(u):
...: if not u.startswith(\'http\'):
...: u = \'//\' + u
...: return urlparse(u).netloc
...:
In [3]: get_netloc(\'www.amazon.com/Programming-Python-Mark-Lutz/dp/0596158106/ref=sr_1_1?ie=UTF8&qid=1308060974&sr=8-1\')
Out[3]: \'www.amazon.com\'
In [4]: get_netloc(\'http://www.amazon.com/Programming-Python-Mark-Lutz/dp/0596158106/ref=sr_1_1?ie=UTF8&qid=1308060974&sr=8-1\')
Out[4]: \'www.amazon.com\'
In [5]: get_netloc(\'https://www.amazon.com/Programming-Python-Mark-Lutz/dp/0596158106/ref=sr_1_1?ie=UTF8&qid=1308060974&sr=8-1\')
Out[5]: \'www.amazon.com\'
, 您是否考虑过仅检查URL开头是否存在\“ http:// \”,如果不存在则添加它?假定第一部分确实是netloc而不是相对URL的一部分,另一种解决方案是仅捕获所有内容,直到第一个\“ / \”并将其用作netloc。
, 这一个班轮会做到这一点。
netloc = urlparse(\'//\' + \'\'.join(urlparse(url)[1:])).netloc
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。