微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

从电子邮件数据库列表中提取域

如何解决从电子邮件数据库列表中提取域

我需要从数据集中的电子邮件提取域,并计算前5个域。

import re
from collections import Counter
with open("emails")
domain = re.search('@[\w.)]+,email')
 print(domain.group())

 jbutt@gmail.com  http://www.bentonjohnbjr.com
 josephine_darakjy@darakjy.org  http://www.chanayjeffreyaesq.com
 art@venere.org http://www.chemeljameslcpa.com
 lpaprocki@hotmail.com  http://www.feltzprintingservice.com
 donette.foller@cox.net http://www.printingdimensions.com

解决方法

这将列出前5个域:

import re
from collections import Counter 
resultList = []
with open("emails","r") as email:
    for x in email:
        result = re.search('@(.*) ',x)
        resultList.append(result.group(1))
occurence_count = Counter(resultList) 
print(occurence_count.most_common(5))

输出:

[('gmail.com ',1),('darakjy.org ',('venere.org',('hotmail.com ',('cox.net',1)]

输出的是5个最常见的域名

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。