微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何从我拥有的这个函数创建一个 n-gram 函数?

如何解决如何从我拥有的这个函数创建一个 n-gram 函数?

我有以下函数来计算字符串中的字符数,以便写入字符串:

def count_char(s):
    result = {}
    for i in range(len(s)):
        result[s[i]] = s.count(s[i])
    return result

例如。我们有:

count_char("practice")
{'p' : 1,'r' : 1,'a' : 1,'c' : 2,'t' : 1,'i' : 1,'e' : 1}

从这个函数中,我如何创建一个函数来计算每个 n-gram 在字符串中出现的次数?例如,

ngrams("tataki",n=2)
{'ta':2,'at':1,'ak':1,'ki':1}

函数 ngrams 应该是对函数 count_char修改,但我现在不知道该怎么做...

解决方法

你可以给你的函数添加一个长度参数;然后只需将切片从 1 个字符扩展到该长度:

def count_char(s,l = 1):
    result = {}
    for i in range(len(s)-l+1):
        result[s[i:i+l]] = s.count(s[i:i+l])
    return result

print(count_char("practice"))
print(count_char('tataki',2))

输出:

{'p': 1,'r': 1,'a': 1,'c': 2,'t': 1,'i': 1,'e': 1}
{'ta': 2,'at': 1,'ak': 1,'ki': 1}

请注意,str.count 只计算非重叠出现的次数,因此 count_char('ttt',2) 将返回 1,而不是 2。如果您想计算重叠出现的次数,则需要手动执行此操作。例如:

def count_char(s,l = 1):
    result = {}
    for i in range(len(s)-l+1):
        sub = s[i:i+l]
        if sub not in result:
            result[sub] = sum(s[j:j+l] == sub for j in range(len(s)-l+1))
    return result

此函数在调用为 2 时将返回 count_char('ttt',2)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。