文本文件变成了一些胡言乱语

如何解决文本文件变成了一些胡言乱语

这是原来在pcap里面的tcpdump，改成txt了。输入：- sip.txt

ÔÃ²¡          Ü     ªkã_¹¦ R  R   hIÿkRT 4V E`D]  @9°Ã'ö%1æËÄÞ÷0ûðSIP/2.0 403 Forbidden
Via: SIP/2.0/UDP XXX.XX.XX.X:57079;branch=94tsjam66cmay5bpswyfta0nebw34zhfctjuuge2baevikbk03opf15t6wvovnb82mjih3v;received=IP;rport=57079
From: "IP" <sip:IP@IP>;tag=0c26cd11
To: <sip:XXXXXX@XXX.XX.XX.XXX>;tag=as3a5a21bf
Call-ID: 88c218486f66a6aa214d483d988dfa9c
CSeq: 2 INVITE
Server: Asterisk
Allow: INVITE,ACK,CANCEL,OPTIONS,BYE,REFER,SUBSCRIBE,NOTIFY,INFO,PUBLISH,PRACK,MESSAGE
Supported: replaces,timer
Reason: Q.850;cause=21
Content-Length: 0

我的代码

import re
from collections import defaultdict
import io

with io.open('file location','rb',encoding='utf-8') as f:

    text = f.readlines()
result = []
blocks = text.split('\n\n\n')

# print(blocks)

print(len(blocks))
IP_add_dict_list = defaultdict(list)
IP_add_dict_set = defaultdict(set)

for block in blocks:
    if ("CSeq: 1 INVITE" or "CSeq: 1 INVITE") in block:
        caller = r";received=\d{1,3}\.\d{1,3};"
        x = re.search(caller,block)
        callerIP = x.group()
        callerIP = callerIP[10:-1]
        to = r"To: <sip:(\d|[+]|(0-9))*@"
        y = re.search(to,block)
        toSip = y.group()
        toSip = toSip[9:-1]
        call = (callerIP,toSip)
        result.append(call)
        # print(callerIP,toSip)
        IP_add_dict_list[callerIP].append(toSip)
        IP_add_dict_set[callerIP].add(toSip)
print(IP_add_dict_list)
print("---------------")
print(IP_add_dict_set)

我的输出：- 错误

with io.open('file location',encoding='utf-8') as f:
ValueError: binary mode doesn't take an encoding argument

解决方法

你在评论中说你用来保存输出的命令是

tcpdump -i eth0 -s 1500 udp port 5060 -w sip.txt

tcpdump -w 以描述的二进制格式保存捕获的数据包，例如here 和 here。文件名对此没有影响。 tcpdump man page 中的说明说：

-w
将原始数据包写入文件，而不是解析并打印出来。

如果没有设置 -w 选项，tcpdump 会解析数据包并以文本形式打印出来。如果要保存此输出，只需将输出重定向到文件，例如使用 tcpdump -l ... > dump.txt 或 tcpdump -l ... >> dump.txt，其中 -l 选项告诉它缓冲 stdout 行，确保即使 tcpdump 被终止，输出也被实际写入，例如Ctrl-C。

同时使用 -w 和输出重定向可能不会有太大作用，因为使用 -w，标准输出上几乎没有输出。