如何解决使用Javascript检索二进制文件内容,对base64进行编码,然后使用Python对其进行反解码
所以我在对自己回答-对此感到抱歉-但我认为这对于像我一样迷路的人可能很有用;)
所以,你必须使用ArrayBuffer和设置responseType
您的属性XMLHttpRequest
对象实例的arraybuffer
检索字节的原始数组,可以转换为使用下列方便的功能的base64(发现那里,笔者可以在这里祝福):
function base64ArrayBuffer(arrayBuffer) {
var base64 = ''
var encodings = 'ABCDEFGHIJKLMnopQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/'
var bytes = new Uint8Array(arrayBuffer)
var byteLength = bytes.byteLength
var byteRemainder = byteLength % 3
var mainLength = byteLength - byteRemainder
var a, b, c, d
var chunk
// Main loop deals with bytes in chunks of 3
for (var i = 0; i < mainLength; i = i + 3) {
// Combine the three bytes into a single integer
chunk = (bytes[i] << 16) | (bytes[i + 1] << 8) | bytes[i + 2]
// Use bitmasks to extract 6-bit segments from the triplet
a = (chunk & 16515072) >> 18 // 16515072 = (2^6 - 1) << 18
b = (chunk & 258048) >> 12 // 258048 = (2^6 - 1) << 12
c = (chunk & 4032) >> 6 // 4032 = (2^6 - 1) << 6
d = chunk & 63 // 63 = 2^6 - 1
// Convert the raw binary segments to the appropriate ASCII encoding
base64 += encodings[a] + encodings[b] + encodings[c] + encodings[d]
}
// Deal with the remaining bytes and padding
if (byteRemainder == 1) {
chunk = bytes[mainLength]
a = (chunk & 252) >> 2 // 252 = (2^6 - 1) << 2
// Set the 4 least significant bits to zero
b = (chunk & 3) << 4 // 3 = 2^2 - 1
base64 += encodings[a] + encodings[b] + '=='
} else if (byteRemainder == 2) {
chunk = (bytes[mainLength] << 8) | bytes[mainLength + 1]
a = (chunk & 64512) >> 10 // 64512 = (2^6 - 1) << 10
b = (chunk & 1008) >> 4 // 1008 = (2^6 - 1) << 4
// Set the 2 least significant bits to zero
c = (chunk & 15) << 2 // 15 = 2^4 - 1
base64 += encodings[a] + encodings[b] + encodings[c] + '='
}
return base64
}
var xhr = new XMLHttpRequest();
xhr.open('GET', 'http://some.tld/favicon.png', false);
xhr.responseType = 'arraybuffer';
xhr.onload = function(e) {
console.log(base64ArrayBuffer(e.currentTarget.response));
};
xhr.send();
这将记录一个表示二进制文件内容的 有效 base64编码的字符串。
编辑: 对于无法访问ArrayBuffer
且btoa()
编码字符失败的旧版浏览器,这是获取任何二进制文件的base64编码版本的另一种方法:
function getBinary(file){
var xhr = new XMLHttpRequest();
xhr.open("GET", file, false);
xhr.overrideMimeType("text/plain; charset=x-user-defined");
xhr.send(null);
return xhr.responseText;
}
function base64Encode(str) {
var CHARS = "ABCDEFGHIJKLMnopQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";
var out = "", i = 0, len = str.length, c1, c2, c3;
while (i < len) {
c1 = str.charCodeAt(i++) & 0xff;
if (i == len) {
out += CHARS.charat(c1 >> 2);
out += CHARS.charat((c1 & 0x3) << 4);
out += "==";
break;
}
c2 = str.charCodeAt(i++);
if (i == len) {
out += CHARS.charat(c1 >> 2);
out += CHARS.charat(((c1 & 0x3)<< 4) | ((c2 & 0xF0) >> 4));
out += CHARS.charat((c2 & 0xF) << 2);
out += "=";
break;
}
c3 = str.charCodeAt(i++);
out += CHARS.charat(c1 >> 2);
out += CHARS.charat(((c1 & 0x3) << 4) | ((c2 & 0xF0) >> 4));
out += CHARS.charat(((c2 & 0xF) << 2) | ((c3 & 0xC0) >> 6));
out += CHARS.charat(c3 & 0x3F);
}
return out;
}
console.log(base64Encode(getBinary('http://www.google.fr/images/srpr/logo3w.png')));
希望这能对我有所帮助。
解决方法
我正在尝试使用XMLHttpRequest
(使用最新的Webkit)下载二进制文件,并使用此简单功能对base64的内容进行编码:
function getBinary(file){
var xhr = new XMLHttpRequest();
xhr.open("GET",file,false);
xhr.overrideMimeType("text/plain; charset=x-user-defined");
xhr.send(null);
return xhr.responseText;
}
function base64encode(binary) {
return btoa(unescape(encodeURIComponent(binary)));
}
var binary = getBinary('http://some.tld/sample.pdf');
var base64encoded = base64encode(binary);
附带说明一下,以上所有内容都是标准Javascript内容,包括btoa()
和encodeURIComponent()
:https
:
//developer.mozilla.org/en/DOM/window.btoa
这工作非常顺利,我什至可以使用Javascript解码base64内容:
function base64decode(base64) {
return decodeURIComponent(escape(atob(base64)));
}
var decodedBinary = base64decode(base64encoded);
decodedBinary === binary // true
现在,我想使用Python解码base64编码的内容,该内容使用一些JSON字符串来获取base64encoded
字符串值。天真的,这就是我的工作:
import urllib
import base64
# ... retrieving of base64 encoded string through JSON
base64 = "77+9UE5HDQ……………oaCgA="
source_contents = urllib.unquote(base64.b64decode(base64))
destination_file = open(destination,'wb')
destination_file.write(source_contents)
destination_file.close()
但是生成的文件无效,看起来该操作已被UTF-8,编码或其他尚不清楚的东西弄乱了。
如果在将UTF-8内容放入目标文件之前尝试对其进行解码,则会引发错误:
import urllib
import base64
# ... retrieving of base64 encoded string through JSON
base64 = "77+9UE5HDQ……………oaCgA="
source_contents = urllib.unquote(base64.b64decode(base64)).decode('utf-8')
destination_file = open(destination,'wb')
destination_file.write(source_contents)
destination_file.close()
$ python test.py
// ...
UnicodeEncodeError: 'ascii' codec can't encode character u'\ufffd' in position 0: ordinal not in range(128)
附带说明一下,这是同一文件的两种文本表示形式的屏幕截图。左:原件;右:从base64解码的字符串中创建的一个:http://cl.ly/0U3G34110z3c132O2e2x
尝试重新创建文件时,是否存在已知的技巧来规避编码问题?您将如何实现自己?
任何帮助或暗示非常感谢:)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。