Base64 デコード（charset判定総当たり版）

by unarist 2017-04-16 [2017/04/16 11:39:13]
(Forked from Base64 デコード by pacochi)

割といける。

@@ -1,5 +1,5 @@
 /*
- * @title Base64 デコード
+ * @title Base64 デコード（charset判定総当たり版）
  * @description 選択部分を Base64 のエンコード済み文字列とみなしてデコードします。時々化けます。
  * @include *
  * @javascript_url
@@ -12,70 +12,25 @@
 	if (!p || !s) return;
 
 	a = Uint8Array.from(s, c => (c = c.charCodeAt(0), e += c.toString(16).padStart(3, '%0'), c));
-/*
-ecl.js から 文字コード判別部分だけ拝借
-http://www.junoe.jp/downloads/itoh/enc_js.shtml
-以下元コードのコピーライト表記、ライセンス不明
-//
-// Escape Codec Library: ecl.js (Ver.041208)
-//
-// Copyright (C) http://nurucom-archives.hp.infoseek.co.jp/digital/
-//
-*/
-	t = ((i = 0, T = '', c, C) => {
-
-		for (let [r, t] of new Map([
-		 [/%([0-9A-DF][0-9A-F]%[8A]0%|E0%80|[0-7][0-9A-F]|C[01])%[8A]0|%00|%[7F]F/i, 'utf-16'],
-		 [/%E[0-9A-F]%[8A]0%[8A]0|%[CD][0-9A-F]%[8A]0/i, 'utf-8'],
-		 [/%F[DE]/i, /%8[0-9A-D]|%9[0-9A-F]|%A0/i.test(e) ? 'utf-16' : 'euc-jp'],
-		 [/%1B/i, 'iso-2022-jp']
-		])) if (r.test(e)) return t;
-
-		while (0 <= (c = a[i++]) && i < 2048) {
-
-			if (128 > c) continue;
-
-			// 4バイト文字の判定するためにちょっと改変
-			// 参考 : http://www.buildinsider.net/language/csharpunicode/01
-			if((C = a[i]) < 128) i++;
-			 else if(194 <= c && c < 248 && C < 192) {
-
-				if (c < 224 && (T = 'utf-8', i++)) continue;
-				if (2 == a[i + 1] >> 6 && (T = 'utf-8', i += (2 == a[i + 2] >> 6 ? 3 : 2))) continue;
 
-			}
+	// ダメな例：
+	// u8のサロゲートペアがu16として通る
+	// u16のサロゲートペアがsjisとして通る
+	// sjisがu16として通る
+	for (let charset of ["iso-2022-jp", "euc-jp", "sjis", "utf-8", "utf-16"]) {
+		try {
+			s = new TextDecoder(charset, {fatal: true}).decode(a);
+		} catch(e){}
+	}
 
-			if (142 == c && 161 <= C && C < 224 && ('euc-jp' == T || (!T && (T = 'euc-jp')))) continue;
-			if (c < 161) return 'sjis';
-			T = (c < 224 && !T) ? (
-			 ((164 == c && C < 244 || 165 == c && C < 247) && 161 <= C && i++) ? T : (
-			  224 <= C ? 'euc-jp' : 'sjis'
-			 )
-			) : 'euc-jp';
-
-		}
-
-		return(T || 'euc-jp');
-
-	})();
-
-	s = new TextDecoder(t).decode(a);
 	p.appendChild(Object.assign(document.createElement('span'), {
 	 textContent: s,
 	 style: 'display: block; margin: 1em; white-space: pre-wrap;'
-	}));			
+	}));
 
 })();
 
 /*
-経緯とか : 
-http://q.hatena.ne.jp/1289780783
-http://d.hatena.ne.jp/kuro-yo/20101115/1289825621
-http://yurume.hatenadiary.jp/entry/20101116/QmFzZTY0
-今のとここの辺が見られたらいいやって思ってるから utf-16(UTF-16LE) 全然判別できない問題はおあずけ。
-
-初版は ecl.js の他、base64.js を使用、リンク切れてたけど以下と同じもの。
-https://github.com/dankogai/js-base64/blob/15166cc9bfe020d044e67148735e72158be01ab8/base64.js
 
 テスト用文字列
 
@@ -100,4 +55,4 @@
 4TDtMLkwbzDAbxJgVzBfMAIw
 kv+b/53/bzDAb0YwfjBgMGMwXzACMA==
 PNhI3z3YC9492Jfc
-*/
+*/

/*
 * @title Base64 デコード（charset判定総当たり版）
 * @description 選択部分を Base64 のエンコード済み文字列とみなしてデコードします。時々化けます。
 * @include *
 * @javascript_url
 */

((r = window.getSelection(), s = String(r), p = r.anchorNode, e = '', a, t) => {

	if (p.nodeType == 3) p = p.parentNode;
	s = atob(s.replace(/^[^a-zA-Z0-9=\+\/]+/, '').split(/[^a-zA-Z0-9=\+\/\s\r\n]/)[0].replace(/[\s\r\n]/g, ''));
	if (!p || !s) return;

	a = Uint8Array.from(s, c => (c = c.charCodeAt(0), e += c.toString(16).padStart(3, '%0'), c));

	// ダメな例：
	// u8のサロゲートペアがu16として通る
	// u16のサロゲートペアがsjisとして通る
	// sjisがu16として通る
	for (let charset of ["iso-2022-jp", "euc-jp", "sjis", "utf-8", "utf-16"]) {
		try {
			s = new TextDecoder(charset, {fatal: true}).decode(a);
		} catch(e){}
	}

	p.appendChild(Object.assign(document.createElement('span'), {
	 textContent: s,
	 style: 'display: block; margin: 1em; white-space: pre-wrap;'
	}));

})();

/*

テスト用文字列

iso-2022-jp
GyRCJWElbSU5JE83Y0VcJDckPyEjGyhC
GyhJUltdGyRCJE83YyQmJF4kQCRDJD8hIxsoQg==

sjis
g4GDjYNYgs2Mg5N7grWCvYFC
0tvdgs2Mg4KkgtyCvoLBgr2BQg==

euc-jp
peGl7aW5pM+348XcpLekv6Gj
jtKO247dpM+346SmpN6kwKTDpL+how==

utf-8
44Oh44Ot44K544Gv5r+A5oCS44GX44Gf44CC
776S776b776d44Gv5r+A44GG44G+44Gg44Gj44Gf44CC
8J+NiPCfmIvwn5KX

utf-16
4TDtMLkwbzDAbxJgVzBfMAIw
kv+b/53/bzDAb0YwfjBgMGMwXzACMA==
PNhI3z3YC9492Jfc
*/

Permalink RAW Packed Userscript LOADER Metadata ?

Permalink

このページへの個別リンクです。

RAW

書かれたコードへの直接のリンクです。

Packed

文字列が圧縮された書かれたコードへのリンクです。

Userscript

Greasemonkey 等で利用する場合の .user.js へのリンクです。

Loader

@require やソースコードが長い場合に多段ロードする Loader コミのコードへのリンクです。

Metadata

コード中にコメントで @xxx と書かれたメタデータの JSON です。

History

2017/04/16 11:39:13 - 2017-04-16
2017/04/15 16:08:08 - 2017-04-15
2017/04/15 15:28:41 - 2017-04-15
2017/04/15 15:21:47 - 2017-04-15
2017/04/15 15:19:23 - 2017-04-15