2024年最新版 ああ、やっぱり。文字コードの世界シェアランキング

JavaScript

ふとShift JISって結構対応しているけど、需要あるのか疑問に感じたのでWebサイトの文字コードの世界シェアについて調べてみました。きっかけはVSCodeでSJISファイルの編集をする機会がちょこちょこあって、文字化けが面倒で、なんかもうUTF8にしたらいいんじゃないかと少しイラっとしたことに始まります。

結論的にはSJISは世界で0.3%しか使用されていませんでした……そりゃ海外製のツールはSJISなんて無視するよね……Web制作で言うと「Operaはいいや」的な。

Webサイト文字コードの世界シェア

前提として、調査を行っているw3techsのデータを引用させていただいています。w3techsはコンサルティング会社Q-Success社(オーストリア)の傘下で、インターネットやWebテクノロジーに特化した第三者調査機関です。FAQページ(https://w3techs.com/faq)を見ると検索ボット(クローラー)と同じ仕組みで世界中のWebサイトの技術データを解析しているとのことです。

圧倒的1位はやっぱり……

早速ですがランキング結果を見てみましょう。

Webサイト文字コードの世界シェア

(引用元・参照)https://w3techs.com/technologies/overview/character_encoding

2024年4月11日のデータになります。ダントツでUTF-8が使われていますね。98.2%。
次いで意外とISO-8859-1が多いみたいです(1.2%ですが……)。
順にWindows-1252, Windows-1251, Shift JIS, GB2312, EUC-KR, Windows1250とほぼ横並びのシェア率なのが分かりますね。一応一覧表にまとめておきましょう。何かに使えるかもしれない。

順位文字コード世界シェア
No.1UTF-898.2%
No.2ISO-8859-11.2%
No.3Windows-12520.3%
No.4Windows-12510.3%
No.5Shift JIS0.3%
No.6EUC-JP0.1%
No.7GB23120.1%
No.8EUC-KR0.1%
No.9Windows12500.1%
(出典)https://w3techs.com/technologies/overview/character_encoding

もうUTF-8を利用すうことがデファクトスタンダードとなっていると言ってよいと思います。(危うしSJIS1!?)

日本における文字コードのシェアランキング

と、世界シェアを確認したところで、やっぱり日本国内のシェアも気になりますよね?日本でSJISがダントツに利用されているのならば、まぁ仕方ないか、と諦めもつきます。もう少し深堀りして、日本国内ってどうなの?を確認してみましょう。

なんと!Shift JISは……

今度のデータはhttps://www.inet-solutions.jp/technology/charset-share/こちらの名古屋のWebシステム開発「iNet Solutions」社による公開調査データを引用させていただきます。

(引用元・参照)https://www.inet-solutions.jp/technology/charset-share/

実はこのデータは少々古く2019年時点のものなのですが、既にUTF-8が81.09%と群を抜いて採用されていることがわかります。Mac最盛期にWebサイトがMacでUTF-8で作られるようになったことに端を発し、WindowでもUTF-8が取り込まれていったという経緯があるようです。※諸説あり?

ですので、2019年においてもWindowでShift JISを使わないといけない、という訳でもなく、当時からUTF-8を利用することが常態化していたことがうかがわれます。

国内の文字コードを海外の標準に合わせていこう、という動きは以前からあったのかもしれません。

こう見ると、ますます「日本だからSJISでしょ」っていうムーブは消滅しても問題ないように感じます。

UTF-881.09%
Shift JIS14.88%
EUC-JP1.11%
x-jis0.25%
iso-8859-10.06%
windows-12520.03%
us-ascii0.03%
(出典)https://www.inet-solutions.jp/technology/charset-share/

とは言ってもどうしてもUTF-8以外を使わないといけないシーン

Shift JISのメリット

Shift JISはUTF-8などの文字コードと比較すると消費するバイト数が少ないことが挙げられます。また、最近は減ってはいますが、高齢者に多いガラケー使いの場合にほとんど正常に文字が表示できます。UTF-8では多少文字化けが起こる場合もあるとのことです。

EUC-JPのメリット

こちらもShift JIS同様に比較的、消費バイト数が少ないことが特徴です。加えて、いわゆる「ダメ文字」が無いことも強いですね。「ダメ文字」とはどうしても文字化けしてしまう文字のことです。次のQiitaの記事(https://qiita.com/takey/items/ca49c8048992e8f6c674)が分かりやすいので、ご存じない方は一度ご参照ください。

こう見ると、比較的大量の文章が掲載される高齢者向け(ガラケー向け)の大規模Webサイトの場合には、Shift JISを採用することも検討の余地が出てきそうですね。ただ、個人的にはもうUTF-8にしてもらったほうが、運用面(各種エディタ、ウェブツール等)では効率が非常に良くなるので、文字コードを決める際は、ウェブマスターとエンジニアとの協議で歩み寄りが必要そうです。

話が少しそれましたが……

世界シェア・国内シェアダントツTOPのUTF-8を是非使っていきたいとは思いますが、プロダクトの性質によっては別の文字コードも考慮対象となり得ることが分かりました。

ただ、プログラマだったり、エンジニアでも手を動かす側からすると、UTF-8をぜひとも採用していただきたいところです。VSCodeの拡張ツールもちらほらSJISだと文字化けが起きたりするので、本当に手間なんです。

タイトルとURLをコピーしました