ふとShift JISって結構対応しているけど、需要あるのか疑問に感じたのでWebサイトの文字コードの世界シェアについて調べてみました。きっかけはVSCodeでSJISファイルの編集をする機会がちょこちょこあって、文字化けが面倒で、なんかもうUTF8にしたらいいんじゃないかと少しイラっとしたことに始まります。
結論的にはSJISは世界で0.3%しか使用されていませんでした……そりゃ海外製のツールはSJISなんて無視するよね……Web制作で言うと「Operaはいいや」的な。
Webサイト文字コードの世界シェア
前提として、調査を行っているw3techsのデータを引用させていただいています。w3techsはコンサルティング会社Q-Success社(オーストリア)の傘下で、インターネットやWebテクノロジーに特化した第三者調査機関です。FAQページ(https://w3techs.com/faq)を見ると検索ボット(クローラー)と同じ仕組みで世界中のWebサイトの技術データを解析しているとのことです。
圧倒的1位はやっぱり……
早速ですがランキング結果を見てみましょう。
(引用元・参照)https://w3techs.com/technologies/overview/character_encoding
2024年4月11日のデータになります。ダントツでUTF-8が使われていますね。98.2%。
次いで意外とISO-8859-1が多いみたいです(1.2%ですが……)。
順にWindows-1252, Windows-1251, Shift JIS, GB2312, EUC-KR, Windows1250とほぼ横並びのシェア率なのが分かりますね。一応一覧表にまとめておきましょう。何かに使えるかもしれない。
順位 | 文字コード | 世界シェア |
No.1 | UTF-8 | 98.2% |
No.2 | ISO-8859-1 | 1.2% |
No.3 | Windows-1252 | 0.3% |
No.4 | Windows-1251 | 0.3% |
No.5 | Shift JIS | 0.3% |
No.6 | EUC-JP | 0.1% |
No.7 | GB2312 | 0.1% |
No.8 | EUC-KR | 0.1% |
No.9 | Windows1250 | 0.1% |
もうUTF-8を利用すうことがデファクトスタンダードとなっていると言ってよいと思います。(危うしSJIS1!?)
日本における文字コードのシェアランキング
と、世界シェアを確認したところで、やっぱり日本国内のシェアも気になりますよね?日本でSJISがダントツに利用されているのならば、まぁ仕方ないか、と諦めもつきます。もう少し深堀りして、日本国内ってどうなの?を確認してみましょう。
なんと!Shift JISは……
今度のデータはhttps://www.inet-solutions.jp/technology/charset-share/こちらの名古屋のWebシステム開発「iNet Solutions」社による公開調査データを引用させていただきます。
(引用元・参照)https://www.inet-solutions.jp/technology/charset-share/
実はこのデータは少々古く2019年時点のものなのですが、既にUTF-8が81.09%と群を抜いて採用されていることがわかります。Mac最盛期にWebサイトがMacでUTF-8で作られるようになったことに端を発し、WindowでもUTF-8が取り込まれていったという経緯があるようです。※諸説あり?
ですので、2019年においてもWindowでShift JISを使わないといけない、という訳でもなく、当時からUTF-8を利用することが常態化していたことがうかがわれます。
国内の文字コードを海外の標準に合わせていこう、という動きは以前からあったのかもしれません。
こう見ると、ますます「日本だからSJISでしょ」っていうムーブは消滅しても問題ないように感じます。
UTF-8 | 81.09% |
Shift JIS | 14.88% |
EUC-JP | 1.11% |
x-jis | 0.25% |
iso-8859-1 | 0.06% |
windows-1252 | 0.03% |
us-ascii | 0.03% |
とは言ってもどうしてもUTF-8以外を使わないといけないシーン
Shift JISのメリット
Shift JISはUTF-8などの文字コードと比較すると消費するバイト数が少ないことが挙げられます。また、最近は減ってはいますが、高齢者に多いガラケー使いの場合にほとんど正常に文字が表示できます。UTF-8では多少文字化けが起こる場合もあるとのことです。
EUC-JPのメリット
こちらもShift JIS同様に比較的、消費バイト数が少ないことが特徴です。加えて、いわゆる「ダメ文字」が無いことも強いですね。「ダメ文字」とはどうしても文字化けしてしまう文字のことです。次のQiitaの記事(https://qiita.com/takey/items/ca49c8048992e8f6c674)が分かりやすいので、ご存じない方は一度ご参照ください。
こう見ると、比較的大量の文章が掲載される高齢者向け(ガラケー向け)の大規模Webサイトの場合には、Shift JISを採用することも検討の余地が出てきそうですね。ただ、個人的にはもうUTF-8にしてもらったほうが、運用面(各種エディタ、ウェブツール等)では効率が非常に良くなるので、文字コードを決める際は、ウェブマスターとエンジニアとの協議で歩み寄りが必要そうです。
話が少しそれましたが……
世界シェア・国内シェアダントツTOPのUTF-8を是非使っていきたいとは思いますが、プロダクトの性質によっては別の文字コードも考慮対象となり得ることが分かりました。
ただ、プログラマだったり、エンジニアでも手を動かす側からすると、UTF-8をぜひとも採用していただきたいところです。VSCodeの拡張ツールもちらほらSJISだと文字化けが起きたりするので、本当に手間なんです。