ガジェット@2ちゃんまとめ

Just another WordPress site

日本語の漢字6万字すべてがコンピューターで使用可能に

   

IT速報 http://ift.tt/2C4lsyN

日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、1万字しか扱うことができなかった。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターで日本語の漢字すべてを使用可能になったという。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。
続きはソース元から
http://ift.tt/2zoWJA2

続きを読む

 - 未分類 ,

×