タグ

unicodeに関するmoozのブックマーク (11)

  • ユニコードで使用可能な絵文字 - 世界の特殊文字ウィキ

    世界の特殊文字ウィキ ラテン文字などの拡張補助文字や人工文字、ユニコード絵文字など特殊文字に関するウィキです。 トップページページ一覧メンバー編集 × ユニコードで使用可能な絵文字 最終更新: qvarie 2022年01月09日(日) 20:27:24履歴 Tweet 【拡張文字辞典】カテゴリです。 ユニコードで使用できる絵文字をとりあげます。 【古代絵文字】の項目表示には、線文字B・ファイストス円盤文字・ヒエログリフ対応フォントが必要です。 (※Windows 7の初期バージョンなどユニコード5.2.0以降に対応されていないOSや、IEシリーズなど一部絵文字が表示できないブラウザもあるので注意してください。iOS 5以降やアンドロイドなどのOSでは、ユニコード絵文字がカラー絵文字に変化する場合があります。) ここで取り上げているもの以外の装飾記号 Dingbats カテゴリにある絵文字

    ユニコードで使用可能な絵文字 - 世界の特殊文字ウィキ
    mooz
    mooz 2012/02/15
  • gnome-terminal上で、"○"など一部の全角文字が重なって表示される : Ubuntu Japanese Kaizen Project

    これは、以下のフォーラムの報告に基づくものです。 「gterm で一部の全角文字の右隣の文字が半分重なる」 http://forum.ubuntulinux.jp/viewtopic.php?pid=8512 重なるのはUnicodeでEast Asian Ambiguousと指定されている文字のようです。これは、ロケールによって幅が変わるような文字に指定されます。例えば白丸(U+25CB/○)は日語ロケールでは全角ですが、英語ロケールでは半角として扱われる、らしい? で、それぞれの文字の幅は、wcwidth()にワイド文字を渡せば/usr/share/i18n/charmaps/UTF-8.gzを参考にその幅を返してくれるようなのですが、UTF-8.gzでは基的にAmbiguousはすべて半角であると指定されている(正確には何も指定されていないためにデフォルトの値である1が返る)ので

    mooz
    mooz 2012/02/10
    East Asian Ambiguous. CJK_WIDTH=1. ncurses の wcwidth().
  • vs UTF-8, UTF-16, UCS4 - 枕を欹てて聴く

    前置き おはミルキィ! ChromeFullFeedが公開停止になった話を前置きとして書いていたのですが, あまり関係がないのと, 長くなりそうになってきたので, 別の記事に分けました. http://d.hatena.ne.jp/Constellation/20110530/1306701693 概要 という前置きで. ECMAScriptと切っても切れない文字コード, UTF-16. iv / lv5はUnicode変換のためにICUに依存していたのですが, UTF-8 <=> UTF-16なら何とか自分でも書けるのではないかと思い, Unicode Converterを書きました. これでlv5の依存はlibboost, libgc (Boehm GC)に減りましたー. Unicodeの変換の教授, bugつぶしにおいて, id:masa141421356 さんに非常にお世話になりま

    vs UTF-8, UTF-16, UCS4 - 枕を欹てて聴く
    mooz
    mooz 2011/05/30
    "及び自作engineのlv5で動作を確認しました" cool
  • ICU - International Components for Unicode

    2025-03-13: ICU 77 is now available — releases/tag/release-77-1 — Maven: com.ibm.icu / icu4j / version 77.1 ICU 77 updates to CLDR 47 locale data with new locales, and various additions and corrections. ICU 77 is mostly focused on bug fixes, segmentation conformance, and other refinements. The technology preview implementations of the CLDR MessageFormat 2.0 specification have been updated to incor

  • UCS-2とUTF-8

    最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき,文字コードの方式が2種類,あるいはそれ以上あることに気が付かれるかもしれません。例えば,一つはUnicodeとあるのに対し,もう一つはUnicode (UTF-8)と表記されているかもしれません。この2つは,また,その違いは何でしょうか(前者はUTF-16の一形態なのですが…)。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット,ISO-10846-1は,16ビット(16桁の二進数)でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets,「2つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット(8桁の二進数)のことです。 ユニコードの特定の文字は,例

    mooz
    mooz 2011/04/05
    UTF-8, UTF-16
  • Unicode - JavaScript | MDN

    最高のウェブ開発を学びましょう MDN から役立つ最新情報をあなたのメールボックスへ直接お届けします。 ニュースレターは今のところ英語のみで提供されています。

    Unicode - JavaScript | MDN
    mooz
    mooz 2011/04/02
    Unicode 値
  • Emacs23(以降) と 曖昧幅文字(East asian ambiguous) - とりあえず暇だったし何となくはじめたブログ

    Emacs23 以降の Unicode の曖昧幅文字取り扱いについてのメモです。 曖昧幅文字とは 環境によって、幅が1だったり、2だったりする文字のことで、具体的には、「○」とか「×」とか「α」とかそんな文字を指します。 CJK 環境だと、2 と解釈して欲しいけれども、それ以外の環境は、1と解釈して欲しかったりする文字です。 一覧としては、以下の URL のテキストで、A とついているものがそれにあたります。 http://www.unicode.org/Public/UNIDATA/EastAsianWidth.txt Emacs23 での扱い 使っている環境に依存します。具体的には、以下の2つに依存します。 # 23 と書いてありますは、主に 24 で確認しています。やっている事は同じはずです。 環境変数 LC_ALL、LC_CTYPE、LANG に何を設定しているか set-lang

    Emacs23(以降) と 曖昧幅文字(East asian ambiguous) - とりあえず暇だったし何となくはじめたブログ
    mooz
    mooz 2011/03/28
    Unicode における 'A'mbiguous の文字幅扱い.CJK 環境では 2, それ以外では 1 となるように扱う仕組み.
  • 東アジアの文字幅 - Wikipedia

    この記事には複数の問題があります。 改善やノートページでの議論にご協力ください。 出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。(2017年4月) 独自研究が含まれているおそれがあります。(2017年4月) 出典検索?: "東アジアの文字幅" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL 「東アジアの文字幅」(英: East Asian Width)は、Unicode標準の附属書 (英: Unicode Standard Annex) の一つ。Unicodeに収録されている各文字の文字幅に関するヒントを与える East_Asian_Width 参考特性(英: informative property)を定めている。 東アジアのマルチバイト文字コード規格は必ずしも文字幅

    東アジアの文字幅 - Wikipedia
    mooz
    mooz 2011/03/12
  • unicodedata — Unicode Database

    unicodedata — Unicode Database¶ This module provides access to the Unicode Character Database (UCD) which defines character properties for all Unicode characters. The data contained in this database is compiled from the UCD version 16.0.0. The module uses the same names and symbols as defined by Unicode Standard Annex #44, “Unicode Character Database”. It defines the following functions: unicodeda

    unicodedata — Unicode Database
    mooz
    mooz 2011/03/12
    文字幅の取得を行なったり
  • Rubyの難読化へのさらなる一歩 - ぬいぐるみライフ?

    RubyではUTF-8文字の変数名を使うことができるということを@fusuianさんとの会話で思い出した. このことを利用すると,以下のように変数名を全角スペースにしてしまうこともできる. # -*- coding: utf-8 -*- = "Hello, world!" puts 読めない. また,どうやらRLO(文字列の順番を右→左の向きにするための特殊文字)も変数名として使うことができるらしく,このようなプログラムも書けてしまう.リンク先のソースではxの直後にRLO文字が入っている.そのせいで当は12345と書いてあるのに54321と書いてあるように見える.これはひどい. これらを使うことでもっと面白い難読プログラムが書けそうだ.

    Rubyの難読化へのさらなる一歩 - ぬいぐるみライフ?
    mooz
    mooz 2011/01/10
    RLO (Right to Left Override). 文字列の順番を右から左の向きにする特殊記号. Unicode なので変数名に使える.
  • Understanding Zs (space separator) in Unicode - OKWAVE

    In JavaScript, the Zs (space separator) is a Unicode character defined in the WhiteSpace category. ECMA262 Edition 5 introduced the String.prototype.trim() method, which removes leading and trailing white space, including Zs characters. Unicode規定の Zs (space separator) とは ECMA262 Edition 5 規定の String.prototype.trim() を未対応ブラウザ用に実装しようとしています。 仕様には「WhiteSpace, LineTerminator を取り除く」との記述がありました。 ------- 1

    Understanding Zs (space separator) in Unicode - OKWAVE
    mooz
    mooz 2011/01/03
    Unicode の Zs (空白文字) クラス. String.prototype.trim の実装に.
  • 1