[B! unicode] moozのブックマーク

ユニコードで使用可能な絵文字 - 世界の特殊文字ウィキ

世界の特殊文字ウィキラテン文字などの拡張補助文字や人工文字、ユニコード絵文字など特殊文字に関するウィキです。トップページページ一覧メンバー編集 × ユニコードで使用可能な絵文字最終更新： qvarie 2022年01月09日(日) 20:27:24履歴 Tweet 【拡張文字辞典】カテゴリです。ユニコードで使用できる絵文字をとりあげます。【古代絵文字】の項目表示には、線文字B・ファイストス円盤文字・ヒエログリフ対応フォントが必要です。 (※Windows 7の初期バージョンなどユニコード5.2.0以降に対応されていないOSや、IEシリーズなど一部絵文字が表示できないブラウザもあるので注意してください。iOS 5以降やアンドロイドなどのOSでは、ユニコード絵文字がカラー絵文字に変化する場合があります。) ここで取り上げているもの以外の装飾記号 Dingbats カテゴリにある絵文字

mooz 2012/02/15

unicode

リンク

gnome-terminal上で、"○"など一部の全角文字が重なって表示される : Ubuntu Japanese Kaizen Project

これは、以下のフォーラムの報告に基づくものです。「gterm で一部の全角文字の右隣の文字が半分重なる」 http://forum.ubuntulinux.jp/viewtopic.php?pid=8512 重なるのはUnicodeでEast Asian Ambiguousと指定されている文字のようです。これは、ロケールによって幅が変わるような文字に指定されます。例えば白丸(U+25CB/○)は日本語ロケールでは全角ですが、英語ロケールでは半角として扱われる、らしい？で、それぞれの文字の幅は、wcwidth()にワイド文字を渡せば/usr/share/i18n/charmaps/UTF-8.gzを参考にその幅を返してくれるようなのですが、UTF-8.gzでは基本的にAmbiguousはすべて半角であると指定されている（正確には何も指定されていないためにデフォルトの値である1が返る）ので

mooz 2012/02/10

East Asian Ambiguous. CJK_WIDTH=1. ncurses の wcwidth().

リンク

vs UTF-8, UTF-16, UCS4 - 枕を欹てて聴く

前置きおはミルキィ! ChromeFullFeedが公開停止になった話を前置きとして書いていたのですが, あまり関係がないのと, 長くなりそうになってきたので, 別の記事に分けました. http://d.hatena.ne.jp/Constellation/20110530/1306701693 概要という前置きで. ECMAScriptと切っても切れない文字コード, UTF-16. iv / lv5はUnicode変換のためにICUに依存していたのですが, UTF-8 <=> UTF-16なら何とか自分でも書けるのではないかと思い, Unicode Converterを書きました. これでlv5の依存はlibboost, libgc (Boehm GC)に減りましたー. Unicodeの変換の教授, bugつぶしにおいて, id:masa141421356 さんに非常にお世話になりま

mooz 2011/05/30

"及び自作engineのlv5で動作を確認しました" cool

リンク

ICU - International Components for Unicode

2025-03-13: ICU 77 is now available — releases/tag/release-77-1 — Maven: com.ibm.icu / icu4j / version 77.1 ICU 77 updates to CLDR 47 locale data with new locales, and various additions and corrections. ICU 77 is mostly focused on bug fixes, segmentation conformance, and other refinements. The techno logy preview implementations of the CLDR MessageFormat 2.0 specification have been updated to incor

mooz 2011/05/20

リンク

UCS-2とUTF-8

最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき，文字コードの方式が２種類，あるいはそれ以上あることに気が付かれるかもしれません。例えば，一つはUnicodeとあるのに対し，もう一つはUnicode (UTF-8)と表記されているかもしれません。この２つは，また，その違いは何でしょうか（前者はUTF-16の一形態なのですが…）。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット，ISO-10846-1は，16ビット（16桁の二進数）でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets，「２つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット（8桁の二進数）のことです。ユニコードの特定の文字は，例

mooz 2011/04/05

UTF-8, UTF-16

unicode

リンク

Unicode - JavaScript | MDN

最高のウェブ開発を学びましょう MDN から役立つ最新情報をあなたのメールボックスへ直接お届けします。ニュースレターは今のところ英語のみで提供されています。

mooz 2011/04/02

Unicode 値

リンク

Emacs23(以降) と曖昧幅文字(East asian ambiguous) - とりあえず暇だったし何となくはじめたブログ

Emacs23 以降の Unicode の曖昧幅文字取り扱いについてのメモです。曖昧幅文字とは環境によって、幅が1だったり、2だったりする文字のことで、具体的には、「○」とか「×」とか「α」とかそんな文字を指します。 CJK 環境だと、2 と解釈して欲しいけれども、それ以外の環境は、1と解釈して欲しかったりする文字です。一覧としては、以下の URL のテキストで、A とついているものがそれにあたります。 http://www.unicode.org/Public/UNIDATA/EastAsianWidth.txt Emacs23 での扱い使っている環境に依存します。具体的には、以下の2つに依存します。 # 23 と書いてありますは、主に 24 で確認しています。やっている事は同じはずです。環境変数 LC_ALL、LC_CTYPE、LANG に何を設定しているか set-lang

mooz 2011/03/28

Unicode における 'A'mbiguous の文字幅扱い．CJK 環境では 2, それ以外では 1 となるように扱う仕組み．

リンク

東アジアの文字幅 - Wikipedia

この記事には複数の問題があります。改善やノートページでの議論にご協力ください。出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。（2017年4月）独自研究が含まれているおそれがあります。（2017年4月）出典検索?: "東アジアの文字幅" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL 「東アジアの文字幅」（英: East Asian Width）は、Unicode標準の附属書 (英: Unicode Standard Annex) の一つ。Unicodeに収録されている各文字の文字幅に関するヒントを与える East_Asian_Width 参考特性（英: informative property）を定めている。東アジアのマルチバイト文字コード規格は必ずしも文字幅

mooz 2011/03/12

unicode

リンク

unicodedata — Unicode Database

unicodedata — Unicode Database¶ This module provides access to the Unicode Character Database (UCD) which defines character properties for all Unicode characters. The data contained in this database is compiled from the UCD version 16.0.0. The module uses the same names and symbols as defined by Unicode Standard Annex #44, “Unicode Character Database”. It defines the following functions: unicodeda

mooz 2011/03/12

文字幅の取得を行なったり

リンク

Rubyの難読化へのさらなる一歩 - ぬいぐるみライフ？

RubyではUTF-8文字の変数名を使うことができるということを@fusuianさんとの会話で思い出した．このことを利用すると，以下のように変数名を全角スペースにしてしまうこともできる． # -*- coding: utf-8 -*- = "Hello, world!" puts 読めない．また，どうやらRLO(文字列の順番を右→左の向きにするための特殊文字)も変数名として使うことができるらしく，このようなプログラムも書けてしまう．リンク先のソースではxの直後にRLO文字が入っている．そのせいで本当は12345と書いてあるのに54321と書いてあるように見える．これはひどい．これらを使うことでもっと面白い難読プログラムが書けそうだ．

mooz 2011/01/10

RLO (Right to Left Override). 文字列の順番を右から左の向きにする特殊記号. Unicode なので変数名に使える.

ruby
unicode

リンク

Understanding Zs (space separator) in Unicode - OKWAVE

In JavaScript, the Zs (space separator) is a Unicode character defined in the WhiteSpace category. ECMA262 Edition 5 introduced the String.prototype.trim() method, which removes leading and trailing white space, including Zs characters. Unicode規定の Zs (space separator) とは ECMA262 Edition 5 規定の String.prototype.trim() を未対応ブラウザ用に実装しようとしています。仕様には「WhiteSpace, LineTerminator を取り除く」との記述がありました。 ------- 1

mooz 2011/01/03

Unicode の Zs (空白文字) クラス. String.prototype.trim の実装に.

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

unicodeに関するmoozのブックマーク (11)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第2週）

月間はてなブックマーク数ランキング（2025年10月）

今週のはてなブックマーク数ランキング（2025年11月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス