タグ

unicodeに関するnitoyonのブックマーク (21)

  • UnicodeDecodeError/UnicodeEncodeErrorに悩まないPython 2.x プログラミング - atsuoishimoto's diary

    最近、ときどきTwitterで「Python」を検索して眺めていたのだが、Pythonの分かりにくいところとして「UnicodeDecodeErrorが出てうざい」という不満をよく見かけるようだ。 確かに、Pythonでは、数字やアルファベット以外のユニコード文字を使おうとすると、対応する処理を書かなければUnicodeEncodeErrorやUnicodeDecodeErrorが出てしまう。Python3では色々改善されているのだが、Python2では分かりにくい点も多い。 このUnicodeDecodeErrorを見て、「Pythonは日語が苦手だ」と考えてしまう人も多いだろう。確かにそう思ってしまっても仕方がないが、それは正しくない。日人だけでなく、アメリカ人でもフランス人でもドイツ人でも、ユニコードを使う時はみんな等しく平等にこのエラーを出しているのである。 もちろん、慣れてし

    UnicodeDecodeError/UnicodeEncodeErrorに悩まないPython 2.x プログラミング - atsuoishimoto's diary
    nitoyon
    nitoyon 2011/04/24
    Python 2.X の Unicode の扱い。encode, decode。
  • ãだらけの文字化けはなぜ起こるか - 西尾泰和のはてなダイアリー

    この記事がはてなダイアリー上で化けないかどうか不安だが。 >>> u"こんにちは世界" u'\u3053\u3093\u306b\u3061\u306f\u4e16\u754c' >>> u"こんにちは世界".encode("utf-8") '\xe3\x81\x93\xe3\x82\x93\xe3\x81\xab\xe3\x81\xa1\xe3\x81\xaf\xe4\xb8\x96\xe7\x95\x8c' >>> [unichr(ord(c)) for c in u"こんにちは世界".encode("utf-8")] [u'\xe3', u'\x81', u'\x93', u'\xe3', ... , u'\x8c'] >>> "".join(_) u'\xe3\x81\x93\xe3\x82\x93\xe3\x81\xab\xe3\x81\xa1\xe3\x81\xaf\xe4\x

    ãだらけの文字化けはなぜ起こるか - 西尾泰和のはてなダイアリー
    nitoyon
    nitoyon 2010/05/05
    日本語を Unicode にして1バイトずつ1文字と解釈すると ã が大量に現れる。
  • Escape Codec Library: ecl.js

    日頃より楽天のサービスをご利用いただきましてありがとうございます。 サービスをご利用いただいておりますところ大変申し訳ございませんが、現在、緊急メンテナンスを行わせていただいております。 お客様には、緊急のメンテナンスにより、ご迷惑をおかけしており、誠に申し訳ございません。 メンテナンスが終了次第、サービスを復旧いたしますので、 今しばらくお待ちいただけますよう、お願い申し上げます。

    nitoyon
    nitoyon 2010/03/21
    文字コード指定してのescape/unescape。
  • Unicode Utilities: UnicodeSet

    Abbreviate Collate UCD format Escape Group by: Info: 128 Code Points [\u0000-\u0008\u000E-\u001F\u007F \u0009-\u000D \u0020 _ \- , ; \: ! ? . ' " ( ) \[ \] \{ \} @ * / \\ \& # % ` \^ + <-> | ~ \$ 0-9 aA bB cC dD eE fF gG hH iI jJ kK lL mM nN oO pP qQ rR sS tT uU vV wW xX yY zZ]

    nitoyon
    nitoyon 2009/12/27
    Unicodeの文字コード調査に便利なツール。正規表現やCategoryなどで検索できる。
  • perl - use utf8; #って何だ? : 404 Blog Not Found

    2009年06月15日07:00 カテゴリLightweight Languages perl - use utf8; #って何だ? id:otsuneに建設予定フラグがたてられていたので。 冬通りに消え行く制服ガールは、夢物語にリアルを求めない。 - subtech Perl の utf8 関係が未だ全く理解できない。わからないことがわからないので整理 use utf8はいつフラグをたてるか use utf8 しててもフラグたたないことがある…… これは、以下の実例を見ていただくのが一番よいだろう。 #!/usr/bin/perl use strict; use warnings; use utf8 (); sub check_flag{ my $str = shift; print qq("$str" ), utf8::is_utf8($str) ? 'is' : 'IS NOT',

    perl - use utf8; #って何だ? : 404 Blog Not Found
    nitoyon
    nitoyon 2009/07/06
    use utf8、encode/decode。
  • 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ

    絵文字とは、顔の表情やその他のシンボルなどを絵で表現した文字で、日の携帯電話ユーザーの間で特に人気があり、広く使用されているものです。先月、Gmail でも絵文字が使用可能になりました。詳しくはGmail チームのブログポスト「Gmail で絵文字が使えるようになりました 」をご覧ください。 これらの絵文字は携帯電話会社が各々独自に創作したもので、メールやウェブなどで使われています。絵文字は元々各携帯会社のユーザー同士で使用されることを前提に作られたものですが、現在では各社間である程度の互換性を保つための絵文字変換表も利用されています。 ユーザーは携帯会社や機種の違いに関わらず、見慣れている絵文字が表示されることを期待しています。自分がメールで送った絵文字が、受信側でも同じか同等の絵文字で表示されること、ウェブで見る絵文字が他の携帯ユーザーにも同じに見えること、また検索エンジンで絵文字

    絵文字のユニコード符号化: 符号化提案用のオープンソースデータ
    nitoyon
    nitoyon 2008/11/27
    emoji ga unicode!!!
  • 携帯の絵文字のUnicodeへの収録 - Cafe Babe

    先ほど,日の携帯で使われている「絵文字」のUnicodeへの収録を検討していることと,そのためのデータがGoogleのブログで発表された.詳細は以下を見て頂きたい. Emoji for Unicode: Open Source Data for the Encoding Proposal(Google Code) Googleの日語ブログでも,もうすぐ日語訳(?)を公開するそうである(追記:公開された.).この案は,将来的にISO/IEC JTC 1/SC 2に提案することになると思われる. この提案で誤解して欲しくないことは,この提案は,既存の携帯の変更を伴わないことである.つまり,この提案は,例えばGmailのような複数の携帯キャリアの絵文字を扱わねばならないシステムを意図したものであり,従来私用領域(Private Use Area)に割り当てていた文字を正式に符号化すると共に

    携帯の絵文字のUnicodeへの収録 - Cafe Babe
    nitoyon
    nitoyon 2008/11/27
    絵文字はじまった?
  • UTF-8 vs. ISO-10646 : 404 Blog Not Found

    2006年03月11日13:07 カテゴリLightweight Languages一日一行野郎 UTF-8 vs. ISO-10646 これだとLiberalなUTF-8ですね。 [を] UTF-8 の文字にマッチする正規表現 UTF-8の文字にマッチする正規表現の素直版。 新旧、というのか、LiberalなUTF-8とStrictなUTF-8の違いは、RFC2044とRFC2279を見ればはっきりします。要はU+11000より上を認めるかどうかということです。今のところUnicode.orgの定義では、U+0000 - U+10FFFF しか認めていないので、そちらの定義に従うと、むしろこの正規表現はさらに短く $RE_UTF8CHAR_STRICT = qr/(?:[\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}

    UTF-8 vs. ISO-10646 : 404 Blog Not Found
    nitoyon
    nitoyon 2008/11/08
    UTF-8にマッチする正規表現を紹介。RFC2044とRFC2279をみればよい、とのこと。
  • 今日のCPANモジュール(跡地) 目次

    Redirecting… Click here if you are not redirected.

    nitoyon
    nitoyon 2008/06/13
    use Encode の使い方がわかりよく書いてある。
  • Perl 5.8.x Unicode関連

    -> 趣旨と注意書き -> UTF8フラグ? -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル 趣旨と注意書き Perl 5.8.x のUnicode 関連です。 正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。 使ってみると、よくわかんなくなったので、ちょっとまとめてみました。 今でもあんまりわかってないかもしれないので、内容は無保証です。 突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

    nitoyon
    nitoyon 2008/06/10
    Perl 5.8 の Unicode 関係の扱い方。詳しく。
  • Perl-5.8 MEMO

    Perl-5.8 覚え書き Last Updated at $Date: 2005/12/04 04:00:59 $. このページは,Perl-5.8.2 を使う上で困ったことなどの覚え書きです. 日語を含むスクリプトを書く 日語 EUC でスクリプトを書く UTF-8 でスクリプトを書く 日語を含むファイルを開く 連想配列で日語を使う 日語を含む正規表現 文字コードの自動判定 古い Perl でも実行できるように書く 未解決の問題 日語を含むスクリプトを書く Perl-5.8.x で日語を扱うスクリプトを書く場合,大きく2通りの方法があります. 日語 EUC でスクリプトを書く. UTF-8 でスクリプトを書く. どちらの方法でも, (1)ファイル入出力, (2)データベースアクセス, (3)プロセス間通信の3つに気をつけて, 明示的にバイト列を文字列に変換したり,また逆

    nitoyon
    nitoyon 2008/06/10
    Perl 5.8 の Unicode の扱いなど。
  • 葉っぱ日記 - レジストリの HKCR¥MIME¥Database¥charset 以下に定義されています。

    UTF-7を利用したXSSは、charset が指定されていない場合に発生すると考えられていますが、少なくとも Internet Explorer においては、これは大きな間違いです。正しくは、Internet Explorer が認識できる charset が指定されていない場合であり、charsetが付加されていても、IEが認識できない文字エンコーディング名である場合にはXSSが発生します。 例えば、次のような HTML は(HTTPレスポンスヘッダで charset が明示されていない場合)IEが文字エンコーディング名を正しく認識できないため、その内容からUTF-7と解釈されるためにスクリプトが動作します。"utf8"という表記はUTF-8の慣用的な表現ではありますが、ハイフンが抜けており正しい表記ではありません。 <html> <head> <meta http-equiv="Co

    葉っぱ日記 - レジストリの HKCR¥MIME¥Database¥charset 以下に定義されています。
    nitoyon
    nitoyon 2008/03/13
    UTF-7 関連の XSS。間違った文字コードと認識させることにより、JSが実行される。 「+ADw-」が「<」、「+AD4-」が「>」。
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    nitoyon
    nitoyon 2007/10/03
    不思議なUnicode文字。はてなびっくり。
  • WTF is this Character? » Tip o’ the Day

    August 26, 2007 ‫‬‭‮‪‫‬‭‮҉ Can anyone enlighten me on its purpose, language of origin? If you paste this character and begin typing, your writing is transformed to right-to-left format. Weird! ‫‬‭‮‪‫‬‭‮҉Point in case. Posted in blog entries

    nitoyon
    nitoyon 2007/08/28
    変な文字。
  • エンコードマニアックス - 各種エンコードやハッシュを一発作成

    SHA-256 e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855 SHA-384 38b060a751ac96384cd9327eb1b1e36a21fdb71114be07434c0cc7bf63f6e1da274edebfe76f65fbd51ad2f14898b95b SHA-512 cf83e1357eefb8bdf1542850d66d8007d620e4050b5715dc83f4a921d36ce9ce47d0d13c5d85f2b0ff8318d2877eec2f63b931bd47417a81a538327af927da3e

    nitoyon
    nitoyon 2007/06/19
    いろんなエンコードに対応。 akiyan さん製。
  • HTML Entity Character Lookup Left Logic

    Using HTML entities is the right way to ensure all the characters on your page are validated. However, often finding the right entity code requires scanning through 250 rows of characters. This lookup allows you to quickly find the entity based on how it looks, e.g. like an < or the letter c. HTML Entity Lookup Lookup HTML entities like, space separate for more: Options Small output Incl. extended

    nitoyon
    nitoyon 2007/06/05
    HTMLのエンティティ表示を教えてくれるサービス。 via ajaxian
  • Unicode 16.0 Character Code Charts

    European Scripts Armenian Armenian Ligatures Carian Caucasian Albanian Cypriot Syllabary Cypro-Minoan Cyrillic Cyrillic Supplement Cyrillic Extended-A Cyrillic Extended-B Cyrillic Extended-C Cyrillic Extended-D Elbasan Georgian Georgian Extended Georgian Supplement Glagolitic Glagolitic Supplement Gothic Greek Greek Extended Ancient Greek Numbers Latin Basic Latin (ASCII) Latin-1 Supplement Latin

    nitoyon
    nitoyon 2007/06/02
    Unicodeの文字一覧表。地域別・名前別。PDFで提供。
  • [#JavaScript] Unicode エンコーディング

     Unicode エンコーディング © 2006 Magicant / 1.2.4 (2006-08-30) を 各形式に URI として Unicode コードポイントとして UTF-8 値として UTF-16 (BE) 値として UTF-16 (LE) 値として XML/HTML として / 変換の例 URI としてデコード abc%26def%25ghi → abc&def%ghi Unicode コードポイントとしてデコード 3042 3044 3046 3048 304A → あいうえお UTF-8 値としてデコード E38182 E38184 E38186 E38188 E3818A → あいうえお UTF-16 (BE) 値としてデコード 3042 3044 3046 3048 304A → あいうえお UTF-16 (LE

    nitoyon
    nitoyon 2007/06/02
    URI・UTFのエンコード・デコードをしてくれるツール。
  • UCD Documentation File Replaced

    The UCD Documentation File You Requested Has Been Replaced The documentation file you are looking for has been replaced by another document in the latest release of Unicode. The table below lists the files in http://www.unicode.org/Public/UCD/latest/ which have been replaced, including the versions of the Unicode Standard in which they are present, and a link to the replacement file thereafter. Th

    nitoyon
    nitoyon 2007/06/02
    Unicode 文字DBの紹介。各種資料の読み方説明など。
  • Ian-Albert.com

    About me Games Contact me

    nitoyon
    nitoyon 2007/05/20
    Google Maps 風に Unicode のテーブルを表示。 via b:id:brazil