ruby-dev

In article <[email protected]>,
  "NARUSE, Yui" <[email protected]> writes:

> 必要ならば定数を作った方がいいのでしょうね。

もう作ってしまいました。

> うーん、それってレイヤーが違うような気がします。
>
> 例えば、
>   /ss/ui =~ "\u00df".encode("iso-8859-1")
> はマッチしてもいいと思いますが、
> # Unicode の U+0000 から U+00FF までは ISO-8859-1 と一致するはずだし
> ignorecase の挙動に関してはエンコーディングとは
> 別のレイヤーで処理するべきかと感じます。
> # やるかは別として、Regexp::IGNORECASE_COMBINE を作りつつ、
> # エンコーディングごとにデフォルトを変えるとか

レイヤが違うといわれても oniguruma はエンコーディングのとこ
ろでやってますし。

> ちょっとずれますが、
>   /\s/ =~ "\u3000" #=> 0
>   /\s/e =~ "\u3000".encode("euc-jp") #=> nil
> とか。

これもエンコーディングを気にしないといけない例ですね。

こういう例も含めて、正規表現の機能にはエンコーディングを気に
する必要があるものがあり、気にする正規表現を書いたときは書い
た時点で固定してしまうのが適切だと思っています。

気にしないときには //e じゃなくて // と書けばいいんじゃない
でしょうか。

> 例えば以下のようになるわけで、あまり強い意味を持たせるのはどうなんですかねぇ。
>
> % ruby_1_8 -Ku -e'p /a/s =~ "a\xE3\x81\x82"'
> 0
> % ruby_1_9_1 -Ku -e'p /a/s =~ "a\xE3\x81\x82"'
> -e:1:in `<main>': incompatible encoding regexp match (Windows-31J regexp with UTF-8 string) (Encoding::CompatibilityError)

/a/ ならいいかもしれませんが、/fi/i とか /ss/i は意図してい
ない動作になるかもしれないしなぁ。

> 「明確だった」使い方とは、例えば

私が感じているのは、//e は EUC-JP を想定していると理解して問
題なさそうだということです。

>> /\xB9\xA5/ =~ "\xA5\xB9\xA5\xC8"
> => 1
>> /#{"\xB9\xA5"}/e =~ "\xA5\xB9\xA5\xC8"
> => nil
> とか
>> /#{"\\\\"}/s =~ "\x95\x5C"
> => nil
>> /#{"\\\\"}/ =~ "\x95\x5C"
> => 1
> でしょうか。
> どちらもバイト構造に起因する誤マッチを防ぐためのものに見えます。
> この種のバイト構造に起因する誤マッチは、Ruby 1.9 ではわざわざ
> fixed_encoding を付けなくても回避できるので、これの防止では不要に思えます。

1.9 では文字列が文字境界を知っているというのはそうですね。

1.8 の /\xB9\xA5/e はどうなんですかねぇ。上の例では #{} で避
けてますが。1.9 でそうしろっていわれてもできませんけれど。

> 他に何かマッチ対象のエンコーディングを絞りたいような利用例ってありましたっけ。

oniguruma にはエンコーディングを気にする必要がある機能があり
ますから。
-- 
[田中 哲][たなか あきら][Tanaka Akira]

Thread

Prev Next

In This Thread

Prev Next

[#38109] [Bug #1234] RDoc failure in benchmark/bm_so_meteor_contest.rb at or around line 542 column — daigo moriwaki <redmine@...>

[#38110] [Bug #1237] URI.decodeが期待した値を返さない — Kazuhiko ISOBE <redmine@...>

[#38118] CSV.readでブロック — madoka yamamoto <yamamotomadoka@...>

[#38121] regex performace tuning and ABI compatibility — Yukihiro Matsumoto <matz@...>

[#38131] Bug when daemonizing — rubikitch@...

[#38135] [Bug:trunk] SizedQueue can be pushed over its limit — Yusuke ENDOH <mame@...>

[#38140] IO::WantRead and IO::WantWrite module for nonblocking exceptions — Tanaka Akira <akr@...>

[#38144] forwardable of ruby-1.9.1 — keiju@... (Keiju ISHITSUKA)

[#38145] MSの方との相談に先立って — masayoshi takahashi <maki@...>

[#38150] [Bug #1267] DL::Handle#sym segfaults with nil — Nobuyoshi Nakada <redmine@...>

[#38153] [feature:trunk] warning when Kernel#p is used — Yusuke ENDOH <mame@...>

[#38155] [Bug #1270] FileUtils.chown: グループを数値指定するとTypeError — Sakuro OZAWA <redmine@...>

[#38160] addressing to rb_jmp_buf — 真野 靖 <mano@...>

[#38168] [Bug:1.8] Thread.new { Queue.new.pop }; fork — Tanaka Akira <akr@...>

[#38169] [Bug #1290] lib/mkmf.rb:73: [BUG] Segmentation fault — pegacorn jp <redmine@...>

[#38171] [Bug:1.8] SEGV by ObjectSpace.define_finalizer("") {} — Tanaka Akira <akr@...>

[#38173] [Bug #1297] Pathname#subの挙動について — Shintaro KAKUTANI <redmine@...>

[#38178] Re: [ruby-core:22577] [Bug #1205] SET_STACK_END crashes due to uninitialized ruby_current_thread — Nobuyoshi Nakada <nobu@...>

[#38179] Re: [ruby-core:22923] Re: [Bug #1214] Build issues — Nobuyoshi Nakada <nobu@...>

[#38180] [Bug #1300] Failure: test_open(TestSyslog) — Kazuhiro NISHIYAMA <redmine@...>

[#38182] [Bug #1305] target_os が darwin 系の場合に動的リンク不可能な実行形式が生成される場合がある — Kenta Murata <redmine@...>

[#38183] [Bug #1305](Closed) target_os が darwin 系の場合に動的リンク不可能な実行形式が生成される場合がある — Nobuyoshi Nakada <redmine@...>

[#38184] [Bug #1310] HEAP_SIZE で不具合？ — Hikari AIKAWA <redmine@...>

[#38185] [Bug #1310] HEAP_SIZE で不具合？ — Narihiro Nakamura <redmine@...>

[#38189] [Backport #1221](Closed) [PATCH] load がディレクトリを読み込もうとしてエラー — Shyouhei Urabe <redmine@...>

[#38191] big time — Tanaka Akira <akr@...>

[#38192] Ruby1.9系のString#%の挙動について — Masao Mutoh <mutomasa@...>

[#38207] [Bug #1328] "p eval('0' + '+0.1'*n)" の挙動 — Kenta Murata <redmine@...>

[#38208] [Bug #1329] Ruby 1.8.8 で "p eval('0' + '+0.1'*n)" が Segmentation Fault を発生させる — Kenta Murata <redmine@...>

[#38209] [Bug #1329] Ruby 1.8.8 で "p eval('0' + '+0.1'*n)" が Segmentation Fault を発生させる — Kenta Murata <redmine@...>

[#38210] [Bug #1330] BigDecimal オブジェクトを何度も使い回すと Bus Error が発生することがある — Kenta Murata <redmine@...>

[#38211] [Bug #1329](Closed) Ruby 1.8.8 で "p eval('0' + '+0.1'*n)" が Segmentation Fault を発生させる — Nobuyoshi Nakada <redmine@...>

[#38217] [Feature #1333] Delegator < BasicObject — Shyouhei Urabe <redmine@...>

[#38218] rinda/eval.rb — Masatoshi SEKI <m_seki@...>

[#38220] [Bug #1337] mkmf.rbが生成したMakefileでmake -j N installに失敗する場合がある — Takuto Matsuu <redmine@...>

[#38221] [Bug #1338] Kernel#select crashes when many files are opened — Kengo Matsuyama <redmine@...>

[#38222] *BSD で fork できない理由 — "KISHIMOTO, Makoto" <[email protected]>

[#38225] [Bug #1339] 'cc' for LDSHARED and LIBRUBY_LDSHARED on darwin* — Wataru Kimura <redmine@...>

[ruby-dev:38127] Re: ENCODING_FIXED と ENCODING_NONE の廃止

Thread

In This Thread

[#38160] addressing to rb_jmp_buf — 真野靖 <mano@...>