ruby-dev

[#46183] [ruby-trunk - Bug #11] prelude.c compilation problem on mswin32 — "fahmisetiawan (Fahmi Setiawan)" <fahmisetiawand@...>

1 message 2012/10/01

[#46184] [ruby-trunk - Bug #7095][Open] Non-recursive marking — "authorNari (Narihiro Nakamura)" <authorNari@...>

6 messages 2012/10/01

[#46185] Re: [ruby-trunk - Bug #7095][Open] Non-recursive marking — SASADA Koichi <ko1@...> 2012/10/01

(2012/10/02 0:21), authorNari (Narihiro Nakamura) wrote:

[#46186] Re: [ruby-trunk - Bug #7095][Open] Non-recursive marking — KOSAKI Motohiro <kosaki.motohiro@...> 2012/10/01

2012/10/1 SASADA Koichi <[email protected]>:

[#46200] [ruby-trunk - Feature #7095][Assigned] Non-recursive marking — "naruse (Yui NARUSE)" <naruse@...> 2012/10/04

[#46188] [ruby-trunk - Bug #7095] Non-recursive marking — "authorNari (Narihiro Nakamura)" <authorNari@...> 2012/10/02

[#46196] [ruby-trunk - Feature #7095] Non-recursive marking — "authorNari (Narihiro Nakamura)" <authorNari@...> 2012/10/03

[#46189] [ruby-trunk - Bug #7100][Open] WEBrick::HTTPServer.new で BindAddress を指定しない場合に必ず警告が記録される — "sho-h (Sho Hashimoto)" <sho-h@...>

5 messages 2012/10/02

[#46217] [ruby-trunk - Bug #7100] WEBrick::HTTPServer.new で BindAddress を指定しない場合に必ず警告が記録される — "ChultOch5 (Sho Morita)" <morita-pub-ja@...> 2012/10/12

[#46404] [ruby-trunk - Bug #7100][Assigned] WEBrick::HTTPServer.new で BindAddress を指定しない場合に必ず警告が記録される — "mame (Yusuke Endoh)" <mame@...> 2012/11/05

[#46421] Re: [ruby-trunk - Bug #7100][Assigned] WEBrick::HTTPServer.new で BindAddress を指定しない場合に必ず警告が記録される — Tanaka Akira <akr@...> 2012/11/06

2012/11/5 mame (Yusuke Endoh) <[email protected]>:

[#46444] [ruby-trunk - Bug #7100] WEBrick::HTTPServer.new で BindAddress を指定しない場合に必ず警告が記録される — "akr (Akira Tanaka)" <akr@...> 2012/11/07

[#46190] [ruby-trunk - Bug #7101][Assigned] 拡張ライブラリの質問 — "shyouhei (Shyouhei Urabe)" <shyouhei@...>

1 message 2012/10/02

[#46203] [ruby-trunk - Bug #7111][Open] New build option to enable/disable global method caching — "shugo (Shugo Maeda)" <redmine@...>

5 messages 2012/10/06

[#46205] [ruby-trunk - Bug #7111] New build option to enable/disable global method caching — "shugo (Shugo Maeda)" <redmine@...> 2012/10/06

[#46206] Re: [ruby-trunk - Bug #7111] New build option to enable/disable global method caching — SASADA Koichi <ko1@...> 2012/10/06

(2012/10/06 15:31), shugo (Shugo Maeda) wrote:

[#46204] Re: [ruby-trunk - Bug #7111][Open] New build option to enable/disable global method caching — SASADA Koichi <ko1@...> 2012/10/06

(2012/10/06 11:19), shugo (Shugo Maeda) wrote:

[#46207] [ruby-trunk - Bug #7111] New build option to enable/disable global method caching — "shugo (Shugo Maeda)" <redmine@...> 2012/10/06

[#46210] Module#refinements — Shugo Maeda <shugo@...>

まつもとさん

2 messages 2012/10/09

[#46211] Re: Module#refinements — SASADA Koichi <ko1@...> 2012/10/09

(2012/10/09 10:55), Shugo Maeda wrote:

[#46213] [ruby-trunk - Bug #7141][Open] ALT_STACK_SIZE is not enough — "authorNari (Narihiro Nakamura)" <authorNari@...>

4 messages 2012/10/11

[#46214] [ruby-trunk - Bug #7141][Assigned] ALT_STACK_SIZE is not enough — "kosaki (Motohiro KOSAKI)" <kosaki.motohiro@...> 2012/10/11

[#46741] [ruby-trunk - Bug #7141] ALT_STACK_SIZE is not enough — "kosaki (Motohiro KOSAKI)" <kosaki.motohiro@...> 2012/12/15

[#46742] [ruby-trunk - Bug #7141] ALT_STACK_SIZE is not enough — "kosaki (Motohiro KOSAKI)" <kosaki.motohiro@...> 2012/12/15

[#46215] Ruby 1.9.3 メンテナ就任のお知らせ — "U.Nakamura" <usa@...>

Ruby開発コミュニティの皆さん

2 messages 2012/10/12

[#46216] Re: Ruby 1.9.3 メンテナ就任のお知らせ — "U.Nakamura" <usa@...> 2012/10/12

こんにちは、なかむら(う)です。

[#46219] [Backport93 - Backport #7169][Open] r37169 — "naruse (Yui NARUSE)" <naruse@...>

1 message 2012/10/16

[#46221] [ruby-trunk - Bug #7171][Assigned] test-all failure on OS X (RubyCI) — "usa (Usaku NAKAMURA)" <usa@...>

6 messages 2012/10/16

[#46298] [ruby-trunk - Bug #7171] test-all failure on OS X (RubyCI) — "mrkn (Kenta Murata)" <muraken@...> 2012/10/27

[#46303] [ruby-trunk - Bug #7171] test-all failure on OS X (RubyCI) — "naruse (Yui NARUSE)" <naruse@...> 2012/10/28

[#46512] [ruby-trunk - Bug #7171] test-all failure on OS X (RubyCI) — "mrkn (Kenta Murata)" <muraken@...> 2012/11/13

[#47210] [ruby-trunk - Bug #7171] test-all failure on OS X (RubyCI) — "mrkn (Kenta Murata)" <muraken@...> 2013/04/01

[#47211] [ruby-trunk - Bug #7171][Closed] test-all failure on OS X (RubyCI) — "mrkn (Kenta Murata)" <muraken@...> 2013/04/01

[#46228] [ruby-trunk - Bug #7182][Open] bug with Array#sort ? — nazomikan (中島拓哉) <nazomikan@...>

6 messages 2012/10/18

[#46229] [ruby-trunk - Bug #7182] bug with Array#sort ? — nazomikan (中島拓哉) <nazomikan@...> 2012/10/18

[#46230] [ruby-trunk - Bug #7182] bug with Array#sort ? — nazomikan (中島拓哉) <nazomikan@...> 2012/10/18

[#46231] [ruby-trunk - Bug #7182] bug with Array#sort ? — "no6v (Nobuhiro IMAI)" <nov@...> 2012/10/18

[#46232] [ruby-trunk - Bug #7182] bug with Array#sort ? — nazomikan (中島拓哉) <nazomikan@...> 2012/10/18

[#46233] [ruby-trunk - Bug #7182][Rejected] bug with Array#sort ? — "sorah (Shota Fukumori)" <sorah@...> 2012/10/18

[#46234] requireしたファイルからのthrowをcatchするとNotImplementedErrorが起きる — Yoshihiko Fujita <[email protected]>

はじめまして、yfujitaと申します.

1 message 2012/10/18

[#46236] [ruby-trunk - Bug #2747] io.dup doesn't handle pos properly — "elninorian (menuju sukses sukses)" <rian_barkah88@...>

1 message 2012/10/19

[#46239] [ruby-trunk - Feature #7190][Open] warning: already initialized constant の書式 — "sawa (Tsuyoshi Sawada)" <sawadatsuyoshi@...>

2 messages 2012/10/20

[#46595] [ruby-trunk - Feature #7190][Assigned] warning: already initialized constant の書式 — "mame (Yusuke Endoh)" <mame@...> 2012/11/24

[#46240] [ruby-trunk - Bug #7197][Open] Error: test_tls_v1_2(OpenSSL::TestSSL) — "znz (Kazuhiro NISHIYAMA)" <redmine@...>

8 messages 2012/10/20

[#46243] [ruby-trunk - Bug #7197] Error: test_tls_v1_2(OpenSSL::TestSSL) — "kwilczynski (Krzysztof Wilczynski)" <krzysztof.wilczynski@...> 2012/10/21

[#46246] [ruby-trunk - Bug #7197][Assigned] Error: test_tls_v1_2(OpenSSL::TestSSL) — "MartinBosslet (Martin Bosslet)" <Martin.Bosslet@...> 2012/10/23

[#46254] [ruby-trunk - Bug #7197] Error: test_tls_v1_2(OpenSSL::TestSSL) — "kwilczynski (Krzysztof Wilczynski)" <krzysztof.wilczynski@...> 2012/10/24

[#46671] [ruby-trunk - Bug #7197] Error: test_tls_v1_2(OpenSSL::TestSSL) — "zzak (Zachary Scott)" <zachary@...> 2012/11/30

[#46735] [ruby-trunk - Bug #7197] Error: test_tls_v1_2(OpenSSL::TestSSL) — "shugo (Shugo Maeda)" <redmine@...> 2012/12/13

[#46736] [ruby-trunk - Bug #7197] Error: test_tls_v1_2(OpenSSL::TestSSL) — "shugo (Shugo Maeda)" <redmine@...> 2012/12/13

[#46755] [ruby-trunk - Bug #7197] Error: test_tls_v1_2(OpenSSL::TestSSL) — "MartinBosslet (Martin Bosslet)" <Martin.Bosslet@...> 2012/12/18

[#46248] [ruby-trunk - Bug #4121] test_getpty_nonexistentで止まることがある — "dafiku (dafi harisy)" <dafi@...>

1 message 2012/10/23

[#46251] [ruby-trunk - Bug #7208][Open] 複素固有値を持つ行列に対する Matrix#eigensystem の返り値が正しくない — "pypypy567 (py _)" <redmine@...>

3 messages 2012/10/23

[#46262] [ruby-trunk - Bug #7208] 複素固有値を持つ行列に対する Matrix#eigensystem の返り値が正しくない — "marcandre (Marc-Andre Lafortune)" <ruby-core@...> 2012/10/24

[#46792] [ruby-trunk - Bug #7208][Assigned] 複素固有値を持つ行列に対する Matrix#eigensystem の返り値が正しくない — "usa (Usaku NAKAMURA)" <usa@...> 2012/12/21

[#46253] [ruby-trunk - Bug #4121] test_getpty_nonexistentで止まることがある — "bowen113 (bowen wenqi)" <bocaishuaige@...>

1 message 2012/10/24

[#46258] [ANN] 2.0.0 feature freeze — Yusuke Endoh <mame@...>

Japanese later; 日本語は後で

5 messages 2012/10/24

[#46259] Re: [ANN] 2.0.0 feature freeze — Kouhei Sutou <kou@...> 2012/10/24

須藤です。

[#46260] Re: [ANN] 2.0.0 feature freeze — Yusuke Endoh <mame@...> 2012/10/24

遠藤です。

[#46261] Re: [ANN] 2.0.0 feature freeze — Kouhei Sutou <kou@...> 2012/10/24

須藤です。

[#46263] Re: [ANN] 2.0.0 feature freeze — Hiroshi Nakamura <nakahiro@...> 2012/10/24

2012/10/24 22:45 "Yusuke Endoh" <[email protected]>:

[#46264] [ruby-trunk - Feature #2323] "Z".."Z".succが空 — "yhara (Yutaka HARA)" <redmine@...>

1 message 2012/10/25

[#46266] [ruby-trunk - Feature #3647] Array#sample(n, replace=false) — "yhara (Yutaka HARA)" <redmine@...>

1 message 2012/10/25

[#46269] [ruby-trunk - Feature #3328] Kernel#p outputs as default_internal encoding, and so on — "yhara (Yutaka HARA)" <redmine@...>

1 message 2012/10/25

[#46270] [ruby-trunk - Feature #2324] Dir instance methods for relative path — "yhara (Yutaka HARA)" <redmine@...>

1 message 2012/10/25

[#46271] [ruby-trunk - Feature #4147] Array#sample で重みを指定したい — "yhara (Yutaka HARA)" <redmine@...>

1 message 2012/10/25

[#46274] [ruby-trunk - Feature #1952] cannot stop with Ctrl+C — "ko1 (Koichi Sasada)" <redmine@...>

1 message 2012/10/26

[#46275] [ruby-trunk - Feature #2447] reduce GC pressure by symbol table without String instance — "ko1 (Koichi Sasada)" <redmine@...>

1 message 2012/10/26

[#46276] [ruby-trunk - Feature #2673] the length for an enumerator generated by Array#permutation and Array#combination — "ko1 (Koichi Sasada)" <redmine@...>

1 message 2012/10/26

[#46277] [ruby-trunk - Feature #2674] RubyVM::InstructionSequence to accept IOs — "ko1 (Koichi Sasada)" <redmine@...>

1 message 2012/10/26

[#46278] [ruby-trunk - Feature #3251][Rejected] allow to unlock mutex locked by another thread — "ko1 (Koichi Sasada)" <redmine@...>

1 message 2012/10/26

[#46279] [ruby-trunk - Feature #4299] no warning: found = in conditional, should be == — "ko1 (Koichi Sasada)" <redmine@...>

1 message 2012/10/26

[#46287] [ruby-trunk - Feature #2674] RubyVM::InstructionSequence to accept IOs — "shyouhei (Shyouhei Urabe)" <shyouhei@...>

1 message 2012/10/26

[#46290] [ruby-trunk - Bug #4387] test_socket_connect_nonblock(TestSocketAddrinfo) がまれに失敗する — "ko1 (Koichi Sasada)" <redmine@...>

1 message 2012/10/27

[#46293] [ruby-trunk - Bug #7101][Closed] 拡張ライブラリの質問 — "ko1 (Koichi Sasada)" <redmine@...>

1 message 2012/10/27

[#46294] [ruby-trunk - Feature #2447] reduce GC pressure by symbol table without String instance — "mame (Yusuke Endoh)" <mame@...>

1 message 2012/10/27

[#46300] [ruby-trunk - Feature #3753] value of def-expr — "yhara (Yutaka HARA)" <redmine@...>

1 message 2012/10/27

[#46301] [ruby-trunk - Feature #2968] 数値の正負を返すメソッド — "yhara (Yutaka HARA)" <redmine@...>

1 message 2012/10/27

[#46305] [ruby-trunk - Bug #7228][Open] Matrix#determinant_e returns rank — "pypypy567 (py _)" <redmine@...>

2 messages 2012/10/28

[#46308] [ruby-trunk - Bug #7228] Matrix#determinant_e returns rank — "marcandre (Marc-Andre Lafortune)" <ruby-core@...> 2012/10/28

[#46306] [ruby-trunk - Feature #3946] Array#packのqQ指定子に機種依存サイズフラグ!を追加 — "akr (Akira Tanaka)" <akr@...>

2 messages 2012/10/28

[#47213] Re: [ruby-trunk - Feature #3946] Array#packのqQ指定子に機種依存サイズフラグ!を追加 — Tanaka Akira <akr@...> 2013/04/02

2012年10月28日 23:11 akr (Akira Tanaka) <[email protected]>:

[#46309] [ruby-trunk - Bug #2154][Assigned] filesystem encoding of UNIX — "usa (Usaku NAKAMURA)" <usa@...>

13 messages 2012/10/29

[#46310] Re: [ruby-trunk - Bug #2154][Assigned] filesystem encoding of UNIX — Tanaka Akira <akr@...> 2012/10/29

2012年10月29日 10:31 usa (Usaku NAKAMURA) <[email protected]>:

[#46366] Re: [ruby-trunk - Bug #2154][Assigned] filesystem encoding of UNIX — "U.Nakamura" <usa@...> 2012/11/02

こんにちは、なかむら(う)です。

[#46375] Re: [ruby-trunk - Bug #2154][Assigned] filesystem encoding of UNIX — KOSAKI Motohiro <kosaki.motohiro@...> 2012/11/02

>> とくに指定しなければ、default external は locale から設定されるので、

[#46376] Re: [ruby-trunk - Bug #2154][Assigned] filesystem encoding of UNIX — Urabe Shyouhei <shyouhei@...> 2012/11/02

On 11/02/2012 01:56 PM, KOSAKI Motohiro wrote:

[#46377] Re: [ruby-trunk - Bug #2154][Assigned] filesystem encoding of UNIX — KOSAKI Motohiro <kosaki.motohiro@...> 2012/11/03

>> 2) ロケールはUTF-8だけどファイルシステムエンコーディングはUTF8MACな某OS

[#46386] Re: [ruby-trunk - Bug #2154][Assigned] filesystem encoding of UNIX — "NARUSE, Yui" <naruse@...> 2012/11/03

(2012/11/03 9:00), KOSAKI Motohiro wrote:

[#46396] Re: [ruby-trunk - Bug #2154][Assigned] filesystem encoding of UNIX — "U.Nakamura" <usa@...> 2012/11/05

こんにちは、なかむら(う)です。

[#46398] Re: [ruby-trunk - Bug #2154][Assigned] filesystem encoding of UNIX — Hiroshi Shirosaki <h.shirosaki@...> 2012/11/05

2012/11/5 U.Nakamura <[email protected]>:

[#46399] Re: [ruby-trunk - Bug #2154][Assigned] filesystem encoding of UNIX — "U.Nakamura" <usa@...> 2012/11/05

こんにちは、なかむら(う)です。

[#46403] Re: [ruby-trunk - Bug #2154][Assigned] filesystem encoding of UNIX — Hiroshi Shirosaki <h.shirosaki@...> 2012/11/05

2012/11/5 U.Nakamura <[email protected]>:

[#46405] Re: [ruby-trunk - Bug #2154][Assigned] filesystem encoding of UNIX — "U.Nakamura" <usa@...> 2012/11/05

こんにちは、なかむら(う)です。

[#46408] Re: [ruby-trunk - Bug #2154][Assigned] filesystem encoding of UNIX — KOSAKI Motohiro <kosaki.motohiro@...> 2012/11/05

>> ・2.0ではデフォルトはlocaleにしておいたほうが、あとから自然に拡張できるような気がする

[#46312] [ruby-trunk - Feature #4146] Improvement of Symbol and Proc — "ko1 (Koichi Sasada)" <redmine@...>

1 message 2012/10/29

[#46313] [ruby-trunk - Feature #4146][Rejected] Improvement of Symbol and Proc — "matz (Yukihiro Matsumoto)" <matz@...>

1 message 2012/10/29

[#46316] [ruby-trunk - Bug #5249][Closed] C の Proc の比較のバグ — "ko1 (Koichi Sasada)" <redmine@...>

1 message 2012/10/30

[#46319] [ruby-trunk - Bug #7244][Open] ArgumentError of refine — "znz (Kazuhiro NISHIYAMA)" <redmine@...>

1 message 2012/10/30

[#46322] [ruby-trunk - Bug #7247][Open] r37079以降Solaris10でthread_pthread.cがコンパイルエラー — "ngoto (Naohisa Goto)" <ngotogenome@...>

2 messages 2012/10/30

[#47912] [ruby-trunk - Bug #7247] r37079以降Solaris10でthread_pthread.cがコンパイルエラー — ngotogenome@... 2014/01/21

SXNzdWUgIzcyNDcgaGFzIGJlZW4gdXBkYXRlZCBieSBOYW9oaXNhIEdvdG8u

[#46325] [ruby-trunk - Feature #735] Date#inspect — "ergocca001 (ergo cca)" <ergobabyuk@...>

1 message 2012/10/31

[#46326] [ruby-trunk - Feature #7251][Open] using usings in usinged Module — "matsuda (Akira Matsuda)" <ronnie@...>

3 messages 2012/10/31

[#46327] [ruby-trunk - Feature #7251] using usings in usinged Module — "matsuda (Akira Matsuda)" <ronnie@...> 2012/10/31

[#46335] [ruby-trunk - Feature #7251][Assigned] using usings in usinged Module — "shugo (Shugo Maeda)" <redmine@...> 2012/11/01

[ruby-dev:46202] [ruby-trunk - Feature #6752] Replacing ill-formed subsequencce

From: "kosaki (Motohiro KOSAKI)" <kosaki.motohiro@...>

Date: 2012-10-05 02:10:30 UTC

List: ruby-dev #46202

Issue #6752 has been updated by kosaki (Motohiro KOSAKI).


今日のなるせさん、中田さんとのTwitter上での議論をもとにいくつかリクエスト（というか備忘録）

・個人的にはencode()よりも専用メソッド押し。理由は頻度。入力の正当性チェックなんてそこら中に需要あると思う
・メソッド名は replace_invalid_character みたいな思いっきり説明的な名前でいいような気がします。これをメソッドチェインしないでしょう。
   あと、encode が invalid => replace なので用語合わせたほうがいい気がします。長すぎるなら replace_invalid で。
・オプショナル引数で置換文字(列)を変更できるようにしてほしい Unicode系でもU+FFFD がうれしくないケースは、ままありそう

----------------------------------------
Feature #6752: Replacing ill-formed subsequencce
https://bugs.ruby-lang.org/issues/6752#change-30047

Author: naruse (Yui NARUSE)
Status: Assigned
Priority: Normal
Assignee: matz (Yukihiro Matsumoto)
Category: core
Target version: 2.0.0


=begin
== 概要
Stringになんらかの理由で不正なバイト列が含まれている時に、それを置換文字で置き換えたい。

== ユースケース
実際に確認されているユースケースは以下の通りです。
* twitterのtitle
* IRCのログ
* ニコニコ動画の API
* Webクローリング
これらの不正なバイト列の生成過程は、おそらく、バイト単位で文字列を切り詰めた時に末尾が切れて、
末尾がおかしい不正な文字列が作られます。（前二者）
これをコンテナに入れたり結合することによって、途中にも混ざった文字列が作られます。（後二者）

* https://twitter.com/takahashim/status/18974040397
* https://twitter.com/n0kada/status/215674740705210368
* https://twitter.com/n0kada/status/215686490070585346
* https://twitter.com/hajimehoshi/status/215671146769682432
* http://po-ru.com/diary/fixing-invalid-utf-8-in-ruby-revisited/
* http://stackoverflow.com/questions/2982677/ruby-1-9-invalid-byte-sequence-in-utf-8

== 必要な引数: 置換文字
省略可能、String。
デフォルトは、Unicode系ならU+FFFD、それ以外では「?」。
デフォルトが空文字でない理由は、削除してしまうことで、従来は存在しなかったトークンを作れてしまい、
上位のレイヤーの脆弱性に繋がるからです。
http://unicode.org/reports/tr36/#UTF-8_Exploit

== API
--- str.encode(str.encoding, invalid: replace, [replace: "〓"])
* CSI的じゃなくて気持ち悪い
* iconv でできるのは glibc iconv か GNU libiconv に //IGNORE つけた時で他はできない
* 実装上のメリットは後述の通り、直感に反してあまりない(と思う)

== 別メソッド
* 新しいメソッドである
* fix/repair invalid/illegal bytes/sequence あたりの名前か

== 実装
=== 鬼車ベース
int ret = rb_enc_precise_mbclen(p, e, enc); して、
MBCLEN_INVALID_P(ret) が真な時、何バイト目が不正なのかわからないのが微妙。
ONIGENC_CONSTRUCT_MBCLEN_INVALID() がバイト数を取らないのが原因なので、
鬼車のエンコーディングモジュール全てに影響してしまうため、修正困難。
不正なバイトはほとんど存在しないと仮定して、効率を犠牲にすれば回避は可能。

=== transcodeベース
UCS正規化なglibc iconv, GNU libiconv, Perl Encodeなどと違って、
CSIなtranscodeでは、自分自身に変換する場合、
エンコーディングごとに「何もしない」変換モジュールを用意しないといけない。


とりあえず鬼車ベースのコンセプト実装とテストを添付しておきます。

 diff --git a/string.c b/string.c
 index d038835..4808f15 100644
 --- a/string.c
 +++ b/string.c
 @@ -7426,6 +7426,199 @@ rb_str_ellipsize(VALUE str, long len)
      return ret;
  }
  
 +/*
 + *  call-seq:
 + *    str.fix_invalid -> new_str
 + *
 + *  If the string is well-formed, it returns self.
 + *  If the string has invalid byte sequence, repair it with given replacement
 + *  character.
 + */
 +VALUE
 +rb_str_fix_invalid(VALUE str)
 +{
 +    int cr = ENC_CODERANGE(str);
 +    rb_encoding *enc;
 +    if (cr == ENC_CODERANGE_7BIT || cr == ENC_CODERANGE_VALID)
 +	return rb_str_dup(str);
 +
 +    enc = STR_ENC_GET(str);
 +    if (rb_enc_asciicompat(enc)) {
 +	const char *p = RSTRING_PTR(str);
 +	const char *e = RSTRING_END(str);
 +	const char *p1 = p;
 +	/* 10 should be enough for the usual use case,
 +	 * fixing a wrongly chopped character at the end of the string
 +	 */
 +	long room = 10;
 +	VALUE buf = rb_str_buf_new(RSTRING_LEN(str) + room);
 +	const char *rep;
 +	if (enc == rb_utf8_encoding())
 +	    rep = "\xEF\xBF\xBD";
 +	else
 +	    rep = "?";
 +	cr = ENC_CODERANGE_7BIT;
 +
 +	p = search_nonascii(p, e);
 +	if (!p) {
 +	    p = e;
 +	}
 +	while (p < e) {
 +	    int ret = rb_enc_precise_mbclen(p, e, enc);
 +	    if (MBCLEN_CHARFOUND_P(ret)) {
 +		if ((unsigned char)*p > 127) cr = ENC_CODERANGE_VALID;
 +		p += MBCLEN_CHARFOUND_LEN(ret);
 +	    }
 +	    else if (MBCLEN_INVALID_P(ret)) {
 +		const char *q;
 +		long clen = rb_enc_mbmaxlen(enc);
 +		if (p > p1) rb_str_buf_cat(buf, p1, p - p1);
 +		q = RSTRING_END(buf);
 +
 +		if (e - p < clen) clen = e - p;
 +		if (clen < 3) {
 +		    clen = 1;
 +		}
 +		else {
 +		    long len = RSTRING_LEN(buf);
 +		    clen--;
 +		    rb_str_buf_cat(buf, p, clen);
 +		    for (; clen > 1; clen--) {
 +			ret = rb_enc_precise_mbclen(q, q + clen, enc);
 +			if (MBCLEN_NEEDMORE_P(ret)) {
 +			    break;
 +			}
 +			else if (MBCLEN_INVALID_P(ret)) {
 +			    continue;
 +			}
 +			else {
 +			    rb_bug("shouldn't reach here '%s'", q);
 +			}
 +		    }
 +		    rb_str_set_len(buf, len);
 +		}
 +		p += clen;
 +		p1 = p;
 +		rb_str_buf_cat2(buf, rep);
 +		p = search_nonascii(p, e);
 +		if (!p) {
 +		    p = e;
 +		    break;
 +		}
 +	    }
 +	    else if (MBCLEN_NEEDMORE_P(ret)) {
 +		break;
 +	    }
 +	    else {
 +		rb_bug("shouldn't reach here");
 +	    }
 +	}
 +	if (p1 < p) {
 +	    rb_str_buf_cat(buf, p1, p - p1);
 +	}
 +	if (p < e) {
 +	    rb_str_buf_cat2(buf, rep);
 +	    cr = ENC_CODERANGE_VALID;
 +	}
 +	ENCODING_CODERANGE_SET(buf, rb_enc_to_index(enc), cr);
 +	return buf;
 +    }
 +    else if (rb_enc_dummy_p(enc)) {
 +	return rb_str_dup(str);
 +    }
 +    else {
 +	/* ASCII incompatible */
 +	const char *p = RSTRING_PTR(str);
 +	const char *e = RSTRING_END(str);
 +	const char *p1 = p;
 +	/* 10 should be enough for the usual use case,
 +	 * fixing a wrongly chopped character at the end of the string
 +	 */
 +	long room = 10;
 +	VALUE buf = rb_str_buf_new(RSTRING_LEN(str) + room);
 +	const char *rep;
 +	long mbminlen = rb_enc_mbminlen(enc);
 +	static rb_encoding *utf16be;
 +	static rb_encoding *utf16le;
 +	static rb_encoding *utf32be;
 +	static rb_encoding *utf32le;
 +	if (!utf16be) {
 +	    utf16be = rb_enc_find("UTF-16BE");
 +	    utf16le = rb_enc_find("UTF-16LE");
 +	    utf32be = rb_enc_find("UTF-32BE");
 +	    utf32le = rb_enc_find("UTF-32LE");
 +	}
 +	if (enc == utf16be) {
 +	    rep = "\xFF\xFD";
 +	}
 +	else if (enc == utf16le) {
 +	    rep = "\xFD\xFF";
 +	}
 +	else if (enc == utf32be) {
 +	    rep = "\x00\x00\xFF\xFD";
 +	}
 +	else if (enc == utf32le) {
 +	    rep = "\xFD\xFF\x00\x00";
 +	}
 +	else {
 +	    rep = "?";
 +	}
 +
 +	while (p < e) {
 +	    int ret = rb_enc_precise_mbclen(p, e, enc);
 +	    if (MBCLEN_CHARFOUND_P(ret)) {
 +		p += MBCLEN_CHARFOUND_LEN(ret);
 +	    }
 +	    else if (MBCLEN_INVALID_P(ret)) {
 +		const char *q;
 +		long clen = rb_enc_mbmaxlen(enc);
 +		if (p > p1) rb_str_buf_cat(buf, p1, p - p1);
 +		q = RSTRING_END(buf);
 +
 +		if (e - p < clen) clen = e - p;
 +		if (clen < mbminlen * 3) {
 +		    clen = mbminlen;
 +		}
 +		else {
 +		    long len = RSTRING_LEN(buf);
 +		    clen -= mbminlen;
 +		    rb_str_buf_cat(buf, p, clen);
 +		    for (; clen > mbminlen; clen-=mbminlen) {
 +			ret = rb_enc_precise_mbclen(q, q + clen, enc);
 +			if (MBCLEN_NEEDMORE_P(ret)) {
 +			    break;
 +			}
 +			else if (MBCLEN_INVALID_P(ret)) {
 +			    continue;
 +			}
 +			else {
 +			    rb_bug("shouldn't reach here '%s'", q);
 +			}
 +		    }
 +		    rb_str_set_len(buf, len);
 +		}
 +		p += clen;
 +		p1 = p;
 +		rb_str_buf_cat2(buf, rep);
 +	    }
 +	    else if (MBCLEN_NEEDMORE_P(ret)) {
 +		break;
 +	    }
 +	    else {
 +		rb_bug("shouldn't reach here");
 +	    }
 +	}
 +	if (p1 < p) {
 +	    rb_str_buf_cat(buf, p1, p - p1);
 +	}
 +	if (p < e) {
 +	    rb_str_buf_cat2(buf, rep);
 +	}
 +	ENCODING_CODERANGE_SET(buf, rb_enc_to_index(enc), ENC_CODERANGE_VALID);
 +	return buf;
 +    }
 +}
 +
  /**********************************************************************
   * Document-class: Symbol
   *
 @@ -7882,6 +8075,7 @@ Init_String(void)
      rb_define_method(rb_cString, "getbyte", rb_str_getbyte, 1);
      rb_define_method(rb_cString, "setbyte", rb_str_setbyte, 2);
      rb_define_method(rb_cString, "byteslice", rb_str_byteslice, -1);
 +    rb_define_method(rb_cString, "fix_invalid", rb_str_fix_invalid, 0);
  
      rb_define_method(rb_cString, "to_i", rb_str_to_i, -1);
      rb_define_method(rb_cString, "to_f", rb_str_to_f, 0);
 diff --git a/test/ruby/test_string.rb b/test/ruby/test_string.rb
 index 47f349c..2b0cfeb 100644
 --- a/test/ruby/test_string.rb
 +++ b/test/ruby/test_string.rb
 @@ -2031,6 +2031,29 @@ class TestString < Test::Unit::TestCase
  
      assert_equal(u("\x82")+("\u3042"*9), ("\u3042"*10).byteslice(2, 28))
    end
 +
 +  def test_fix_invalid
 +    assert_equal("\uFFFD\uFFFD\uFFFD", "\x80\x80\x80".fix_invalid)
 +    assert_equal("\uFFFDA", "\xF4\x80\x80A".fix_invalid)
 +
 +    # exapmles in Unicode 6.1.0 D93b
 +    assert_equal("\x41\uFFFD\uFFFD\x41\uFFFD\x41",
 +                 "\x41\xC0\xAF\x41\xF4\x80\x80\x41".fix_invalid)
 +    assert_equal("\x41\uFFFD\uFFFD\uFFFD\x41",
 +                 "\x41\xE0\x9F\x80\x41".fix_invalid)
 +    assert_equal("\u0061\uFFFD\uFFFD\uFFFD\u0062\uFFFD\u0063\uFFFD\uFFFD\u0064",
 +                 "\x61\xF1\x80\x80\xE1\x80\xC2\x62\x80\x63\x80\xBF\x64".fix_invalid)
 +
 +    assert_equal("abcdefghijklmnopqrstuvwxyz\u0061\uFFFD\uFFFD\uFFFD\u0062\uFFFD\u0063\uFFFD\uFFFD\u0064",
 +                 "abcdefghijklmnopqrstuvwxyz\x61\xF1\x80\x80\xE1\x80\xC2\x62\x80\x63\x80\xBF\x64".fix_invalid)
 +
 +    assert_equal("\uFFFD\u3042".encode("UTF-16BE"),
 +                 "\xD8\x00\x30\x42".force_encoding(Encoding::UTF_16BE).
 +                 fix_invalid)
 +    assert_equal("\uFFFD\u3042".encode("UTF-16LE"),
 +                 "\x00\xD8\x42\x30".force_encoding(Encoding::UTF_16LE).
 +                 fix_invalid)
 +  end
  end
  
  class TestString2 < TestString
=end



-- 
http://bugs.ruby-lang.org/

Thread

Prev Next

In This Thread

Prev Next

[#46183] [ruby-trunk - Bug #11] prelude.c compilation problem on mswin32 — "fahmisetiawan (Fahmi Setiawan)" <fahmisetiawand@...>

[#46184] [ruby-trunk - Bug #7095][Open] Non-recursive marking — "authorNari (Narihiro Nakamura)" <authorNari@...>

[#46189] [ruby-trunk - Bug #7100][Open] WEBrick::HTTPServer.new で BindAddress を指定しない場合に必ず警告が記録される — "sho-h (Sho Hashimoto)" <sho-h@...>

[#46190] [ruby-trunk - Bug #7101][Assigned] 拡張ライブラリの質問 — "shyouhei (Shyouhei Urabe)" <shyouhei@...>

[#46203] [ruby-trunk - Bug #7111][Open] New build option to enable/disable global method caching — "shugo (Shugo Maeda)" <redmine@...>

[#46210] Module#refinements — Shugo Maeda <shugo@...>

[#46213] [ruby-trunk - Bug #7141][Open] ALT_STACK_SIZE is not enough — "authorNari (Narihiro Nakamura)" <authorNari@...>

[#46215] Ruby 1.9.3 メンテナ就任のお知らせ — "U.Nakamura" <usa@...>

[#46219] [Backport93 - Backport #7169][Open] r37169 — "naruse (Yui NARUSE)" <naruse@...>

[#46221] [ruby-trunk - Bug #7171][Assigned] test-all failure on OS X (RubyCI) — "usa (Usaku NAKAMURA)" <usa@...>

[#46228] [ruby-trunk - Bug #7182][Open] bug with Array#sort ? — nazomikan (中島 拓哉) <nazomikan@...>

[#46234] requireしたファイルからのthrowをcatchするとNotImplementedErrorが起きる — Yoshihiko Fujita <[email protected]>

[#46236] [ruby-trunk - Bug #2747] io.dup doesn't handle pos properly — "elninorian (menuju sukses sukses)" <rian_barkah88@...>

[#46239] [ruby-trunk - Feature #7190][Open] warning: already initialized constant の書式 — "sawa (Tsuyoshi Sawada)" <sawadatsuyoshi@...>

[#46240] [ruby-trunk - Bug #7197][Open] Error: test_tls_v1_2(OpenSSL::TestSSL) — "znz (Kazuhiro NISHIYAMA)" <redmine@...>

[#46248] [ruby-trunk - Bug #4121] test_getpty_nonexistentで止まることがある — "dafiku (dafi harisy)" <dafi@...>

[#46251] [ruby-trunk - Bug #7208][Open] 複素固有値を持つ行列に対する Matrix#eigensystem の返り値が正しくない — "pypypy567 (py _)" <redmine@...>

[#46253] [ruby-trunk - Bug #4121] test_getpty_nonexistentで止まることがある — "bowen113 (bowen wenqi)" <bocaishuaige@...>

[#46258] [ANN] 2.0.0 feature freeze — Yusuke Endoh <mame@...>

[#46264] [ruby-trunk - Feature #2323] "Z".."Z".succが空 — "yhara (Yutaka HARA)" <redmine@...>

[#46266] [ruby-trunk - Feature #3647] Array#sample(n, replace=false) — "yhara (Yutaka HARA)" <redmine@...>

[#46269] [ruby-trunk - Feature #3328] Kernel#p outputs as default_internal encoding, and so on — "yhara (Yutaka HARA)" <redmine@...>

[#46270] [ruby-trunk - Feature #2324] Dir instance methods for relative path — "yhara (Yutaka HARA)" <redmine@...>

[#46271] [ruby-trunk - Feature #4147] Array#sample で重みを指定したい — "yhara (Yutaka HARA)" <redmine@...>

[#46274] [ruby-trunk - Feature #1952] cannot stop with Ctrl+C — "ko1 (Koichi Sasada)" <redmine@...>

[#46275] [ruby-trunk - Feature #2447] reduce GC pressure by symbol table without String instance — "ko1 (Koichi Sasada)" <redmine@...>

[#46276] [ruby-trunk - Feature #2673] the length for an enumerator generated by Array#permutation and Array#combination — "ko1 (Koichi Sasada)" <redmine@...>

[#46277] [ruby-trunk - Feature #2674] RubyVM::InstructionSequence to accept IOs — "ko1 (Koichi Sasada)" <redmine@...>

[#46278] [ruby-trunk - Feature #3251][Rejected] allow to unlock mutex locked by another thread — "ko1 (Koichi Sasada)" <redmine@...>

[#46279] [ruby-trunk - Feature #4299] no warning: found = in conditional, should be == — "ko1 (Koichi Sasada)" <redmine@...>

[#46287] [ruby-trunk - Feature #2674] RubyVM::InstructionSequence to accept IOs — "shyouhei (Shyouhei Urabe)" <shyouhei@...>

[#46290] [ruby-trunk - Bug #4387] test_socket_connect_nonblock(TestSocketAddrinfo) がまれに失敗する — "ko1 (Koichi Sasada)" <redmine@...>

[#46293] [ruby-trunk - Bug #7101][Closed] 拡張ライブラリの質問 — "ko1 (Koichi Sasada)" <redmine@...>

[#46294] [ruby-trunk - Feature #2447] reduce GC pressure by symbol table without String instance — "mame (Yusuke Endoh)" <mame@...>

[#46300] [ruby-trunk - Feature #3753] value of def-expr — "yhara (Yutaka HARA)" <redmine@...>

[#46301] [ruby-trunk - Feature #2968] 数値の正負を返すメソッド — "yhara (Yutaka HARA)" <redmine@...>

[#46305] [ruby-trunk - Bug #7228][Open] Matrix#determinant_e returns rank — "pypypy567 (py _)" <redmine@...>

[#46306] [ruby-trunk - Feature #3946] Array#packのqQ指定子に機種依存サイズフラグ!を追加 — "akr (Akira Tanaka)" <akr@...>

[#46309] [ruby-trunk - Bug #2154][Assigned] filesystem encoding of UNIX — "usa (Usaku NAKAMURA)" <usa@...>

[#46312] [ruby-trunk - Feature #4146] Improvement of Symbol and Proc — "ko1 (Koichi Sasada)" <redmine@...>

[#46313] [ruby-trunk - Feature #4146][Rejected] Improvement of Symbol and Proc — "matz (Yukihiro Matsumoto)" <matz@...>

[#46316] [ruby-trunk - Bug #5249][Closed] C の Proc の比較のバグ — "ko1 (Koichi Sasada)" <redmine@...>

[#46319] [ruby-trunk - Bug #7244][Open] ArgumentError of refine — "znz (Kazuhiro NISHIYAMA)" <redmine@...>

[#46322] [ruby-trunk - Bug #7247][Open] r37079以降Solaris10でthread_pthread.cがコンパイルエラー — "ngoto (Naohisa Goto)" <ngotogenome@...>

[#46325] [ruby-trunk - Feature #735] Date#inspect — "ergocca001 (ergo cca)" <ergobabyuk@...>

[#46326] [ruby-trunk - Feature #7251][Open] using usings in usinged Module — "matsuda (Akira Matsuda)" <ronnie@...>

[ruby-dev:46202] [ruby-trunk - Feature #6752] Replacing ill-formed subsequencce

Thread

In This Thread

[#46228] [ruby-trunk - Bug #7182][Open] bug with Array#sort ? — nazomikan (中島拓哉) <nazomikan@...>