こんにちはゲストさん。会員登録(無料)して質問・回答してみよう!

解決済みの質問

Perlで変数内の日本語が文字コードに変換される

お世話になります。Googleやbingなどで調べて見ましたが検討もつかず困っております。

PerlでDBIを使用し、データベースのテーブルAに対してSelectした場合に、fetchrow_hashrefを使用しSelect結果を取得した場合に、テーブルの列名が文字ではなく文字コードが格納されてしまいます。

テーブルAの列名はUTF-8の日本語文字になります。

以下、列名
ID|登録者|登録日

fetchrow_hashrefを使用した場合、以下のように返ってきます。
$VAR1 = {
"\x{767b}\x{9332}\x{8005}" => '106.190.xxx.xxx',
"\x{767b}\x{9332}\x{65e5}" => '2012-05-06 00:52:40.39496',
'id' => 38
};

問題は目的のデータに対して列名('登録日'など)で参照する事が出来ない事ですが、今のままテーブルの列名は日本語のままで回避する方法をご教授いただけないでしょうか?

hashrefを使いたい理由はテーブルの列順番が変わった場合でもプログラム上の変更を減らすために、列名にて参照したいためです。ですのでarray系の取得メソッドはなるべく使わないようにしたいです。


出来ればなぜこのようなことが起こるのか原因も含めてご教授いただけると大変助かります。。

ちなみに、データベースはPostgreSQLの8.2で日本語文字に対応していることは、自分でselectなどのコマンドを叩き確認済みです。

ヒントでもかまいませんので、どうかよろしくお願いいたします。

投稿日時 - 2012-05-06 22:27:11

QNo.7461877

すぐに回答ほしいです

質問者が選んだベストアンサー

fetchrow_hashrefが「一般的」では無い文字(≒いわゆる半角英数記号以外)を\でエスケープした形式で表示しているだけで、実際には
\x{767b}→登
です。
$a = $VAR1->{'登録日'}とすれば $aに2012-05-06 00:52:40.39496が入ります。
(use utf8;してあって、スクリプト自体がUTF-8で記述されている場合)

このあたりの扱いは少々ややこしいので、下記のようなサイトや参考書をよく読むことをお勧めします
http://perldoc.jp/docs/perl/5.10.0/perlunicode.pod
http://www.rwds.net/kuroita/program/Perl_unicode.html

投稿日時 - 2012-05-06 23:15:29

補足

ソースコード事態はUTF8で記述していましたので、
use utf8;にする事で取得出来ることが出来ました!
ありがとうございます!

ただ・・・。取得することが出来ましたが、取得した値が日本語の場合は、逆に文字化けしてしまいました。。。

ちなみに、use utf8;をコメントアウトし、fetchrow_arrayrefにて取得すると、文字化けは起こらなかったのでutf8をuseすることによって値に何らかの加工をしているみたいですが、、、ご存知でしょうか??

ちなみに、utf8フラグがついているからかな?と思い
utf8::encode
にて調べてみましたがfalse値が返ってきていました。。。

投稿日時 - 2012-05-06 23:51:58

お礼

ご回答ありがとうございます!

投稿日時 - 2012-05-06 23:48:08

ANo.1

このQ&Aは役に立ちましたか?

0人が「このQ&Aが役に立った」と投票しています

回答(4)

ANo.4

ひとえに「文字化け」といってもいろんな状況が考えられるのですが, どう「化け」ているのでしょうか? 極端には「実はなにもおかしくない (化けてもいない) んだけど確認のしかたが間違っているために化けているように見える」かもしれないですし.

本当に化けているとしたらバイナリレベルでコードを知りたいところ.

投稿日時 - 2012-05-07 23:12:50

お礼

ありがとうございます。

投稿日時 - 2017-09-28 18:16:03

ANo.3

あ, \x{767b} って UTF-8 じゃなくて UTF-16 なんだ....

ところで, #1 への補足にある
「(use utf8; すると) 取得した値が日本語の場合は、逆に文字化けしてしまいました」
ってのは, 具体的にはどんな状態なんでしょうか? 「逆に」の意味が分からんのだけど, 質問の時点で出ている
$VAR1 = {
"\x{767b}\x{9332}\x{8005}" => '106.190.xxx.xxx',
"\x{767b}\x{9332}\x{65e5}" => '2012-05-06 00:52:40.39496',
'id' => 38
};
は「文字化け」ではないという認識でしょうか?

そもそも「データベースにどんな文字コードで入れたのか」とかから始まりそうな感じもするんだけど....

投稿日時 - 2012-05-07 11:17:08

補足

use utf8;
を行うことによって、
「fetchrow_hashref->{'登録者'}」で参照し、値を取得することが出来ました。
値は「106.190.xxx.xxx」

ただ、データベースの内容に以下のようにデータが入っている場合、

ID|名前|登録者|登録日
'38' 'なまえ' '106.190.xxx.xxx' '2012-05-06 00:52:40.39496'

に「名前」を「fetchrow_hashref->{'名前'}」で取得した場合に値は「なまえ」が取得出来ると思いましたが、
文字化けした値が取得出来ました。

データベース・ソースコードはUTF8で作成しており、テーブルの中の文字列もUTF-8になっております。

そういう意味で、
use utf8;
を行わなければhashのkey値は"\x{767b}\x{9332}\x{8005}"の状態。

use utf8;
を行えばhashのkey値は"登録者"で参照出来ますが値は文字化けしてるので参照は出来るが値が文字化けしてしまうというという意味で「逆」と使いました。
※うまく伝えられずすみません。

また、
上記のテーブルの状態でも
use utf8;
をコメントアウトし、
「fetchrow_arrayref->[1]」で参照すると、「なまえ」と正しい値が取得することが出来ましたので、
use utf8;
を行うことによって何らかの値に加工を行なっているのではと考えつくことが出来ましたがもう少しお力添えをお願い出来ればと思います。


すみませんが、よろしくお願い致します。。。

投稿日時 - 2012-05-07 13:26:57

お礼

ご回答有難うございます!

投稿日時 - 2012-05-07 13:02:29

ANo.2

UTF-8 ってわかってるなら全て UTF-8 で扱うのが自然だし単純だろう.

投稿日時 - 2012-05-06 23:16:44

補足

>UTF-8 ってわかってるなら全て UTF-8 で扱うのが自然だし単純だろう.

そうですね!!

投稿日時 - 2012-05-06 23:53:48

お礼

ご回答ありがとうございます!

投稿日時 - 2012-05-06 23:52:16

あなたにオススメの質問