昨日の続き。あまり時間は取れないけど、一応対策に着手。現状のperlスクリプトに1行追加してみる。
s/[^\p{BasicLatin}|\p{Alnum}|\p{Katakana}|\p{Hiragana}|\p{CJKSymbolsAndPunctuation}|\p{HalfwidthAndFullwidthForms}]//g;
これで今回問題になってた絵文字が消えることは確認できた。が、問題の起きてた1ファイルを通してみると、以前より200バイト以上減ってる。昨日の問題が起きてた文字は20文字くらい出現してたので、40〜60バイトくらい減る想定だったので減りすぎ。差分を確認すると、日本語(全角)の「×」「’」「・」などが消えてた。これは消えてほしくないな。まだ調整が必要そうだけど、結構時間がかかりそうなので、やっぱりしばらく保留で。
久しぶりに。なんか買い物バッグみたいな絵文字が入ってる。とりあえず今は忙しいのと、opening_hoursに使って良い文字ではないので元データを修正しておく。nameとかに使われたら元データはいじれないので、スクリプト側で絵文字領域はまとめて無視するとかの措置が必要そうだ。