前回ほぼ原因特定までできてたけど、追加調査。いわゆる絵文字部分はshift-jisに変換できないので、後段の
iconv -c -f UTF-8 -t SHIFT-JIS
の処理で除去されるんだけど、今回の私用領域(外字領域)は、shift-jisにも対応領域があって変換できてしまうことで、さらに後段のkakasiに渡ってしまい、おかしな出力がされるようだ。
s/\p{Private_Use}//g;
とすることで私用領域(外字領域)の削除をできたので、これで対処完了とする。この機会に、このiconvに渡す前の文字列処理をPerlではなくてPythonに変更しようと思ったけど、一旦Perlで対処できたのと、既存の置換ルールをPythonコードに書き換えるのが面倒なので今回は保留。書き換え自体はともかく、全国データを処理してデグレしてないか調べるのが大変なので。
前回から結構間が空いたけど、PC移行も落ち着いてきたので再開。perlはさすがに廃れてる感じがして情報を拾いにくくなってる感じがするので、pythonでトライしてみる。
pythonコードで emoji.replace_emoji で絵文字削除しようとしてみたところ、もともと問題になってた文字が消えてくれない。文字コードを調べると、U+E14Dらしく、どうやら私用領域(外字領域)であって、絵文字のカテゴリではないようだ。今日はここまで。忙しくて連続して長時間作業しないと進まないな。
共有用に、ここ1年ちょっとはマネーフォワード for 住信SBIネット銀行を使ってたんだけど、2月末でサービスが終わるらしく、また別のを探すことに。マネーフォワード for 住信SBIネット銀行をこれまで使ってた理由は、自動取得したい口座が11個くらいあって、通常のマネーフォワードMEだと無料で10口座だけど、「for 住信SBIネット銀行」だと住信SBIネット銀行は10口座と別枠で登録できて自分の場合は11口座登録できてたというのが大きい。しかもMEでは見えない円グラフや1年までの過去推移の棒グラフ(現金、株式、投資信託くらいのカテゴリの積み上げグラフ)も見えてた。マネーフォワードに戻るには1月下旬対応と言われてる夫婦間のシェア機能が必須で、他にカテゴリ別推移がわかる過去グラフも見えるサービスが有るならそれにしたいところ。
しかし、色々乗り換え先のサービスを探していて気づいたのが、2月に終了するのは「マネーフォワード for 住信SBIネット銀行」ではなく「マネーフォワード for 三井住友信託銀行」だった。全く記憶がなかったけど、後者にもユーザ登録して放置してたのでメールが届いたらしい。紛らわしいな。散々調べた挙げ句、結局「for 三井住友信託銀行」は、今のまま継続利用できることがわかった。ただ、系列が同じなので、近いうちに終了する可能性はあるかも。
xmlデータがなかなか揃わない。楽天ふるさと納税が1月下旬(今年はシステム改修があるらしく特に遅い)、楽天証券が1/14、auカブコム証券がたぶんPDFの年間取引報告書(1/6)の2日程度後、になるようだ。aupayふるさと納税のxmlだけは入手済み。
xmlなしで進めてもいいんだけど、細々とふるさと納税は10箇所もしてしまったし、楽天証券はPDFの年間取引報告書もxmlと同じく1/14発行予定らしく、結局入力すべき情報が手元にないので先に進めない。全部揃うまで待ちだな。
年末年始の休み中に移行が進んできたので、子どもが寝静まってから夜遅くにメインを入れ替えた。HDDを新PCに移動すべく、旧PCを開けるとホコリだらけだった。