古いプログラムのバグで、作者の名前が原作者でなく翻訳者になっていたもの(芥川龍之介訳とか森林太郎訳とか森鴎外訳とか)を、原作者の名前で登録しなおしています。
古いプログラムはルビを取得する処理も入っていなくて、カッコつきひらがなになってしまっていて読みにくいし、この際だから見つけたものから修正していこうと。そう思ったのです。
で、いくつか作業してみたのですが、一つ困ったことが。
例えばエドガー・アラン・ポーの作品ですが、青空文庫のHTMLで作家名の欄に「エドガー・アラン・ポー」と記述されているのに、図書カードのページでは作家名の読み仮名が「ポー・エドガー・アラン」となっているのです。
で、僕のプログラムは、作家名の読み仮名を図書カードのページから取得しているので、そのまま登録させると、作品の作者は「エドガー・アラン・ポー」なのに、読みが「ポー・エドガー・アラン」となってしまうわけです。
結果、作家インデックスなどで「エドガー・アラン・ポー」がリストアップされるのが、「え」行じゃなく、「ほ」行になってしまうという。なんだか変なことになってます。
HTMLファイルから作家名を取得するように統一すればよいのかもしれませんが、実は青空文庫のHTMLって作家名の読みが統一仕様で記述されて無いケース(特に古い時代の登録作品とか)が結構あって厄介なのです。
で、これまでは仕方なく図書カードのページから強引に読み仮名を取るようにしていたのですが、こんなところで裏目に出てしまいました。
でもこの作家名の表記、どうやら意図的らしく、外国人の作家名については共通でこういう記述になっている模様。なぜに?(※1)
まあ、エドガー・アラン・ポーを引くなら、「ポー」で引きたい気もするし、アントン・チェーホフなら「チェーホフ」で引きたい気もしますが・・・
<追記>
※1 青空ニュースさんでコメントいただきました。感謝。
図書カードやリストでは、姓-名の順になっているんです。また、個々の作品においては、底本の表記が採用されています。たとえば図書カードでは「芥川竜之介」になっていますが、底本で「龍之介」となっていたら、その作品テキストの名前のところは「芥川龍之介」となります。