はじめに
日本の住所には、「東京都文京区本郷7丁目3番1号」のように末尾に数字を使った「a丁目b番c号」部分があります。この「a丁目b番c号」部分は、「1丁目1番1号」が多いだろう...と予想したけど、絶対ではないし、aやbやcの分布も気になりました。
少し前に、CEOの平井から「解析手法が真面目でちゃんとしてるのも良いけど、面白い観点でデータを見るのが良いね。」と言われたので、今回は調子に乗ってestieに入っているオフィスビルの住所データでは丁目・番・号がどうなのかを調べてみました。
estieは8万棟以上のオフィスビルをデータとして持っており、その多くを「a丁目b-c」フォーマットで登録しています。このデータを使って色々調べてみました。(例外には細かい住所が判明しないビル*1や、東京都千代田区神田和泉町などの丁目設定のない単独町名や、丁目設定を持つが「a丁目b-c-d」などがあります。)
丁目
まずは丁目の数字の分布を調べてグラフにしてみたところ、下の図の通り1丁目が多く、約1/4が1丁目でした。
例えば東京都では、東京都における住居表示の実施に関する一般的基準に「丁目の数はおおむね四,五丁目にとどめることが適当」とあります。このように、丁目がやたら大きくなることは少なさそうです*2。
しかしグラフに表示されたということは28丁目まであるようです。10丁目以降が少なくてほぼ見えないので対数グラフにしたものが下の図です。
思ったよりも11番地以降でもビルがたくさんありました。ジップの法則に従えば棟数を対数で表すと直線的に11丁目以降も減るはずですが、11丁目あたりからはあまり棟数が変わっていません。そこで11丁目以降の地理的な分布を見ると、1棟のビルを除き全てが北海道に存在していました。
北海道の住所はある意味わかりやすく、札幌駅の周辺では北1条橋*3を中心に南北方向に北A条や南A条、東西方向に東a丁目や西a丁目となっています。特にオフィスビルの多い北海道札幌市中央区の国土地理院地図を丁目で色分けしてみると、下の図のようになります。(作るのとてもめんどくさかった…。頑張りましたが正確性は保証できません。)
赤い四角内の黒い1の近くにある細長い領域が1丁目で、左右に赤橙黄緑水青紫桃白黒...と30丁目まであります。
最も少ない23丁目は左(西)の方にある、灰色枠の黄色の領域です。面積は小さくないですが、19/20丁目、24/25丁目、27/28丁目の間には大通りがあるなどが影響して23丁目が少なくなったんでしょうか? 都市計画の用途地域を検索したら住居地域が多いからでしょうか? 対数グラフ上では大きな差に見えますが、誤差の範囲かもしれません*4。
ちなみに日本には「北海道帯広市西19条南42丁目」まで丁目があります。0丁目も存在するかと思いましたが、存在しないようでした。
まとめると、1丁目から10丁目くらいまでは指数的に減衰する。それ以降は北海道にあり大体同じくらいの量で、中心地から離れるにつれて減っているのかな?という感じでした。
番
番の数字の分布を調べてグラフにしてみたところ、下の図のようになりました。今回は50未満と50以上で分けています。
丁目と似て、指数分布っぽい分布でした。そしてとても大きな番地までありました。片対数グラフにすると、丁目と比べると、細かく分けられているのもありきれいにジップの法則に従っていそうです*5。
327番地が10棟と多かったけど、これもまた北海道で、中央区役所前駅の前でした(中央区役所は仮庁舎に移転しています)。北海道の住所はここでも一癖あります。ちなみに最大の数字だと、静岡県浜松市西区篠原町に27409番があるみたいです*6。
号
号の数字の分布を調べてグラフにしてみたところ、下の図のようになりました。また50未満と50以上で分けています。
これもまた似たような結果でしたが、1が飛び抜けて多く見えます。1区画全てが同じビルである場合、つまりa丁目b全体を占める建物は(その入り口の場所にかかわらず、)a丁目b-1を使うのかもしれません*7。
4と9が少ないのは、死と苦の語呂合わせを避けているんでしょうか? 気のせいかも知れませんが、下のヒートマップで見ても4号と9号や14号と19号に薄い縦線が見えます。
一応片対数グラフを見たところ、番と同じようにジップの法則に従っていそうでした。
丁目-番-号
やっと本題です。a-b-cのtop20は下の図のようになりました。
やはり最も多いのは1-1-1でした。でも、2番目に多いのは1-1-2ではなく2-1-1でした。そして1-1-2はtop20にさえ入らず、1-1-3よりも少ないのはとても意外でした。a-b-1が多いのは角地にあるだけかもしれませんし、かっこいいからかも知れません。
2-2-2は多いのはゾロ目だからかも知れません。2-2-xは2-2-2が最も多く、5-5-xも5-5-5が最も多く、残念ながら3-3-xは3-3-1に次いで2位、縁起が悪そうな4-4-4は4-4-xの中でもなんと15位でした。機械的に決まるだけじゃなく人間の恣意的な側面が垣間見えている気がします。
雑にですが、ジップの法則の話を出したので指数関数で回帰してみると、丁目は、番は、号はのような"傾き"が見られました。丁目と番と号が独立な分布ならば1-2-1の次に1-1-2が多くなるはずです。でもそうなっていないため、丁目と番と号は独立ではなさそうです。例えば、1-1-1という地名を代表するような場所には大きな建物が多く、1-1-1の隣のビルが1-1-3や1-1-4などと大きく離される可能性もありそうです。
ちなみに住所が選べるのかを調べたところ、海老名市では選べなさそうですが、吉川市ではまたがっている場合には選べるようで、自治体によって異なりそうです。登記などはともかく、郵便物や経路検索アプリでは多少ずれていても問題なさそうなのでそう表示している可能性もあります。
おわりに
10000番や10000号などの異常に大きな住所が見つかってデータの誤りが見つかるかと思いきや、むしろそんな住所が実在することを知りました(ちなみに全部で10210通りの「a-b-c」がありました。)。estieのデータを日々直している者としては誤りが見つからなくてうれしいことです。他には1-1-2が少ないのは意外でした。住所でさえゾロ目を狙ったり4や9を避けたりするのも人間っぽいなと思いました。
今回は「棟数」でのみ数えましたが、他にも延床面積や敷地面積で見るとかも考えられます。例えば1-1-1にある建物は他の場所よりもどのくらい大きいでしょうか。階数はどうでしょうか。それが何の役に立つのかはともかく、そういう調査もやってみたいと思っています。