基準階面積と、そこから窺える不動産関係者の努力

はじめに

オフィス不動産を扱っていると、住宅ではあまり聞かなかった「基準階面積」という単語を頻繁に聞きます。株式会社estieのデータを扱う部署では所在地や竣工年とほぼ同じ優先度でこの基準階面積が求められています。弊社製品である estie proでも検索フォームで5番目にあり、その重要性が現れています。

 

今回はこの基準階面積とは何か、どんな分布なのか、そして分布の不自然な偏りから不動産関係者の欲望と努力を勝手に感じた話です。

www.estie.jp

基準階面積とは

基準階面積とは、ビルの基準となる階の面積です。規模(何階建か?)と基準階面積で、おおよそのビルの大きさが把握できます。

 

部屋の形は階によって異なることがあります。例えば1階には入り口やロビーがあり、高層階が日照権などによって狭くなりがちです。そのため、ビルの大きさを一番うまく表す面積を「基準階」と呼びます*1

 

そして、基準階面積は基準階の全ての面積というわけでもありません。エレベータや階段、トイレなどの部分を除き、オフィスとして使う部分のみの面積を指すことが多いです。ビルの面積というより、あくまでオフィスの面積として扱っていると感じます。

 

estieに限らず、オフィスデータを統計的に扱うときには基準階面積が200坪以上で大規模、50〜100坪あたりが中規模、30坪以下なら小規模などと扱われるのをよく見ます*2。オフィス不動産に携わる前には延床面積の方が規模を表しそうだと思っていましたが、基準階面積による分類の方が多く見ます。

 

そんな重要な基準階面積の情報を集めるため、2022年3月は基準階面積強化月間と勝手に銘打ち、基準階面積を埋める作業を頑張っていました。いろんな手法を試して楽しかったのですがそれはそれとして、今回は値の分布に着目します。

 

基準階面積の近似曲線

頑張って埋めた基準階面積の分布を下に示します。

f:id:aruke_aruke:20220401140129p:plain

基準階面積の分布(青色棒グラフ)と、その雑な近似曲線(赤色折れ線グラフ)

きれいなグラフですね...基準階面積に頑張って取り組んで、たくさんデータを入れた甲斐がありました。そして雑にですが、赤線で近似曲線も描きました。式は20000\exp\left(-基準階面積^{0.48}\right)です。

 

なんとなーく基準階面積に対する指数分布っぽくなるかなと思っていましたが、基準階面積の0.5乗に対する指数分布が近かったです。オフィス床が正方形の部屋だとすると、基準階面積の0.5乗は一辺の長さになるので、「ビルの一辺の長さに対して棟数は指数分布に従う」ようです。

 

もちろん一辺が2〜3メートルしかないビルなどはほとんどないですし、理由の説明もまだ無いのでこれで全てが説明できるわけではありません。土地の取得の難しさとか、街の景観とか、建築の難易度とかが関係あるんでしょうか? それとも会社や部署の規模は人数の0.5乗に比例するんでしょうか?

 

大台への欲望と努力

近似曲線を描いたことにより、出っ張っている場所(下図の黒丸)が目立ちます。

f:id:aruke_aruke:20220401142953p:plain

基準階面積の分布と、すこし外れた値(黒丸)

黒い丸を付けた基準階面積を見ると100坪、300坪、600坪、800坪、900坪です。多少恣意的な丸もあるかもしれませんが、大台のビルが多いようです*3。ということは、99坪のビルはちょっと無理して土地を取得したり、共用部を狭くしたりしてでも100坪にする工夫や苦労があったのでは?と勝手に推測しました。

 

大量のビルを基準階面積などで検索するとき、人間の入力は大抵キリが良いので100坪と99坪には他の1坪に比べて大きな差が生まれます。良くも悪くも100坪は120坪のビルと比べられやすく、99坪のビルは80坪のビルと比べられやすいでしょう。そのあたりも「似ているビル」をよしなに出してくれる機能とかでカバーできないかな?と考えています。

 

おわりに

この手の統計的な話だと「見栄を張った回答」というものがあります。例えば身長の分布を調べると、特に男性の場合169センチメートルが少なくて170センチメートルが多くなり、ウエストの分布では、特に女性の場合70センチメートルより69センチメートルが多くなる様なものがあります。

 

基準階面積は自己申告とはいえ正しい値だと信じているため、大台に乗るようにビルを設計したのだろうと考えています。今回は最もよく使われる坪の単位で大台を見ましたが、平米や畳(帖)での大台への努力もあるかもしれません。

 

大台に乗るビルがちょっと多いから何なの?どう会社の利益につながるの?といわれると難しいけど、10%や20%多いことがグラフから見て取れるほどの基準階面積が埋まっているのは大きな価値です。そもそも、「大台に乗るビルがちょっと多いから何なの?どう会社の利益につながるの?」なんて言われてないんでこれからも(勝手に)こういうことをやっていきます。

 

www.estie.jp

*1:ちゃんとした定義があるのか怪しいですが

*2:これまた明確な基準はないのでまちまちですが

*3:550坪も少し多いですが...

「a丁目b番c号」の、(a,b,c)の分布

はじめに

日本の住所には、「東京都文京区本郷7丁目3番1号」のように末尾に数字を使った「a丁目b番c号」部分があります。この「a丁目b番c号」部分は、「1丁目1番1号」が多いだろう...と予想したけど、絶対ではないし、aやbやcの分布も気になりました。

 

少し前に、CEOの平井から「解析手法が真面目でちゃんとしてるのも良いけど、面白い観点でデータを見るのが良いね。」と言われたので、今回は調子に乗ってestieに入っているオフィスビルの住所データでは丁目・番・号がどうなのかを調べてみました。

 

estieは8万棟以上のオフィスビルをデータとして持っており、その多くを「a丁目b-c」フォーマットで登録しています。このデータを使って色々調べてみました。(例外には細かい住所が判明しないビル*1や、東京都千代田区神田和泉町などの丁目設定のない単独町名や、丁目設定を持つが「a丁目b-c-d」などがあります。)

www.estie.jp

 

丁目

まずは丁目の数字の分布を調べてグラフにしてみたところ、下の図の通り1丁目が多く、約1/4が1丁目でした。

f:id:aruke_aruke:20220227152930p:plain

丁目の数字に対する棟数の分布

例えば東京都では、東京都における住居表示の実施に関する一般的基準に「丁目の数はおおむね四,五丁目にとどめることが適当」とあります。このように、丁目がやたら大きくなることは少なさそうです*2

 

しかしグラフに表示されたということは28丁目まであるようです。10丁目以降が少なくてほぼ見えないので対数グラフにしたものが下の図です。

f:id:aruke_aruke:20220227152239p:plain

丁目の数字に対する棟数の分布(片対数)

 

思ったよりも11番地以降でもビルがたくさんありました。ジップの法則に従えば棟数を対数で表すと直線的に11丁目以降も減るはずですが、11丁目あたりからはあまり棟数が変わっていません。そこで11丁目以降の地理的な分布を見ると、1棟のビルを除き全てが北海道に存在していました。

 

北海道の住所はある意味わかりやすく、札幌駅の周辺では北1条橋*3を中心に南北方向に北A条や南A条、東西方向に東a丁目や西a丁目となっています。特にオフィスビルの多い北海道札幌市中央区国土地理院地図を丁目で色分けしてみると、下の図のようになります。(作るのとてもめんどくさかった…。頑張りましたが正確性は保証できません。)

f:id:aruke_aruke:20220227200653j:plain

札幌市中央区を丁目毎に色分けした図。国土地理院の地図に色を塗ったもの。

赤い四角内の黒い1の近くにある細長い領域が1丁目で、左右に...と30丁目まであります。

 

最も少ない23丁目は左(西)の方にある、灰色枠の黄色の領域です。面積は小さくないですが、19/20丁目、24/25丁目、27/28丁目の間には大通りがあるなどが影響して23丁目が少なくなったんでしょうか? 都市計画の用途地域を検索したら住居地域が多いからでしょうか? 対数グラフ上では大きな差に見えますが、誤差の範囲かもしれません*4

 

ちなみに日本には「北海道帯広市西19条南42丁目」まで丁目があります。0丁目も存在するかと思いましたが、存在しないようでした。

 

まとめると、1丁目から10丁目くらいまでは指数的に減衰する。それ以降は北海道にあり大体同じくらいの量で、中心地から離れるにつれて減っているのかな?という感じでした。

 

番の数字の分布を調べてグラフにしてみたところ、下の図のようになりました。今回は50未満と50以上で分けています。

f:id:aruke_aruke:20220227214129p:plain

番の数字に対する棟数の分布(50未満)

f:id:aruke_aruke:20220227214300p:plain

番の数字に対する棟数の分布(50以上の存在する番のみ)

丁目と似て、指数分布っぽい分布でした。そしてとても大きな番地までありました。片対数グラフにすると、丁目と比べると、細かく分けられているのもありきれいにジップの法則に従っていそうです*5

f:id:aruke_aruke:20220228012822p:plain

番の数字に対する棟数の分布(片対数)

327番地が10棟と多かったけど、これもまた北海道で、中央区役所前駅の前でした(中央区役所は仮庁舎に移転しています)。北海道の住所はここでも一癖あります。ちなみに最大の数字だと、静岡県浜松市西区篠原町に27409番があるみたいです*6

 

号の数字の分布を調べてグラフにしてみたところ、下の図のようになりました。また50未満と50以上で分けています。

f:id:aruke_aruke:20220228002640p:plain

号の数字に対する棟数の分布(50未満)

f:id:aruke_aruke:20220228002722p:plain

号の数字に対する棟数の分布(50以上の存在する号のみ)

これもまた似たような結果でしたが、1が飛び抜けて多く見えます。1区画全てが同じビルである場合、つまりa丁目b全体を占める建物は(その入り口の場所にかかわらず、)a丁目b-1を使うのかもしれません*7

 

4と9が少ないのは、死と苦の語呂合わせを避けているんでしょうか? 気のせいかも知れませんが、下のヒートマップで見ても4号と9号や14号と19号に薄い縦線が見えます。

f:id:aruke_aruke:20220301164114p:plain

特定の番と号にある棟数を表すヒートマップ。青が最も多く、黄、白の順に少ない。

 

一応片対数グラフを見たところ、番と同じようにジップの法則に従っていそうでした。

f:id:aruke_aruke:20220228013012p:plain

号の数字に対する棟数の分布(片対数)


丁目-番-号

やっと本題です。a-b-cのtop20は下の図のようになりました。

f:id:aruke_aruke:20220228005703p:plain

丁目-番-号の分布(多い順20個)

やはり最も多いのは1-1-1でした。でも、2番目に多いのは1-1-2ではなく2-1-1でした。そして1-1-2はtop20にさえ入らず、1-1-3よりも少ないのはとても意外でした。a-b-1が多いのは角地にあるだけかもしれませんし、かっこいいからかも知れません。

2-2-2は多いのはゾロ目だからかも知れません。2-2-xは2-2-2が最も多く、5-5-xも5-5-5が最も多く、残念ながら3-3-xは3-3-1に次いで2位、縁起が悪そうな4-4-4は4-4-xの中でもなんと15位でした。機械的に決まるだけじゃなく人間の恣意的な側面が垣間見えている気がします。

 

雑にですが、ジップの法則の話を出したので指数関数で回帰してみると、丁目は\mathrm{e}^{丁目\times-0.6}、番は\mathrm{e}^{番\times-0.085}、号は\mathrm{e}^{号\times-0.1}のような"傾き"が見られました。丁目と番と号が独立な分布ならば1-2-1の次に1-1-2が多くなるはずです。でもそうなっていないため、丁目と番と号は独立ではなさそうです。例えば、1-1-1という地名を代表するような場所には大きな建物が多く、1-1-1の隣のビルが1-1-3や1-1-4などと大きく離される可能性もありそうです。

ちなみに住所が選べるのかを調べたところ、海老名市では選べなさそうですが、吉川市ではまたがっている場合には選べるようで、自治体によって異なりそうです。登記などはともかく、郵便物や経路検索アプリでは多少ずれていても問題なさそうなのでそう表示している可能性もあります。

 

おわりに

10000番や10000号などの異常に大きな住所が見つかってデータの誤りが見つかるかと思いきや、むしろそんな住所が実在することを知りました(ちなみに全部で10210通りの「a-b-c」がありました。)。estieのデータを日々直している者としては誤りが見つからなくてうれしいことです。他には1-1-2が少ないのは意外でした。住所でさえゾロ目を狙ったり4や9を避けたりするのも人間っぽいなと思いました。

 

今回は「棟数」でのみ数えましたが、他にも延床面積や敷地面積で見るとかも考えられます。例えば1-1-1にある建物は他の場所よりもどのくらい大きいでしょうか。階数はどうでしょうか。それが何の役に立つのかはともかく、そういう調査もやってみたいと思っています。

www.estie.jp

*1:例えば建設中

*2:とはいえ、23区に6丁目に1600棟以上ありますが...

*3:国道5号の終点

*4:ちゃんとした解析はしてないです

*5:右の方は「存在する」番地のみ表示しているため直線上にありません。

*6:地番かも知れません

*7:参考: ビルの所在地の管理、ただそれだけで難しい - aruke_arukeのブログ

ビルの所在地の管理、ただそれだけで難しい

f:id:aruke_aruke:20211202153737p:plainはじめに

株式会社estie(単にestieとも)は主にオフィスビル情報や賃貸オフィスマッチングサービスを提供する会社です。

私はestieに10月に入社し、データそのものを管理しています。扱うのはビルのデータだけではありませんし、もちろん所在地だけでもないですが、今回はビルの所在地という狭い分野に焦点を当てて記事を書きました。

 

是非、「住所入れればいいんじゃないの?」と気軽に読み始め、深い沼を楽しんでください。

これは Calendar for estie Advent Calendar 2021 の13日目の記事です。

住居表示の基礎

いわゆる住所*1のことで、多くのestie社員も単に住所と言っています。市町村が建物に対して与えるもので[1]、住居表示という名ですが、住居以外の建物にも与えられています。例えば現在estieのオフィスがある東京大学は住居ではないですが、「東京都文京区本郷七丁目3番1号」という住居表示を持っています。

日本で主に使われている住居表示は街区方式と呼ばれる方式で、道路や河川などに囲まれた「区画(街区)」を基準に地名や番地を付与する方式です。上記の東京都文京区本郷七丁目3番1号も街区方式によって表されています。

市には郡が無いとか、区は政令指定都市にのみにあるなどの様々な例外がありますが、大雑把に階層構造っぽく表すと

都道府県--市町村/特別区---番地-

のようになっています*2

都道府県-郡-町村-字-番地-号を基本とし、

 町村が市になって都道府県-市-字-番地-号

 政令指定都市の一部では都道府県-市-区-字-番地-号

 東京23区だけ例外として都道府県-特別区-字-番地-号

 北海道や島嶼部には支庁……

などと例外は多いですが、ある程度階層的な構造です*3

先述の住居表示は東京都文京区本郷七丁目3番1号と分解でき、更には大字(本郷)と小字(七丁目)にも分解できます*4

この階層構造をデータベース上に構築し、ビル毎に対応する番号を振ることで、estieのサービスでは

  • 都道府県の中から東京都
  • 東京都の中から文京区
  • 文京区の中から本郷

と絞り込んでビル情報を扱えます。

 

ジオコーディングとは

位置を表すには住居表示以外に緯度経度があります。他にもwhat3wordsなど、位置を表す方法は様々ありますが、estieでは住居表示と緯度経度を主に使っています。

多くのビルのデータは、ビルの所在地を住居表示で表示しています。最近は地図でも表示するサービスが増えてきましたが、ビルの住居表示がわかっても緯度経度がわからなければビルの位置を地図で表示できませんし、逆にビルの緯度経度のみがわかっていても「文京区のビル」の検索はできません。住居表示から緯度経度を得たい……そこで出てくるのがジオコーディングです。

f:id:aruke_aruke:20211202152635p:plain

住居表示などから緯度経度を与えることを「ジオコーディング」といい、逆に緯度経度から住居表示を与えることを「逆ジオコーディング」といいます。この技術を使って、estieではビルの位置を地図上でも表示できるようにしています。

 

難しいところ

ここまでは位置情報を扱うときによくある話・基礎知識ですが、7万件以上のビルの所在地扱った私だからこそ見つけられ、そして困った、細かめの話をしていきます(といっても、説明・対処がしやすくて、知見になりそうな事象を書きます)。

住居表示の表記揺れ

  • 東京都文京区本郷七丁目3番1号
  • 東京都文京区本郷7丁目3-1
  • 文京区本郷7-3-1
  • 本郷7丁目3-1

これらを人は同じ場所だと思えるが故に、このような様々なフォーマットでビルの所在地が書かれています*5

省略だけでなく、地名によっては

のように表記が揺れることもありますし、ハイフンが全角だったりマイナス記号だったりもします。

estieでは住居表示を「東京都文京区本郷7丁目3-1」や「虎ノ門」の形式に統一して保持・表示しています*6。このように統一(正規化)されたデータと入力クエリの正規化によって、高速で便利な検索を実現できます。

様々な表現で書かれた元データから機械的に変換しましたが、その変換が不自然にならないよう、いろんな所在地表現を見て最適な統一処理を探し、また例外処理の実装も行っています。

 

重複する地名

府中市は東京都にも広島県にもあります。読み方が違っても漢字だけでしか書かれなければ区別はほぼ不可能です。このような同名の市町村はたくさんありますが、その大半は前後を見れば大抵区別できます。というか、そうでなければ困るので大抵名前は被らないようにつけられます。しかし全てがそうだとは限りません。

例えば京都府京都市中京区亀屋町はなんと5つあります。こちらは面している通りの名前や交差点からの方角などで区別されることもあり、先ほどの階層構造では表せない「区別のための文字」が住所に含まれることがあります。他にも京都・北海道の地名は複雑で、語れることが多いです*7

法律上、各市区町村が"合理的"にするよう務めているはずなのですが、地名には愛着があるため難しい問題です。我々としては「府中市1-1の府中ビル」というデータがあった場合、地図を見て判断することになります。地名を扱うにはそういう覚悟がいります。

 

番地は数字だけ?

普段見る"住所"のほとんどは、「10番地」のように番地が数字です。しかし、実は数字とも限りません。株式会社estieでは番地をint型(整数型)で持つようなことはしていませんが、数字だと仮定した処理は危険です。

前述の通り、住居表示は道路や河川などよって区画が定められるため、境界上にあるビルの地名は原則通りにならない傾向にあります。例えば東京の四ツ谷駅*8江戸城の外濠だった場所に作られています。その結果、四ツ谷駅の所在地は「東京都新宿区四谷一丁目無番地」となっています。四ツ谷駅に限らず、区画の境界である線路の上に建設される駅ビルの所在地は難しい問題です。

四ツ谷駅の場合、Null番地なのか「無」番地なのかは文字からだけではわかりませんが、番地が数字ではありません。外部サービスには0番地を返すものもありました。他のビルについても調べた結果、アルファベットや漢字などの更にいろいろな値が入ることも判明し、estieでは正規化した文字列で保持しています。

 

道路方式での住居表示

日本では少ないですが、面している道を基準に付与する住居表示もあります。例えば山形県東根市で「板垣大通り」「板垣中通り」「板垣北通り」のように使われています[2]。日本の公的な場面ではあまり使われない一方で、道案内では「本郷通りを北に〜」などと使われています。地図のように俯瞰的に見るのではなく、通行人の目線では特に便利そうだと思いながら過ごしています。町を歩いていて「ここから二丁目」という案内はあまり見ませんが、「この道は○○通り」という通り名標識や国道の標識はよく見かけるので、いつかは「本郷通り沿い」のような検索も必要とされるのではないかと考えています。

 

同じ住居表示を持つ、異なる建物が存在する

区画内の「」は、約10メートル毎に右回りに付けられています[3][4]*9。この原則によって住居表示から位置を特定しやすくなっていますが、「約10メートル毎に」付与されるため、幅が狭いビルが並んだ場合には同じ「」が割り振られます。*10こうして、同じ住居表示を持つビルが生まれます。

f:id:aruke_aruke:20211202152659p:plain

estieでは住居表示が被っているビルを数千件扱っています。様々な工夫によりそれらが本当に異なるビルである状態へと改善できました。ビルはほぼ毎日追加されるため今でもたまーに重複データが見つかりますが、同じビルを複数保持してしまう「ビルの重複削除」が社内で重大かつ有名なプロジェクトです。所在地の住居表示が同じでも重複データとは限らないため、住居表示は銀の弾*11にはならず、様々な工夫が必要でした(一例:【Python】不動産データに対して編集距離から類似度を計算してみた - Qiita)。

また、住居表示順の並び替えが一意にならないことにもつながります。

 

同じ住居表示を持つと、ジオコーディングした際に同じ緯度経度になる

同じ住居表示は更に問題を生み出します。ジオコーディングは、先述の通り住居表示から緯度経度に変換することです。入力された住居表示が同じなら、出力される緯度経度も同じです。すると、異なるビルが同じ住居表示を持っているだけなのに、サービス上の地図で見ると同じ場所にビルが存在してしまいます。

具体例を挙げると、同じ住居表示「東京都港区北青山3丁目5-9」を持つ5棟のビルはジオコーディングによって同じ代表点を持つため、単にジオコーディングサービスを用いただけでは1枚目の図のようになってしまいます*12。正しくは2枚目のようにビルが存在しているのに、4棟のビルの所在地が間違ってしまっています(水田ビルは東京都港区北青山3丁目5-8)。

f:id:aruke_aruke:20211121163454p:plainf:id:aruke_aruke:20211121163512p:plain

不動産業界では、ビルが地図上で正しい位置に表示されることがとても重要なため、このような緯度経度の修正が必要です。ビルの名前から緯度経度が取得できる場合もありますが、最終的には複数の地図やストリートビューを駆使してビルの位置を5000件ほど修正しました。緯度経度が少しだけ間違っている状態の検出は難しいので、まだまだあると思いますが……。

 

住居表示かと思ったら、地番

地番とは、法務局が土地に対して与えた地名(番号)のことで*13都道府県から字までは住居表示とほぼ同じです*14。住居表示は辿り着きやすいように位置の順に数字を付けますが、地番は重複がないように数字を付けるため、今では番地や号はかなり異なっています。
よく見れば「番地」か「番」かで住居表示と見分けられますが、書いてなかったりハイフンで済ませられたり、判別には苦労します。住居表示かと思って取得、保持してしまうこともあります。運悪く住居表示で解釈できてしまえば、ジオコーディングの結果、全く違う緯度経度でビルを表示することにもつながります。
しかも地番が地番だとわかっても住居表示はすぐにはわかりません。竣工中のビルデータを扱うことで将来のオフィスの需給などをサービスに反映させたいのに、竣工前には地番しか無いことも多く、住居表示に仮のデータを入れざるを得ないこともあります。
このようなときには建築確認看板や現地の様子から所在地を特定し、推測した住居表示を入力することもあります。地番と住居表示の対応サービスも存在するのですが、最新のデータや未確定のデータまで扱おうとすると、泥臭い仕事が必要になります。
 

地名の変更

地名はたまに変わります。有名なところで言えば、市町村の合併で地名は変わり、当然住居表示も変わります。そんなとき、その土地にあるビルの住居表示の書き換えが必要になります。しかも番号が振り直されることもあり、機械的には困難な書き換えが突然数百件も必要になることもあります。例えば2018年に東京都新宿区の三栄町は四谷三栄町へと変更されましたが、いまだに三栄町のデータは世の中にたくさん残っています*15

このように既に無い所在地は要修正所在地へと判別しています。新旧対照表などが手に入る場合もありますが、結局は新旧の地図を照らし合わせて最新の住居表示を探す……なんて仕事もしています。

 

緯度経度からはどの測地系なのかがわからない

緯度経度は数字なんだから表記揺れにも苦しめられず、似たような表示もなく、全世界で統一された基準として使える……と思ったら実は違います。

今では多くのサービスが、WGS84日本測地系2011などの世界測地系と呼ばれる緯度経度システムを採用しています。estieでもこの緯度経度を使っています。

しかし、旧日本測地系という別の測地系も存在します*16日本測地系世界測地系では緯度経度共に12秒(=1/300度)ほどずれているので、ビルの位置を旧日本測地系で保存しようものなら100メートル以上ずれてしまいます。そのため、どの測地系かを明確にしたいですが、緯度経度自体は数字です。気がつかずに入力してしまったのか、たまに旧日本測地系で入力された緯度経度由来のような大きなズレが存在していました。

最近はほぼ大丈夫なようです*17。サービスによって測地系や緯度経度の値が異なることを期待して日本橋にある日本国道路元標の緯度経度を取得したところ、

Yahoo! 地図:35.68404, 139.77448

Google Map:35.68405, 139.77449

国土地理院地図:35.68403, 139.77448

MapFan:35.68405,139.77449

などとほとんど同じ値でした*18。緯度や経度は1度が約100キロメートルなので、小数点以下5桁は約1メートル精度です*19。このような感覚は生のデータを何度も見ることでこそ身につくと思っています。

 

その他様々な誤り

大半の所在地は人間が打ち込んだデータなので

  • 似た文字への誤字(両国国技館の地名は横網だが横綱になってるなど)
  • 全く違う地名と勘違いしているもの(都道府県名が違うことも……)
  • 脈絡のない脱字(西新宿が新宿になってしまっているなども)
  • 12-3が1-23になっているもの
  • 変換ミスや読み間違い
  • 所在地の欄にビル名や緯度などの異なるデータが混入
  • テストデータ「あああああビル」などの混入
  • 1丁目で終わっていて番地が入力されていないもの

などなど、突拍子もないものを含めて様々な入力が存在します[6]。

大量のビルを調査することで新たなエラーを発見し、修正し、バリデーションに追加する繰り返しです。

 

泥臭さ

株式会社estieは不動産テック企業なので、もちろん上記のような内部での処理も検出や修正はできるだけ効率的・機械的に行おうとしています。泥臭い作業には無駄がありそうに見えますが、泥臭い作業が無駄だとは限りません。

効率的に不動産データを扱えるために、泥臭い仕事が必要になることもあります。泥臭く思えた作業が最も効率的・効果的なこともあります。泥臭くデータを見続けたからこそ得られる知見もあります。そして、泥臭い作業の末に他人が見つけにくい誤りを見つけ、泥臭さを楽しみながら修正し、社内wikiにまとめる私がいます。我々が泥臭い作業をすればするほど、後の作業から泥臭さを取り除ける……そんな作業を社内では「浄水」と呼ぶこともあります。

 

おわりに(採用情報)

今回紹介した泥臭い仕事以外にも、オフィス不動産の意思決定をもっとシンプルにするべく、一緒にデータパイプラインを構築したい、データを見やすく表示したい、将来の賃料を予測したい、それらを支えるインフラ構築などなど、幅広く採用強化中です。

(ビルデータを数万件見てる人と話してみたいとかも多分OKです。)

jobs.estie.jp

herp.careers

参考文献

[1] 「住居表示に関する法律

[2] 「通り名で道案内」 https://www.mlit.go.jp/road/torimei/toorina/nerai.htm

[3] 「住所に使われる「地番」「住居表示」の違いをご存知ですか まったく異なるルールの書き表し方」https://news.yahoo.co.jp/articles/5e3378947901dd469df137159b7e2f3bc3b69a93

[4] 「日本の住所って、どうやって決まるの?地番と住居表示の違いは?街区方式と道路方式ってなに? 住所の疑問にお答えします!(住所データ・番地号編)」https://business.mapfan.com/blog/detail/2254

[5] 「測地系https://ja.wikipedia.org/wiki/%E6%B8%AC%E5%9C%B0%E7%B3%BB

[6] 「DX阻む「ふぞろいの住所たち」 データ統一は難事業」https://www.nikkei.com/article/DGXZQOUA30CW30Q1A131C2000000/ (このブログの投稿前日に公開された記事)

*1:厳密には異なるので、本記事ではできるだけ「住居表示」と書く

*2:「区」は行政区や地方自治区や合併特例区などがある。更に姫路市には「広畑富士町」という町名がある。厳密には非常に複雑

*3:住居表示だけで30分は語れそう

*4:ここで、大字と書いた部分を「町」と呼ぶこともあるが、市町村の「町」と紛らわしいため本文には書いていない

*5:本郷は東京都文京区以外にも存在するにもかかわらず……

*6:丁目が存在しない地名もあり、区別のために今回の「7」が丁目であると保持・表示していますが、検索のためには全部ハイフンとどっちが良いだろうかと悩むこともあります

*7:estieでは北海道の地名を南十八条などと表記してますが、正式には南18条であるなども……

*8:四ッ谷駅とも書かれる

*9:原則

*10:正確に言えば、入り口の場所で決められるよう

*11:万能な解決策の意味

*12:このような通り抜けできない道には、同じ住居表示が並びがち

*13:より詳しく言えば、所有者別の番号を意味していたため、同じ土地に複数の地番が存在することさえある

*14:違う例があれば知りたい

*15:社内データベース内は修正したため、あくまでオリジナルデータとして保持している部分が大半ですが、社内データベースにもあります

*16:Wikipedia[5]にはMapFanなどで使われていると書かれている測地系。MapFanを使ってみたところ、世界測地系を使っているようだが……

*17:新しく使うサービスでは注意して使い始めますが、こういう油断によってやばいデータが紛れ込むんですよね……

*18:小数点以下5桁のみ。画面上でクリックした点なので、厳密な値ではない

*19:特に経度は緯度によって大きく異なるが、感覚を掴むために1度は100キロメートルと覚えると便利