町田市の住宅団地別世帯数・人口表
こんにちは。
今日はPetaPetaStackに登録されたデータからオススメのデータセットを紹介しようと思います。
今回オススメするのはこちらです。
このデータ、埋もれているのがもったいないくらい面白いです。
どんなデータかというと、2003年〜現在にいたるまでの町田市にある住宅団地の人口規模が入っているデータです。
ちょっとデータと戯れてみましょう。
データに含まれる団地
データに含まれる団地をピックアップしてみたところ以下の12の団地がありました。
- 境川住宅(木曽東2・3丁目)
- 小山田桜台団地(小山田桜台1・2丁目)
- 山崎団地(山崎町)
- 木曽住宅(木曽東4丁目)
- 本町田住宅(本町田・南大谷)
- 森野住宅(森野1丁目)
- 町田木曽住宅(本町田・木曽東4丁目)
- 真光寺住宅(真光寺3丁目)
- 藤の台団地(本町田・金井町)
- 高ヶ坂住宅(高ヶ坂3丁目)
- 高ヶ坂住宅(高ヶ坂)
- 鶴川団地(鶴川2・3・5・6丁目)
それぞれの団地の規模
以下、それぞれの団地の世帯数をグラフ化してみたものです。(2017年5月時点)
なお、高ヶ坂住宅については2015年以降のデータがなかったので、それ以外で算出しています。
もっとも世帯数の多い町田木曽住宅は4508人、もっとも少ない真光寺住宅との差は30倍以上になります。
時代による世帯数の変化
各団地がどのような世帯数の変化をしているかを示したのが以下のグラフです。
どの団地もそこまで、大きく世帯数が現象しているとかはなさそうです。
ちなみに世帯数の変化(2003年と20117年の比率)がもっとも大きかったのは山崎団地(山崎町)で世帯数は4229→3629とかなり減少しています。
しかし、ほとんどの団地は世帯数にそこまで大きな変化がなく、ずっと入居者が一定ということが伺えます。
団地別男女比
男女の数も含まれていたので集計しました。
場所によっては少し女性が多い団地もあるようですが、概ね半々となっています。
予測(テキトウ)
時系列変化のデータがあるので、やはり予測してみたくなります。
今回はパパッとやろうということで、線形回帰(エクセルの「FORECAST」関数)で2050年ごろの世帯数を予測してみました。
なお、数式は以下の通りです。
Y = a + bX
特に世帯数の多い町田木曽住宅について、2050年にはどうなるのかをプロットしたのが以下のグラフです。
思ったよりも減りませんでした。
まあ、実際のこの回帰はかなりテキトウなので、あてになりませんがこうして回帰の練習をすることができるデータであるということもわかりました。
これは有意義な情報でしょう。
おわりに
さて今回はPetaPetaStackに登録されている町田市の住宅団地別世帯数・人口表で遊んでみました。
データで遊ぶのは楽しいですね。
PetaPetaStackには他にも様々なデータセットが登録されているので、ぜひ探してみてください。
ではでは。
PetaPetaStack 開発者ブログをはじめました
こんにちは。
データセットのカタログサイト「PetaPetaStack」開発者のrilmayerです。
このWebサイトはGWに開発仲間3人で立ち上げたものです。
このブログでは開発を通して得られたエンジニアリング、デザイン、データ分析等の知識を紹介していこうと思います。
さて、一番始めのこの記事では「そもそもなぜこのPetaPetaStackを作ったか」について書きたいと思います*1。
PetaPetaStackとは何か
PetaPetaStackは「データセットを登録したり検索したりできるデータセットのカタログサイト」です。
そもそも「データセットってなに?」ということについては次回以降の記事で解説・紹介したいと思います。
私自身が日頃から様々なデータを扱ったり面白いデータセットを眺めたりするのが好きなので、そういう楽しいサイトが作れないかなとぼんやりと考えておりました。
そして昨今、機械学習やデータサイエンスが流行りだして「ちょっと気軽にデータに触れてみたい」という人も増えてきているかと思います。
はたまた「バリバリ機械学習の理論勉強したけどその知識をいろんなドメインで役に立てたい」と言った人もいると思います。
そこで必要になってくるのが、ある程度分析しやすい形にまとまったデータ、つまりデータセットなのです。
そんなデータに関わるすべての人に向けたWebサイトをPetaPetaStackでは提供したいなと思っています。
PetaPetaStackが目指すもの
さっきから何度もペタペタ(PetaPeta)連呼してしまいすみません。
さて、このWebサイトを通して実現したいことは3つあります。
PetaPetaStackを通して、データに関わる人がもっと楽しめるようにしたいと思っています。
解決する課題
先ほど述べたように、データサイエンスの学習、機械学習や統計等の技術習得、モデル構築、研究活動におけるベンチマーク等、様々な分野においてデータセットは必ず必要です。しかし現状では以下のような問題があります。(あるように感じます。)
- 種々のデータセットが世界中のWebサイトに散在していおり、目的のデータセットを探すためのコストが大きい
- アマチュアからプロまで様々なデータに関わる人が交流できるWebサイトがあまりない*2
- データセット作成者はWebに公開するために自身でプラットフォームを用意しなくてはいけない
こんなことを解決したいと考えています。
そして、これらの解決として、先ほど「目指すもの」で紹介した3つの項目があるのです。
PetaPetaStackの今後
今後は「目指すもの」の3つめで書いた「データ公開のための場所を提供」できるように開発を続けていきたいと思います。
繰り返しになりますが、興味がありましたらぜひ使ってみていただけると嬉しいです。
そしてオススメのデータセットがあれば、Webサイトでご紹介ください。