PetaPetaStack 開発者ブログをはじめました
こんにちは。
データセットのカタログサイト「PetaPetaStack」開発者のrilmayerです。
このWebサイトはGWに開発仲間3人で立ち上げたものです。
このブログでは開発を通して得られたエンジニアリング、デザイン、データ分析等の知識を紹介していこうと思います。
さて、一番始めのこの記事では「そもそもなぜこのPetaPetaStackを作ったか」について書きたいと思います*1。
PetaPetaStackとは何か
PetaPetaStackは「データセットを登録したり検索したりできるデータセットのカタログサイト」です。
そもそも「データセットってなに?」ということについては次回以降の記事で解説・紹介したいと思います。
私自身が日頃から様々なデータを扱ったり面白いデータセットを眺めたりするのが好きなので、そういう楽しいサイトが作れないかなとぼんやりと考えておりました。
そして昨今、機械学習やデータサイエンスが流行りだして「ちょっと気軽にデータに触れてみたい」という人も増えてきているかと思います。
はたまた「バリバリ機械学習の理論勉強したけどその知識をいろんなドメインで役に立てたい」と言った人もいると思います。
そこで必要になってくるのが、ある程度分析しやすい形にまとまったデータ、つまりデータセットなのです。
そんなデータに関わるすべての人に向けたWebサイトをPetaPetaStackでは提供したいなと思っています。
PetaPetaStackが目指すもの
さっきから何度もペタペタ(PetaPeta)連呼してしまいすみません。
さて、このWebサイトを通して実現したいことは3つあります。
PetaPetaStackを通して、データに関わる人がもっと楽しめるようにしたいと思っています。
解決する課題
先ほど述べたように、データサイエンスの学習、機械学習や統計等の技術習得、モデル構築、研究活動におけるベンチマーク等、様々な分野においてデータセットは必ず必要です。しかし現状では以下のような問題があります。(あるように感じます。)
- 種々のデータセットが世界中のWebサイトに散在していおり、目的のデータセットを探すためのコストが大きい
- アマチュアからプロまで様々なデータに関わる人が交流できるWebサイトがあまりない*2
- データセット作成者はWebに公開するために自身でプラットフォームを用意しなくてはいけない
こんなことを解決したいと考えています。
そして、これらの解決として、先ほど「目指すもの」で紹介した3つの項目があるのです。
PetaPetaStackの今後
今後は「目指すもの」の3つめで書いた「データ公開のための場所を提供」できるように開発を続けていきたいと思います。
繰り返しになりますが、興味がありましたらぜひ使ってみていただけると嬉しいです。
そしてオススメのデータセットがあれば、Webサイトでご紹介ください。