作者: davi
日時: 2009/1/07(00:52)
みなさん  <  こん??は でび です

なんだか仕事モードでC++やらビット演算どころではなくなってしまいました。

で、その仕事モードで必要が出まして、相談致します。

テストデータ(試験用データ)を作りたいわけであります。

ネットで探しますと、「SQL用の大量のダミー個人データ生成」とかってのが
いっぱいヒットしました。プロの皆さんも、やはり苦労しているみたいです。

で、なんちゃって個人情報(http://kazina.com/dummy/index.html)と、
generator(http://www.generatedata.com/#generator)はオンラインで
試しました。それぞれ有用なツールだと思います。

しかし今回は、単に、ランダムデータで最大値最小値指定ができる、
というような感じでは不満足なわけであります。

どういうデータが欲しいかというと、Excelの「基本統計量」を試した時に、

  平均
  (平均の) 標準誤差
  中央値 (メジアン)
  最頻値 (モード)
  標準偏差
  分散
  尖度
  歪度
  範囲(これは自明なので不要)
  最小(これは自明なので不要)
  最大(これは自明なので不要)
  合計(これは自明なので不要)
  標本数(これは自明なので不要)
  最大値 (K 番目)(これも自ずと出てくるので不要)
  最小値 (K 番目)(これも自ずと出てくるので不要)
  信頼区間 (%)(これは95%とか自分で指定するので不要)

などに、「一定の傾向があるね、と確認するためのデータ」で、
なおかつ一見した所では、バラツキのあるデータのように見えるモノ
(若干の外れ値があるもの)が欲しいわけであります。

つまり、バラツキがあるデータが欲しいのではなく、
偏りがあるデータなんだけど、若干の外れ値があって、
更に一見した所では、偏りがあることはわかりにくい。

そういうデータがあると、分散のグラフを描いたときに、
「おや?正の(or負の)相関があるようですよ。」とか言えるわけです。

ベクターなどを探してみますと、機能充実っぽいのは「TDM」という
テストデータ作成ツール(WINDOWS,Excel2000以降)のためのマクロ
でした。しかし、今回の要求仕様にはちょっと合わないみたいです。

そういうものを(できれば自動的に生成)したいわけであります。

どうするのが一番楽そうでしょう?

手打ちで適当に作って、ときたま外れ値を入れる方が
やっぱり楽でしょうかね?
でも数百個作るとなると、ちょっと面倒だぞ、と・・・。

機械さんなんかは数学+総合的学習の組み合わせとか、
情報処理の授業とかでExcelでグラフを作ってみよう、
とかやったりすると思うんですが、どうしているんですか?


でび  http://davi.txt-nifty.com/1984/