みなさん < こん??は でび です
なんだか仕事モードでC++やらビット演算どころではなくなってしまいました。
で、その仕事モードで必要が出まして、相談致します。
テストデータ(試験用データ)を作りたいわけであります。
ネットで探しますと、「SQL用の大量のダミー個人データ生成」とかってのが
いっぱいヒットしました。プロの皆さんも、やはり苦労しているみたいです。
で、なんちゃって個人情報(http://kazina.com/dummy/index.html)と、
generator(http://www.generatedata.com/#generator)はオンラインで
試しました。それぞれ有用なツールだと思います。
しかし今回は、単に、ランダムデータで最大値最小値指定ができる、
というような感じでは不満足なわけであります。
どういうデータが欲しいかというと、Excelの「基本統計量」を試した時に、
平均
(平均の) 標準誤差
中央値 (メジアン)
最頻値 (モード)
標準偏差
分散
尖度
歪度
範囲(これは自明なので不要)
最小(これは自明なので不要)
最大(これは自明なので不要)
合計(これは自明なので不要)
標本数(これは自明なので不要)
最大値 (K 番目)(これも自ずと出てくるので不要)
最小値 (K 番目)(これも自ずと出てくるので不要)
信頼区間 (%)(これは95%とか自分で指定するので不要)
などに、「一定の傾向があるね、と確認するためのデータ」で、
なおかつ一見した所では、バラツキのあるデータのように見えるモノ
(若干の外れ値があるもの)が欲しいわけであります。
つまり、バラツキがあるデータが欲しいのではなく、
偏りがあるデータなんだけど、若干の外れ値があって、
更に一見した所では、偏りがあることはわかりにくい。
そういうデータがあると、分散のグラフを描いたときに、
「おや?正の(or負の)相関があるようですよ。」とか言えるわけです。
ベクターなどを探してみますと、機能充実っぽいのは「TDM」という
テストデータ作成ツール(WINDOWS,Excel2000以降)のためのマクロ
でした。しかし、今回の要求仕様にはちょっと合わないみたいです。
そういうものを(できれば自動的に生成)したいわけであります。
どうするのが一番楽そうでしょう?
手打ちで適当に作って、ときたま外れ値を入れる方が
やっぱり楽でしょうかね?
でも数百個作るとなると、ちょっと面倒だぞ、と・・・。
機械さんなんかは数学+総合的学習の組み合わせとか、
情報処理の授業とかでExcelでグラフを作ってみよう、
とかやったりすると思うんですが、どうしているんですか?
でび http://davi.txt-nifty.com/1984/