脳内ライブラリアン

脳内ライブラリアン

医療、統計、哲学、育児・教育、音楽など、学んだことを深めて還元するために。

MENU

pythonを少しかじってみた感想

pythonってご存知でしょうか。

 

少し前から人気上昇中のプログラミング言語です。

 

巷でプログラミング教育の宣伝をよく見ますが、何の役に立つのかよくわかってませんでした。そこで、この前あったamazonkindleセールでついつい関連本を色々買ってしまいました。

 

かじった範囲でpythonが面白そうだったのは

①webのスクレイピングとクローリングができること

②データ解析も可能なこと

機械学習

あたりでしょうか。簡単に知った範囲のことを書いてみます。

 

スクレイピングとクローリング

①はそもそもどういう用語かも知らなかったのですが、インターネット上のページから必要な情報だけを大量に抜き出したり(スクレイピング)、色んなサイトをプログラムに指示して回らせたり(クローリング)できる方法です。google search consoleが何をやっているのかも、これを知ってようやく理解しました。

 

サイトのサーバーに負荷をかけてしまうので、あまり大量・短時間のアクセスはしてはいけませんし、そもそもクローリングやスクレイピングを禁じているサイトもあるのでその場合はやってはいけません。訴訟になっている例もあるので注意が必要です。(無罪でしたが、下記リンク参照)

岡崎市立中央図書館事件 - Wikipedia

ただ、OKなサイトであれば常識的な範囲でのアクセスが可能です。

 

これをうまくいかせれば色々できそうです。

・医学文献の主要ジャーナルの最新一覧をタイトルだけざっと見れるのではないか

・(本に書いてありましたが)web予約でなかなか空かないところの予約が空いたのがわかる

などなど、今後ちょっとやりながら考えてみたいところです。

 

個人的には洋書を読むときに単語をネットなどで調べた際に、単語の和訳一覧を作るのがコピペなどしているとすごい大変だな、と思っていたので、これもpython使ったら単語+意味だけをスクレイピングできるんちゃうか、、、と思ったのですが、既に個人のブログで作ってくれている人がいました。

webスクレイピングで英単語の和訳を取得する | KAZZSTORAGE

 

しかも『pythonista3』というAppでiphoneでもpythonは使えるので、スマホメインのユーザーも、書いたプログラムを使ってばりばり応用できると思います。

「Pythonista 3」をApp Storeで

 

データ分析

②はpythonで色々データ解析ときれいなグラフが出せるということなのですが、現状医学研究に関してはRで満足しているので、使いどころはないかもしれません。

 

機械学習

これも大変面白そうな分野ですが、まだ全然手が届きません。読み込んだデータをもとに学習させるプログラムなんかが作れるようです。『Python 1年生』(後述)の入門書に一部書いてあるのですが、これだけでも十分ワクワクしますね。

 

買った本たちの紹介

Python2年生 スクレイピングのしくみ 体験してわかる!会話でまなべる!

Python2年生 スクレイピングのしくみ 体験してわかる!会話でまなべる!

  • 作者:森 巧尚
  • 発売日: 2019/10/04
  • メディア: 単行本(ソフトカバー)
 

このシリーズはめちゃくちゃ分かりやすかったです。図が豊富、情報量が少なく素人でも入りやすいです。本読んで気づきましたが、普段パソコンを使っていても、いかにその仕組みについては全然知らないかを気づかされます。

 

1年生はpythonをまず使ってみることから。なんと最後の方では自分の手書き文字を読み込ませるAIまでやっていきます。2年生は主にスクレイピングの話で、実際にどんどんやっていきます。

 

自分のように知識が乏しい人であれば最初の一冊としては間違いなくこれがよさそうです。 

翻訳書です。入門者向けというところでは大抵これが勧められてます。タイトルの通り、言語の基本だけでなくそれ以外のことも伝えてくれるからでしょうか。現状中盤まで読みましたが、かなり内容の多い本なのでまだまだ先は長そうです。初心者はゆっくりと読み進める気持ちで買うのが良いと思います。まったくの素人からするとこれですら若干専門用語が多くて混乱しそうです。

 

これはまた初心者向けです。基本的な使い方からスクレイピングには入るか入らないかというところでおしまいです。1項目ずつがすっきりとした内容でまとまっているので、読むのもあまり困りません。

 

これは実践編な本ですが、クローリングとスクレイピングの手法を順番に解説していきます。入門書のあとで読めばぎりぎりついていけるかもしれないですが、個人的には結構きつかったです。仮想環境とかも使うのがまた一苦労、、、そもそも仮想環境って何という感じでしたし。もし、「webスクレイピングをやりたい」という思いのある人でしたら、html,css, javascriptの構造も併せて勉強することをお勧めします。

 

エラーが頻出しすぎて時間とられすぎるので、本当にちょっとずつ今後は進めようと思ってます。ただ、プログラミングは非常に便利なツールなのが良く分かったので、ぜひぜひ興味のある方はぜひ勉強してみてください。エラーの解消に力を割きすぎて、本業がおろそかになりそうなので、僕はしばらくはほどほどにします(笑)

 

 

楽天ユーザーの方向けのリンクはこちら

NHKの「100分de名著」をオススメしたい

さて、ここ最近色々本を買いあさってたんですが、1冊ずつ紹介記事を書くのは結構骨が折れる(というか終わらない)のでライトにまとめて紹介していこうと思います。今回は「100分de名著」というNHKのテレビ番組の本を紹介します。

 

目次:

 

100分de名著とは

「100分de名著」というNHKの番組をご存知でしょうか。

 

タイトルの通り100分間で過去の名著(特に難しいやつ)を紹介する番組です。公式サイトはこちら。

100分 de 名著

 

これがまた面白くて分かりやすいんですね。対象が一般の事前知識のない読者を想定しているので、テキストだけ買っても分かりやすくて、入門書としてうってつけなんです。以前にニーチェの記事でも紹介しました。

 

ツァラトゥストラ』の100分de名著のテキストはこちらでも紹介してます。

medibook.hatenablog.com

 

今まで哲学関連の本などで「~入門」という本を結構買ってきましたが、当たり外れが強いと思います。入門する人が「ある程度周辺の専門分野」を知っているのかどうかで全然違うのですが、その辺まで考慮している本としていない本があります。立ち読みできれば一番いいのですが、最近は外出もしにくいですよね。Amazonなどで一発購入となると、買ってから「全然わからん」となることが出てきます。

 

そこで、比較的当たり外れがないのがこの100分de名著シリーズです。読んだ本を紹介します。

 

ルソー『エミール 』

ルソーはフランスの哲学者で1712-1778年に活躍しています。今まで知りませんでしたが、『エミール』というのは一人の子どもを育て上げる教育書だったようです。当のルソー自身は子どもは何人かいたものの、全て女の人任せにするという中々な父親だったようですが、そんなルソーが考える理想の子育て像が描かれています。

 

この本が面白いのは1700年代の教育書なのに、現代に通じる部分もあることで、自主性を重んじ、社会から少しずつ学ばせるというところは着目するに値すると思います。、、、といっても直接この本を読んだわけではないのですが(笑)

 

ルソーの人生も学びつつ、教育について考えさせられる一冊です。

 

 カント『純粋理性批判

内容がそもそも難しいカントの純粋理性批判ですが、図も使われており分かりやすくカントの思想の肝について学ぶことができます。悟性とかカテゴリーとかアンチノミーとか独特の用語と、その関連性が複雑なカントなので、一つの図があるだけでも大変ありがたいですね。以前の記事で紹介した『カント入門』よりこっちを先に読んだ方がさらに分かりやすそうです。なぜカントの思想がそれまでのヨーロッパの哲学を大きく変えたのかが伝わります。

 

サルトル実存主義とは何か』

J.P.サルトルフッサールハイデガーの流れをくむとされており、実存主義(最初は否定していたけれど) を名乗った哲学者です。講演内容を本にしたものがもともとで、サルトルという人がどのような人であったかとその思想を説明します。ところどころの概要はつかめるのですが、サルトルの主張自体が概念を固めにくいのか、「本質がどこ」というのがちょっと分からなかったです。あまり他のサルトルの本や解説書を自分が読んでないためかもしれませんが、、。それにしてもとんでもなく自由を体現する人であったことは良く伝わります。

 

ブッダ『真理のことば』

仏教の祖ブッダの言葉をかみ砕きつつ紹介しています。ブッダが面白いのは『サピエンス全史』でも述べられていた気がするのですが、他の宗教とは少し違うところで、現実主義的というか合理的というか、ちょっと思考が違うところですね。神の存在を考えるものではなく、ただただ苦悩を滅する方法を考えているところが特徴で、現代でも十分通じる思想になっています。 

 

 

実に幅広く名著を紹介している番組なので、今後は興味のあるものを録画しつつ観ていきたいですね。しかも、次回は『ペストの記憶』なんて時事的なものを扱ってるみたいなので、ぜひ見たいところです。

Google Search Consoleにうまくインデックス登録されない話【サイトマップとは】

お盆過ぎたあたりからアクセス数が徐々に低下し始めており、「はて何がいけないのだろう」と思いを巡らせていました。

 

そういえば、記事数増えている割にGoogle検索からの流入が少ないなと思い、ふとgoogle search consoleを久々に見てみたところ。衝撃のカバレッジ数が。

f:id:medibook:20200824051930j:image

カバレッジ有効わずかに10!!190記事ぐらいはもうあるんですけど・・・。

 

改めてグーグルサーチコンソールを見直すことにしました。

 

Google Search Consoleの仕組みとは

googleサーチコンソールはgoogleの検索で見つけてもらえるように、サイトを登録する仕組みです。普通googleクローラーと呼ばれるネットを徘徊するプログラムを使って、うろうろとネット上のページを探します。さらにそのページの持つ情報を解読して検索での優先順位をつけていきます。この検索順位に対して対策していくのがSEO対策というものでした。

 

で、問題なのはそもそもクローラーがページを見つけてくれないということで、当ブログはそれに陥っているようです。

 

サイトマップを使う

うまくクローラーにみつけてもらうにはサイトマップを使うのが最適です。サイトマップというのは、そのホームページの構造を記したファイルです。普段は見られませんが、ネット上にはアップされています。はてなブログの場合は自動で生成されているため、自分のホームページのtopのアドレスに"sitemap.xml"を加えるとみることができます。

 

ただ、はてなブログの場合、他にもsitemapらしいページが多数あるため、どれを使えばいいか情報が錯そうしています。"sitemap_index.xml", "sitemap.xml?page=1"などなど。

 

実際にみてみると"sitemap.xml""sitemap_index.xml"は月ごとの記事へのリンクの入ったサイトマップがさらに入っているのみで、直接的なページへのリンクがありません。

 

当ブログは半年以上前にこの二つを登録していましたが、なんと検出されたURLは未だに0でした・・・。

 

とりあえず登録を変えてみた

"sitemap.xml?page=1"がtopページに出てくる記事情報が入っているので、一番それらしいと思われ、登録してみました。ただ以前もこれはやってみたのですが、ステータスが取得できないと言われてしまいました。

 

そこで、グーグル公式のサポートページの記事を見てみました。

 

サイトマップ レポート - Search Console ヘルプ

 

「レポートの見方」をみるとURL検査ツールでライブテストをやれ、とあるのでやってみると「取得できるURLです」と。できないんですけど・・・。

 

ひとまず"sitemap.xml?page=1"を登録しつつ、あとは手動でやりながら様子をみることとしました。

 

検索かけてみるとこれははてなブログユーザーがみんな困っている問題な気がしますが・・・いまだに解決されている感がありません。

もし追加でやってうまくいく情報があったらまた追記します。

 

(2020.08.23最終更新)

Σ(和の記号)を使いこなせるようになろう②【統計検定1級対策】

さて、前回記事ではΣの変形を用いた問題を解きました。

Σ(和の記号)を使いこなせるようになろう①【統計検定1級対策】 - 脳内ライブラリアン

同様に過去問をまた解いていきます。

 

式として使う武器たちはこちら。

標本平均

\frac{1}{n}\sum_{i=1}^nX_i=\bar X

標本平均の期待値

E[\bar X]=\mu 

標本平均の分散

V(\bar X)=V(\frac{1}{n}\sum_{i=1}^nX_i)\\=\frac{1}{n^2}\sum_{i=1}^nV(X_i)\\=\frac{\sigma^2}{n}

標本分散

\frac{1}{n}\sum_{i=1}^n(X_i-\bar X)^2

不偏分散

\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2

 

標本平均の変形例

\sum_{i=1}^nX_i=n\bar X

\sum_{i=1}^n(X_i-\bar X)=0

 

例題②:統計検定1級統計数理 2015年問5

問題の内容ですが、統計検定のホームページにはしっかりと「個人のブログに過去問は載せないでください」とあるので、うちには載せません…すみません。昔の公式問題集を買うか、ネット上にあるもの(本来ダメですが)を探してみてください。

 

さて、2015年の問5-1をみてみます。

 

\bar yはとりあえず、和の記号をばらせば簡単に求まるので良いとします。

 

問題は次のs^2です。

どうやって求めればよいか。

 

記載の解答の流れはどう思いつくか分からないのですが、自分で考えてみた順番に書いてみようと思います。

s^2はそのままだと上記した和の記号による変形がうまくできないので、まず展開してみます。

s^2=\frac{1}{n-1}\sum(y_i^2-2y_i\bar y+\bar y^2)

 

ここで、\sum y_iは既にいい感じに変形できることに気づきます。また\sum\bar y^2というのも定数なので変形できます。

 

すると

\frac{1}{n-1}\sum(y_i^2-2y_i\bar y+\bar y^2)\\=\frac{1}{n-1}\{\sum y_i^2-\sum 2y_i\bar y+\sum\bar y^2\}\\=\frac{1}{n-1}\{\sum y_i^2-2n\bar y^2+n\bar y^2\}\\=\frac{1}{n-1}\{\sum y_i^2-n\bar y^2\}

 

すごくすっきりしました。

 

ここで\bar y^2はすでに問の前半で求めているので問題なく、問題なのはこれです。

\sum y_i^2

 

これをどうやって求めるかといえば、2乗の項の和が出ているのはs_1^2s_2^2ですので、こいつらを足し合わせれば作れそうです。

 

というわけで展開しつつ足し合わせると

(n_1-1)s_1+(n_2-1)s_2=\sum y_i^2+\sum^n_1(\bar{y_1}^2-2y_i\bar y_1)+\sum_{i=n_1+1}^n((\bar{y_2}^2-2y_i\bar y_2)\\=\sum y_i^2-n_1\bar y_1^2-n_2\bar y_2^2

となります。

 

変形すると

\sum y_i^2=(n_1-1)s_1+(n_2-1)s_2+n_1\bar y_1^2+n_2\bar y_2^2

となるので、これを最初の式に代入して、\bar yも代入すれば答えが出ます。

 

例題③:現代数理統計学の基礎 第5章 問20(追加問題)

愛用している『現代数理統計学の基礎』の問題です。

追加問題は本ではなく、公式サイト上に問題がありますので、こちらからご覧ください。

 

ktatsuya77 - 現代数理統計学の基礎

 

p.14の下の方に問題があります。

 

(1)を見ていきます。

まずは、そのままだとどうにもしにくいので、Σの記号を使いつつ展開を狙っていきます。

 

E[(\bar X-\mu)^3]=E[(\frac{1}{n}\sum X_i-\sum\frac{1}{n}\mu)^3]\\=\frac{1}{n^3}E[\{\sum(X_i-\mu)\}^3]

 

ここで、いったん止めます。大事なのはこの形です。

E[\sum(X_i-\mu)]

 

何故かと言えばこれを変形すると

E[\sum(X_i-\mu)]=E[n\bar X-n\mu]\\=nE[\bar X]-n\mu\\=n\mu-n\mu\\=0

となるからです。

 

これを利用すると上記の3乗の式も結構0になって消えてしまうことが分かります。

つまり

\{\sum(X_i-\mu)\}^3を分解してみると

\{(X_1-\mu)+(X_2-\mu)+...+(X_n-\mu)\}×\{(X_1-\mu)+(X_2-\mu)+...+(X_n-\mu)\}\\×\{(X_1-\mu)+(X_2-\mu)+...+(X_n-\mu)\}

となるわけですが、同じ組み合わせを3乗した項は残ります。

 

しかし、2乗×1乗の組み合わせや1乗ずつの組み合わせは期待値をとると上記の理由ですべて0になって消えます。

 

例えば

E[(X_1-\mu)(X_1-\mu)(X_2-\mu)]=0です。

 

よって

\frac{1}{n^3}E[\{\sum(X_i-\mu)\}^3\\=\frac{1}{n^3}\sum E[(X_i-\mu)^3]\\=\frac{\mu_3}{n^2}

 

となります。

 

ちなみに公式の解答の(1)の初めに(X_i-\mu)^2とありますが、多分この2乗は誤植で不要だと思われます。

 

(2)も同じ調子で0になることを使えば解けます。

2017年の統計検定1級、問1も同様の原理ですので、3乗以上の期待値を計算する際には役立つテクニックです。

 

参考文献:

現代数理統計学の基礎 (共立講座 数学の魅力)

現代数理統計学の基礎 (共立講座 数学の魅力)

 

 

Σ(和の記号)を使いこなせるようになろう①【統計検定1級対策】

Σ(シグマ)計算を使った式の変形問題は、統計検定でも結構出ています。

 

公式を1個1個は理解しているのですが、果たしてどこをどのように変形していけばいいのか、分からなくなることが個人的には多いです。

 

もともと数学出来る人というのは、こういう変形ではあまり困らないかもしれません。ただ、そういった人も結局は問題を解くことを通じて、経験的にどうすればいいのかが分かっているのではないかな、と思います。

 

そこで、統計検定の過去問と現代統計数理学の基礎の問題を通して、その変形のよくある例とtipsを見てみます。Σの記号の特性とか公式を論じるつもりはないので、ご注意ください。

 

目次:

 

 

数理統計の問題でよくみられるΣの使われ方

まずどういう使われ方で現れるかと言えば、主には標本平均・分散を問う問題でしょう。

 

超基本的な話ですが、標本平均やその期待値と分散、不偏分散についてみてみます。これも問題としては序盤で出てくることがありますね。

 

母集団から得られた標本をX_1, X_2, ..., X_nとする。母平均を\mu、母分散を\sigma^2とします。

 

標本平均は

\frac{1}{n}\sum_{i=1}^nX_i=\bar X

であり、期待値をとると

E[\bar X]=\mu

 

標本平均の分散は

V(\bar X)=V(\frac{1}{n}\sum_{i=1}^nX_i)\\=\frac{1}{n^2}\sum_{i=1}^nV(X_i)\\=\frac{\sigma^2}{n}

 

標本分散は

\frac{1}{n}\sum_{i=1}^n(X_i-\bar X)^2

不偏分散は

\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2

となります。あとで証明を例題として書きます。

 

よくみられるのは

\sum_{i=1}^nX_i=n\bar Xのような感じの変換でしょうか。

不偏分散の導出の際にも使われています。

 

もう1個、形としてよくみるのは

\sum_{i=1}^n(X_i-\bar X)=0という使われ方ですね。

 

自分みたいに数学的理解度低めな人は、良く分からなくなったら、とりあえず和の記号をばらして考えるのも良いと思います。

 

ばらしてみるとよくわかりますが

\sum_{i=1}^n(X_i-\bar X)=(X_1-\bar X)+(X_2-\bar X)+...+(X_n-\bar X)\\=n\bar X -n\bar X=0

となります。

 

また、もう一つよく使われる変形として、期待値は加法定理が成立するので

E[\sum X_i]=\sum E[X_i]

というものもあります。

 

 

これらの特性は分かっていながら問題が解けない場合は、練習が必要です。統計検定の過去問を中心に実際解く流れを確認してみます。

 

例題①:不偏分散の導出

 \frac{1}{n-1}\sum(X_i-\bar X)^2が母分散の不偏推定量であることの証明です。この数式の期待値が母分散に一致することを示してみます。

 

ここでは、先ほどと同様の前提条件で母集団から得られた標本をX_1, X_2, ..., X_nとし、母平均を\mu、母分散を\sigma^2とします。

 

ちなみに、2015年の統計検定1級の過去問でも同様の問題があるので、覚えておいた方が良いと思います。

 

まず定数項をはじき出して、展開します。

E[\frac{1}{n-1}\sum(X_i-\bar X)^2]\\=\frac{1}{n-1}E[\sum(X_i-\bar X)^2]\\=\frac{1}{n-1}E[\sum(X_i^2-2X_i\bar X+\bar X^2)]

 

和の記号は期待値の外に出すこともできますが、前回の例題でもみたように\sum X_iという組み合わせは、変形することができるので相性が良いのです。先に和の記号の計算を入れます。

 

E[X_i^2]=\mu^2+\sigma^2であり

またE[\bar X^2]=\mu^2+\frac{\sigma^2}{n} を利用して

 

\frac{1}{n-1}E[\sum(X_i^2-2X_i\bar X+\bar X^2)]\\=\frac{1}{n-1}E[\sum(X_i^2)-2n\bar X^2+n\bar X^2]\\=\frac{1}{n-1}E[\sum(X_i^2)-n\bar X^2]\\=\frac{1}{n-1}(\sum E[X_i^2]-nE[\bar X^2])\\=\frac{1}{n-1}\{n(\mu^2+\sigma^2)-n(\mu^2+\frac{\sigma^2}{n})\}\\=\frac{1}{n-1}(n-1)\sigma^2\\=\sigma^2

 

これで証明ができました。

 

次の記事でも過去問との関連問題を中心にみていきます。

統計検定1級の出題範囲と過去の記事・お役立ちサイト・参考書をまとめてみた【統計検定1級対策】

試験範囲の見直しと自分の到達度合を確認するため、自分用に試験の範囲を簡単に図にして、まとめてみました。

 

各分野の関係性は、だいたいですが矢印を引いてみています。

また、分野ごとに解説した当ブログの記事のリンクも貼っておきます。

こうしてみてみると、⑤の分野はまだまだ理解が不十分ですね。

 

とはいえ、「不完全データ」や「ベイズ法」などよりはもっと前半の範囲のほうが出題頻度は高いとは思われます。

過去7年分の出題範囲は通覧しやすいようにこちらで簡単にまとめました。

2014-2021年の統計検定1級の出題範囲をまとめてみた(統計数理+医薬生物学)

 

2021年は初めて受験したので感想もこちらに書きました。

2021年の統計検定1級(統計数理・統計応用/医薬生物学)を受けてきた

 

あとは参考書としてよく用いられる『現代数理統計学の基礎』で解いた問題の解答解説まとめページを作りました。こちらからどうぞ。

『現代数理統計学の基礎』 解答・解説まとめ - 脳内ライブラリアン

 

(2021.11.28最終更新)

 

目次:

 統計検定1級・統計数理の範囲一覧 

f:id:medibook:20200809164313j:plain

 (『統計検定1級対応 統計学』より。ネットでもみれます。)

 

統計数理の各出題範囲の概要と当ブログでの過去記事

続いて、各分野ごとの統計検定における過去問の傾向と当ブログでの記事を一緒に載せます。

 

①確率と確率変数

統計検定1級の過去問を見る限り、前半の問題で出ることが多いです。いずれの小項目も出題頻度は非常に高いので、すぐに使えるように何度も復習しておく必要がありそうです。

モーメント母関数も過去の統計検定で出題は多く、②と合わせてそれぞれの確率分布ですぐに導出できたほうが良いと思われます。

 

マルコフの不等式~チェビシェフの不等式~大数の弱法則を復習

統計数理で使うマクローリン展開・テイラー展開を再確認してみた

Σ(和の記号)を使いこなせるようになろう① 

Σ(和の記号)を使いこなせるようになろう②

相関係数とその導出<共分散・ピアソン・スピアマン・ケンドール>

変数変換・平方変換・確率積分変換

確率変数の和と比(和の分布・畳み込み・比の分布の変数変換)

 

②種々の確率分布

各種分布の密度関数の式やモーメント母関数の問題は頻出です。公式参考書である『統計学 統計検定1級対応』に出てくるような分布は全て押さえておいたほうがよさそうです。『現代数理統計学の基礎』でも大体カバーされています。

 

正規分布カイ二乗分布、t分布、F分布は仮説検定にも大いに関連してきます。それぞれの関係性も良く学んでおくと、今後の項目で役に立ちます。

 

ガンマ関数とベータ関数の関係性を整理

標準正規分布とカイ2乗分布・ガンマ分布の関係について、整理と証明

標本平均と不偏分散、カイ2乗分布の関係性を整理

t分布とstudentのt検定、不偏分散との関連を整理する

ワイブル分布の期待値と分散

F分布とF検定の関連について整理する

超幾何分布でおさえておきたいポイントとフィッシャーの直接確率検定

代表的な確率分布を覚えやすいようにまとめてみる①-離散型-

代表的な確率分布を覚えやすいようにまとめてみる②-連続型・標本分布- 

③統計的推測(推定)

点推定のあたりの話はこの分野に入ります。ここも問題が作りやすいので、出やすいです。特に不偏推定量や最尤法なんかは良く出題されてますね。

 

順序統計量とその確率についてイメージしてみる

カルバックライブラー情報量〜赤池情報量規準(AIC)までの概略をわかりやすく①

カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略をわかりやすく②

カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略をわかりやすく③

カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略をわかりやすく④

スコア関数~フィッシャー情報量~クラメール・ラオの下限を復習

不偏分散の期待値と分散

④統計的推測(検定)

①~③ほどの頻度ではありませんが、統計検定の過去問では大問一つ丸ごと出たりもしています。「医薬生物学」などの応用分野では重要なテーマなので、いずれにしてもしっかり学んでおく必要があります。概念がイメージしづらいので参考書のみでなく、色んなサイトの図を参考にしながら勉強したほうが良い気がします。

 

仮説検定とp値の定義式

単純仮説/複合仮説の場合における有意水準αの仮説検定(例題付き)

第1種過誤・第2種過誤・検出力の関係をグラフで見る

尤度比検定、ワルド検定、スコア検定をできるだけ分かりやすくまとめる

一様最強力検定とネイマン-ピアソンの補題

1標本のt検定と対応のある2標本のt検定の式をできるだけわかりやすく見直してみる

不偏検定とその証明についてできるだけわかりやすく

⑤データ解析

ここだけ内容がバラバラすぎて勉強しにくいですね。今までの応用分野というイメージが強いです。回帰分析や分割表は今までの統計検定1級の過去問でも出てます。ベイズ法は今まで(少なくとも2014~2017年は)出ていないと思います。しかし大問一つ出た時に、さすがにすべては落とせないので、基本事項までは抑えておきたいところです。

 

行列が苦手すぎる人向けの重回帰分析における最小二乗法

周辺確率関数・条件付き確率関数・条件付き期待値・条件付き分散・全分散の公式

統計応用・医薬生物学

統計応用については医薬生物学を選びます。個人的に重要と思った事項をまとめておきます。

・生存時間解析

ハザード関数と生存関数の関係性を整理

カプラン・マイヤー推定値とネルソン・アーレン推定値

カプラン・マイヤー推定値の信頼区間・Greenwoodの公式

Cox比例ハザードモデルと尤度関数

RMST法の期待値と分散

・ノンパラメトリック

ノンパラメトリック法・符号検定

ノンパラメトリック法・ウィルコクソンの符号付き順位検定

 ・パラメトリック

95%信頼区間と2標本両側t検定

 ・ロジスティック回帰分析

ロジスティック回帰分析の数式とAIC・カルバックライブラー推定量

・試験デザイン

Simonの2段階デザインについてわかりやすく

 

 

お役立ちサイト紹介

参考書での独学のみだと理解するにはかなり難しいときがあるので、ネット上で分かりやすい記事を探して参考にしてます。個人的によく使ったサイトを紹介してみます。他にお勧めサイトあったら是非教えていただきたいです。

 

 

統計WEB - 統計学、調べる、学べる、BellCurve(ベルカーブ)

勉強始めた頃によく見ていたサイトです。統計学における基本事項から丁寧に学ぶことができます。図やグラフも使ってくれたり理解を助けてくれるのがありがたい点です。統計検定2級くらいまでの内容であれば、このサイトからある程度勉強できるようです。ただ、1級となると細かい数式が不足していたり足りない部分があるので、序盤で使うことをお勧めします。

 

高校数学の美しい物語 | 定期試験から数学オリンピックまで800記事

テーラー展開だとかガウス関数とか、行列のクラメールの公式とか、、、統計検定1級になってくると数学の基本事項で困ることが結構多いので、そういうときに記事がめちゃくちゃ役に立ちます。数式も比較的簡易で分かりやすいです。

 

アタリマエ!|当たり前だけどアタリマエじゃない事を、アタリマエにする

統計に関連した数学用語を分かりやすく解説していただいているサイトです。こちらも式が簡単で見やすく、初めて知る事項をまず確認するのに役立ちます。

 

有意に無意味な話 | 統計、データマイニング、最適化など世の中の95%以上の人は関心を持たなさそうな話を書いてます

個人のブログです。統計検定1級合格までの記録や出題傾向など。参考になります。

 

バナナでもわかる話

こちらも個人ブログです。なんと文系でありながら独学で合格している様子(!)。うらやましい限りです。統計検定1級過去問の解説と良く問われる内容の対策記事が書いてあります。あんまり過去問の解説もいいサイトがなかったのでくじけそうでしたが、このブログを読んで、過去問の勉強をすることで初めて1級を目指そうと思えました。

 

Hello! Statisticians! - あつまれ統計の森

最近もどんどん更新されている統計検定対策を考慮されたサイトです。数式もきっちり書いていただきながら、ポイントを抑えてちょっと深堀りした内容を書いてくださっているので、統計数理の検定対策にはうってつけです。

 

ICR臨床研究入門

臨床研究のe-learningサイトです。検定1級の統計数理というよりは、統計応用で役立ちます。専門家の講座が見切れないほど大量に載っておりユーザー登録で無料で使えます。医学関係+統計の勉強をしたい、という方にはものすごくお勧めします。

 

講義ビデオ - 京都大学OCW

京都大学が無料公開している臨床統計家のための講義ビデオも上のサイトと同様に医学者向けのものであるため、医師で統計を学びたい人には役立ちます。

 

https://img.atwikiimg.com/www43.atwiki.jp/actuary-seminar/attach/13/11/sufficientstatistic.pdf

講義の資料かと思いますが、十分統計量について非常にわかりやすく解説されており、これをみて十分統計量については勉強しました。

 

使ってみた参考書

色んなブログやサイトでお勧めされていたものを買いあさってます。使ってみた感想と難易度を合わせて書いていきます。

 

<統計数理>

まずは公式問題集と教本から。

『統計検定1級・準1級公式問題集』

統計学 統計検定1級対応』

問題集は2年ごとに内容が載っています。解説はそこまで充実しているとは言えませんが、、、(笑)。 教本はコンパクトに出題範囲がまとめられていますが、コンパクト過ぎて初学者には向きません。後から見直すには向いてます。統計検定の内容確認のためには買った方が良いかなというところです。

 

難易度★★☆ 

 

久保川達也著『現代数理統計学の基礎』

超オススメです。 対策系のブログなどでも紹介されており買いましたが、ベースは全てこの1冊でやっています。後半の重回帰分析などの話になってくるとちょっと記載も少ないので不十分ですが、出題範囲の①~④までは十分に使っていけます。練習問題も豊富にあり、解答も用意されているため、力もつくこと間違いなしです。

 

比較的式もきちんと説明してある方なようですが、それでも初学者にはかなり難しい部分が多いので理解できない部分は補助的に他の本を買いながら勉強するスタイルを推奨します。

 

難易度★★★

竹村彰通著『現代数理統計学

『現代数理統計学の基礎』で分からない部分の補助で使いましたが、分からないときにこれをみても結局分からないことも多く、せっかく買いましたがそこまで使ってません。説明の分かりやすさは同等ぐらいというところでしょうか。

 

難易度★★☆

 

小西貞則著『多変量解析入門ー線形から非線形へ』

重回帰分析の理解が『現代数理統計学の基礎』ではうまくできなかったのでこちらを購入しました。式も結構書いてあるうえ、説明文やグラフ、具体例も多いので、分かりやすいです。カバー範囲は広くロジスティック回帰分析から延々と広がっていくので、実はまださほど読んでいません。 統計検定の数理分野であれば、重回帰分析のところは役に立つので、まずそれだけのために買っても良い気はします。

 

難易度★★☆

 

石村貞夫ら著『入門はじめての統計的推定と最尤法』

 統計推定と最尤法の話は、普段医学分野で使う仮説検定ともまたちょっと違う分野なので、『現代数理統計学の基礎』を読んでも理解がしにくく、これを買いました。最尤法の意味を理解しつつ簡単な練習問題もあるので、やりやすいです。初学者でも使いやすいので、そこまでしっかりは読み込みませんでしたが、理解には役立ちます。

 

難易度★☆☆

 

栗原伸一著『入門統計学 -検定から多変量解析・実験計画法まで-』

確率分布の話から仮説検定、分散分析、判別分析まで幅広くカバーしています。特に分散分析のあたりは、初心者に分かりやすい本があまり見つからなかったので、役立ちました。数式も解説してくれていますが、文章が主体なので、説明が多くて分かりやすいです。数理統計としてガチになればなるほど、数式の割合が増えてくるので、文章が多いほうが初めて理解するには、ありがたいですね。

 

難易度★★☆

 

 竹内淳著『高校数学でわかる統計学-本格的に理解するために』

かなり初めのころに買いました。題名の通り、高校数学で十分理解できるようにかみ砕かれた数式で統計学を学びます。不偏推定量や確率分布あたりの話がやっぱり最初は理解しにくいので、まず概念をつかみつつ、式との関連を学ぶ意味で役立ちます。入門書として最初の方に読んでみることをお勧めします。

 

難易度★☆☆

 

高橋信ら著『マンガでわかる統計学』 

マンガでわかるシリーズの中でも高評価を受けているのがこちら。確率分布や相関係数などなど、出題範囲の ①~②における分野を学べます。これも買うなら最初のうちの導入としてオススメします。細かい式変形や証明はあまり出てこず、具体的な使用方法がメインです。

 

難易度★☆☆

 

高橋信ら著『マンガでわかる統計学 回帰分析編』

同じシリーズの回帰分析編です。これも回帰分析の導入にはうってつけ。表紙でみえるほど読者に媚びたマンガではありません(笑)

 

難易度★☆☆ 

 

三中信宏著『統計思考の世界~曼荼羅で読み解くデータ解析の基礎』

統計関連の読み物として。少し勉強してから統計の世界を俯瞰するのに役立ちます。式の少なめな読み物なので、「統計って何をどう考えているのか」ということを理解するのに良いです。ブートストラップ法の意味を理解するのにも分かりやすかったですし、赤池情報規準の証明の記事はこちらの本を参考にしました。検定に必須ではないですが、理解を深めるための1冊です。

 

難易度★★☆

 

久保拓弥著『データ解析のための統計モデリング入門』

一般線形モデルから一般化線形モデル(ロジスティック回帰など含む)にMCMC法とベイズ統計まで、データ解析する際のモデリングの方法をとても分かりやすく解説してくれている本です。Rのプログラムを例示しながら説明してくれていますが、別にRを使わなくても十分理解の助けになる一冊だと思います。簡単な具体例で理解しやすく、イメージとなる図や文章が充実しているので、モデリングについてある程度知識がついたけど、頭の整理ができていないときに読むには最適でした。
 
難易度★★☆

 

白砂堤津耶著『例題で学ぶ初歩からの統計学

平均値、中央値、確率分布といった初歩の内容から基本的なZ検定やt検定の方法で母平均・母比率の検定を行うところまでカバーされている一冊です。相関分析、回帰分析も少し触れられています。説明は比較的丁寧でわかりやすいので、他の参考書で難しくて理解しにくいところを問題を解きながらやるには良いと思います。ただ、問題数や内容は比較的少なめな印象です。

 

難易度★☆☆ 

 

小寺平治著『明解演習 数理統計』

1986年初版という比較的古い教科書でありながら、今でも勧められているのを見かける一冊です。基本的な確率の話から始まり、標本分布、点推定、仮説検定(母平均・母比率・母分散)あたりまでカバーされています。実は統計検定の2ヶ月ほど前になんだか焦って買ったのですが、とてもわかりやすく、またポイントとなる点がうまく指摘されていたので、もっと早く買えばよかったと後悔しました笑

数学ではお馴染みのチャート式と同じような感じで、最初に簡単な内容の説明の後、例題・練習問題と進んでいきます。内容の説明がコンパクトで確率分布も全部ざっと見渡せますし、例題の補足が結構よく統計数理で問われるようなところを説明してくれているなど、統計検定の対策として十分使えそうです。後から見直すのに使ったので、最初にみたら印象が違うかもしれませんが、最初の1−2冊目として使っていくことをお勧めしたいです。

 

難易度★☆☆ 

 

線形代数

D.A.ハーヴィル著『統計のための行列代数 上』 

タイトルとブログなどでのお勧めをみて買いましたが、内容が重たいです。 「統計のための」とありますが、基本的に統計学の話は出てこず、”統計に関連した”行列の式や性質などがぎっしり書いてあります。ただ、統計検定1級で出てくるレベルの行列であれば、他の本でも勉強しておけば対応できるのではないかという気がしないでもないです。行列の微分とかは他の本でなかなかみられないので、そのあたりをきちんと突き詰めるならアリかなという気はします。線形代数関連で最初に買う本としてはお勧めしません。

 

難易度★★★

D.A.ハーヴィル著『統計のための行列代数 下』 

多変量を扱うときに大事な固有値固有ベクトルの話は下巻の終わりで出てきます。上巻と同様にきっちりとした定義と証明をガツガツやっていく一冊です。

 

難易度★★★

 

石井俊全著『まずはこの一冊から 意味がわかる線形代数

線形代数関連では個人的に超おすすめの一冊です。「線形空間」「線形写像」「線形変換」といった言葉や概念が数式の定義だけをみていても、何回読んでもさっぱり掴めなかったのですが、この本を読んで疑問が氷解しました。統計検定で出てくる2変数の変換におけるヤコビアンが特に意味が理解しにくく苦手でしたが、この本でその概念がようやくわかってきたように思います。また固有値固有ベクトル、対角化あたりまでカバーされており、タイトル通り“この一冊から”始めるのが最適です。

 

難易度★☆☆

 

薩摩順吉ら著『キーポイント線形代数

タイトルのとおり、キーポイントのみをまとめた比較的薄めの1冊です。クラメールの公式とか逆行列行列式などその辺の基本事項を学ぶにはこれで十分です。高校・大学1年生時代にやったきりなので、もう忘れてますからね・・・。

 

難易度★★☆

 

竹内淳著『高校数学でわかる線形代数

こちらも比較的やさしい線形代数の本です。対角化、固有値あたりまでの基本的な事項が図を用いながら説明されています。基本の確認用ですね。

 

難易度★☆☆

 

ベイズ統計>

小島寛之著『完全独習 ベイズ統計学入門』

ベイズ統計学について0から学べる一冊。この本が特に良かったのはよくあるベイズ統計の初歩(検査の事前確率・事後確率といった陽性陰性2値の話)から連続的である確率分布に対してのベイズ法の適用まで書いてくれているところです。事前分布がベイズの法則を使って事後分布にどう変化していくのか、頑張って図解で説明してくれており、ようやく理解が進みました。他のもっと初歩的なベイズ統計の本ではそこまで説明してくれていなかったので、ありがたい限りでした。

 

難易度★☆☆

 

<統計応用・医薬生物学>

David Collett著『医薬統計のための生存時間データ解析』

カプランマイヤー推定値、カプランマイヤー曲線からログランク検定、Cox比例ハザード分析といったメジャーな生存時間解析の方法をデータセットや数式の説明つきでしっかり解説してくれている一冊です。翻訳書ですが、訳が読みづらいと思ったことはあまりありませんでした。過去に統計検定で出ている競合リスクやRMST法などは細かく載っていませんが基本を押さえるには十分だと思ってます。受験にあたっては前半部分しか読んでおりません。

 

難易度★★☆

 

村上秀俊著『ノンパラメトリック法(統計解析スタンダード)』

1標本のノンパラ法の検定である符号検定、ウィルコクソンの符号付き順位検定または2標本のウィルコクソン順位和検定、マンホイットニーのU検定の勉強に使いました。本当にそこしか読んでないのですが、説明・証明や例題はわかりやすいです。それ以外にも多標本検定や漸近相対効率の話なども載っていますがそこまでは読んでいません。説明はわかりやすいものの内容は高度なので、基本的な統計数理はよく抑えた上で読む必要がありそうです。

 

難易度★★★

 

丹後俊郎著『メタ・アナリシス入門』

メタ解析の方法論について数理的な背景から説明してくれています。『統計学のセンス』と同じ著者ですね。これも基本的な統計数理がわかっていないと理解が難しく、(検定が終わってから書いていますが)未だに数理的な理解はまだできていません。2021年の統計応用ではメタ解析の問題もあったので前半部分で解説されるような基本的な流れは知っておいても良いのかもしれません。

 

難易度★★★

 

永田靖著『サンプルサイズの決め方』

母平均・母分散の検定や1元配置分析におけるサンプルサイズ設計を数式できっちり説明してくれている一冊です。基本的な仮説検定・検出力の数理的な話は抑えた上で読む必要がありあます。式や説明はしっかりしてくれているので、内容を深めるにはもってこいだと思います。統計応用では過去問を見ても非心t分布などの分布はあまり問われていなかったので、おそらくやるにしても前半のごく一部で良いとは思われます。
 

難易度★★★

運動不足解消のため懸垂バーを買ってみた話

みなさんは普段家で運動されてますでしょうか。

 

こうしたブログを書いていると伝わらないのですが、僕は身長170cm代で体重50kg代と見事なやせ型なんですね。

 

今まで色々筋トレや運動しようとしてきたのですが、それでも全然改善がみられておりません。

 

子どもも二人いるのでジムに通ったり、運動するような時間もとれず。ダンベルはあるんですが、2歳の長男がすぐ触ろうとするので危ない…。と言って子どもの目に触れないところにしまうと、出すのが大変でやらなくなるというジレンマに襲われます。

 

運動や筋トレは脳にも良いっていろんな本が言ってたのに(『一流の頭脳』『脳を鍛えるには運動しかない!』とか)なんとかならんのか、と思ってました。そこで、最近「懸垂バー」を買いました。

 

これは自宅で懸垂できるアイテムなんですが、意外と今のところは使い勝手が良かったのですが、設置の際に家の一部が壊れるという悲しい出来事もありまして…注意点や他のタイプも含めて紹介します。

 

目次:

 

 

懸垂バー(突っ張り棒型)とは

買ったやつはこれです。突っ張り棒型は名前の通り、ドア枠の間に突っ張らせて設置します。こんなんで体重耐えられるの…?と思われますが、意外としっかり設置すればぶら下がってもびくともしません。

 

メリットは、安いことと場所をとらないこと。値段は2000円〜3000円台が多く、他のタイプよりは明らかに安いです。また場所をとらず、ドアではなく引き戸であれば閉めることもできます。

 

うちでは引き戸の前にこんな感じでつけています。

f:id:medibook:20200819071556j:image

 

デメリットは、グリップが狭くなりがちなところと安全性でしょうか。幅がどうしてもドア枠より内側になるのでワイドグリップで筋肉を鍛えようと思うとうまくいきません。

 

また、他の商品のレビューを見ていると「懸垂中に落ちた」報告はどうしてもあるので安全性は他のタイプより劣ります。

 

ちなみに使い方の問題があると思いますが、うちでは最初廊下の間でつけてみたところ、「ミシッ!!」という音が。

 

奥さんが「壁裂けてるよ。」というので見てみると壁が若干凹んで壁紙が裂けてました…!!持ち家なのに…!

 

壁は場所によっては脆いので、突っ張り力によって容易に破壊されます。頑丈なとこじゃないと、つけちゃいかんですね。ドア枠なら大丈夫だとは思いますが、心配な人は他のタイプが良いかもしれません。うちは後述のドア枠引っ掛け型が構造上使えなかったのでこれにしてます。

 

*2020.11.15追記

3ヶ月近く経ちましたが今も健在で使えています。体重も徐々に増えてまいりました。自宅で懸垂は良いですね。

*2021.08.09追記

書いた頃からほぼ1年が経過しようとしていますが、結構検索で来られる人が多いので追記。懸垂バー健在です。自分が懸垂する頻度は残念ながら減りました、、、(汗

 

ドア枠引っ掛け型

ドア枠に数カ所引っ掛けて使うタイプです。突っ張り型よりは安全性が見込まれます。

 

メリットは値段がそこそこで、場所を取らないこと、グリップが広いことです。4000円〜10000円あたりが相場です。場所はとりませんが、バーよりは存在感があります。ワイドグリップなども可能で、より質の高い懸垂ができます。

 

デメリットは構造上の制限があることと、やはり安全性でしょう。ドア枠の厚みが足らず我が家ではつけられませんでした。また付けているとドアが閉まらなくなるので、冷房を使ってる部屋などでは困ります。

 

こちらでもレビューで落ちた報告はあるので、安全性は後述のスタンドアローン型の方が上です。

 

 スタンドアローン

組み立てて使うタイプです。友人の家にありますが結構でかいです。洗濯物たくさん干せそうです。

 

メリットはレーニング器具としての汎用性と安全性、家の構造を選ばないことだと思います。上の商品も真ん中部分にバーがついてますが、それを使って腹筋を鍛えたりもできますし、懸垂もワイドグリップは当然できます。また引っ掛けるわけではないので上述のタイプのような外れて落ちる心配はありません。ドア枠のサイズに制限されることもないので、家の構造によらず使えます。

 

デメリットは値段と場所をとることですね。相場は9000〜15000円程度で、最も高く、見た目通り場所もとります。

 

まとめ

個人的な意見ですが、場所があるなら「スタンドアローン型」、ないなら「突っ張り棒型」か「ドア枠引っ掛け型」でしょう。

 

さらに構造的に可能なら「ドア枠引っ掛け型」不可なら、「突っ張り棒型」かなあと思います。

 

うちは手狭かつ構造がダメだったので「突っ張り棒型」にしてますが、手軽に懸垂ができるので今のところは重宝しております。

 

外出しにくい時期はまだまだ1年以上は続くと思いますので、ぜひお家での筋トレに使ってみてください。