本書に必要な環境構築を行います。
Anacondaは機械学習を行うための準備を楽にするためのパッケージです。また、後ほど説明するRDKitを簡単にインストールできます。
- なぜAnacondaを利用するのか?
-
プログラミング言語Pythonは比較的多くの標準ライブラリが用意されていますが、ケモインフォマティクス用のライブラリは自分でインストールする必要があります。この作業は慣れれば大した問題ではないですが、初学者にとっては面倒くさいでしょう。この手間を軽減するのが理由です。
- Pythonには大きく2.x系のバージョンと3.x系のバージョンとがありますが?
-
2.x系のサポートは2020年1月1日をもって終了するため、新しく学ぶ方は2.x系を使う必要はありません。
では早速Anacondaをインストールしましょう。公式サイトにアクセスして、ご自身の環境にあったPython3系インストーラーをダウンロードします。OSがLinux/MacであればGUI/CUIのインストーラーを選べるのでPython3.7の64-Bit Command Line Installerをダウンロードします。
$ bash ~/Downloads/Anaconda3-2019.03-MacOSX-x86_64.sh #インストーラー名は適宜変更してください
Enterを押します
Welcome to Anaconda3 2018.12
In order to continue the installation process, please review the license
agreement.
Please, press ENTER to continue
>>>
Enterを押し続けてYes,Noでyesを入力します
Do you accept the license terms? [yes|no]
[no] >>>
インストール先を聞かれるのですがデフォルトで問題ないのでリターンを押します
Anaconda3 will now be installed into this location:
/Users/kzfm/anaconda3
- Press ENTER to confirm the location
- Press CTRL-C to abort the installation
- Or specify a different location below
インストール後にVSCodeをさらにインストールするかを聞かれるのでNoを押します。
Thank you for installing Anaconda3!
===========================================================================
Anaconda is partnered with Microsoft! Microsoft VSCode is a streamlined
code editor with support for development operations like debugging, task
running and version control.
To install Visual Studio Code, you will need:
- Internet connectivity
Visual Studio Code License: https://code.visualstudio.com/license
Do you wish to proceed with the installation of Microsoft VSCode? [yes|no]
>>> Please answer 'yes' or 'no':
>>>
Anacondaのインストールが完了すると、コマンドプロンプトまたはターミナルから’conda’コマンドが使えるようなにります。
コマンドの-nの後ろは"py4chemoinformatics"としていますが皆さんの好きな名前でも構いません。 仮想環境構築後、本章以降で利用するパッケージをインストールします。
$ conda create -n py4chemoinformatics
$ source activate py4chemoinformatics # Mac/Linux
$ activate py4chemoinformatics # Windows
# install packages
$ conda install -c conda-forge rdkit
$ conda install -c conda-forge seaborn
$ conda install -c conda-forge ggplot
$ conda install -c conda-forge git
もし仮想環境でjupyter notebookが動かない場合はもう一度インストールする必要があります。
$ conda install notebook ipykernel
RDKitはケモインフォマティクスの分野で最近よく用いられるツールキットの一つです。オープンソースソフトウェア(OSS)と呼ばれるものの一つで、無償で利用することが可能です。詳しくははじめにを参照してください。
統計データの視覚化のためのパッケージの一つです。
グラフ描画パッケージの一つで一貫性のある文法で合理的に描けることが特徴です。もともとはRという統計解析言語のために開発されましたが、yhatという会社によりPythonに移植されました。
バージョン管理システムです。本書ではGitについては説明しませんのでもしGitについて全然知らないという方はサルでもわかるGit入門でも読みましょう。
「はじめに」でも説明しましたが、以下のコマンドでpdfを含む全てのデータがダウンロードされますので必要に応じてダウンロードしてください。
$ git clone https://github.com/Mishima-syk/py4chemoinformatics.git
- なぜ仮想環境を作るのでしょうか
-
いくつかのシステムでは様々な機能を提供するために内部的にPythonを利用しているため、特定のパッケージのためにPythonのバージョンを変更してしまうと問題が起こることがあります。仮想環境はこのような問題を解決します。もし、パッケージが異なるライブラリのバージョンを要求しても仮想的なPython環境を準備して試行錯誤できます。不要になれば仮想環境を簡単に削除でき、もとの環境にトラブルを持ちこむこともありません。このように、ひとつのシステム内にそれぞれ個別の開発環境を作成できるようにすることで開発時によく起こるライブラリの依存問題やPythonのバージョンの違いに悩まされることがなくなります。
本書では本書用に一つだけ仮想環境を用意しますが、実際はいくつもの仮想環境をつくって開発することが多いです。そのため、よく利用するcondaのサブコマンドを挙げておきます。
$ conda install <package name> # install package
$ conda create -n 仮想環境の名前 python=バージョン # 仮想環境の作成。
$ conda info -e # 作った仮想環境一覧の表示
$ conda remove -n 仮想環境の名前 # 仮想環境の削除
$ conda activate 仮想環境の名前 # 仮想環境を使う(mac/linux)
$ activate 仮想環境の名前 # 仮想環境を使う(Windows)
$ conda deactivate # 仮想環境から出る(source deactivateは廃止されました)
$ conda list # 今使っている仮想環境にインストールされているライブラリの一覧を表示