Data-Mining Workshop¶

開啟終端機
- Mac：使用「Spotlight 搜尋」，搜尋「Terminal」，開啟
- Windows：開啟「開始功能表」，搜尋「cmd」，以「系統管理員身份執行」開啟
jieba
- pip install jieba
wordcloud
- Mac/Unix：pip install wordcloud
- Windows：
  - 下載符合對應系統版本(win32/amd64)的 wordcloud‑1.2.1‑cp35‑cp35m
  - 使用cd指令至下載位置
  - 執行 python -m pip install xxxx.whl

pydotplus
- pip install pydotplus
- Windows：
  - 安裝Graphviz：下載msi
  - 控制台>系統及安全性>系統>進階>環境變數>系統變數>Path
  - 加上你的Graphviz安裝路徑，ex:
```
;C:\Program Files (x86)\Graphviz2.38\bin\;
```
  - 重新開機

sklearn 版本說明¶

scikit-learn版本需為0.18以上

import sklearn
sklearn.__version__

在終端機執行conda upgrade scikit-learn

由於0.18後更新了許多modules，名稱也有更動，
可參考官方文件改正：

from sklearn.cross_validation import train_test_split
from sklearn.cross_validation import ShuffleSplit
from sklearn.grid_search import GridSearchCV

但要注意「cross_validation」在0.20的版本後會刪除！

若遇到程式有使用到open來開檔，請務必加上「,encoding='utf8'」，
避免遇到cp950的UnicodeDecodeError。

open('data.txt',encoding='utf8')

Cell > Run All
需要先將每一個程式區塊(Cell)跑過一次，
不然直接執行較下方的Cell，可能用到在上方宣告的變數，
而此時上方的Cell還沒執行過，也就是還沒宣告，就會出錯！

左方 In[] 裡的 * 代表程式還在執行(執行成功會顯示數字)，
如果有時候覺得執行太久(通常不會超過1min)，
可用「停止」、「重啟」之後，再重新執行