Sample Code
Data-Set:需註冊Kaggle帳號下載
Sample Code & Data-Set
Data Source
Sample Code
Data-Set:需註冊Kaggle帳號下載
這次workshop下午的實作部分,
講師提供了不同的data-set與sample code,
其中會用到以下的Packages:
Anaconda 包含了以上大部分的 packages,不但安裝簡單,且提供jupyter的環境,
編寫code與執行結果都會顯示在同一畫面,對於分析資料來說是非常方便的!
(https://tw.pyladies.com/~marsw/jupyter_install.slides.html)
pip install jieba
pip install wordcloud
cd
指令至下載位置python -m pip install xxxx.whl
pip install pydotplus
;C:\Program Files (x86)\Graphviz2.38\bin\;
scikit-learn版本需為0.18以上
import sklearn
sklearn.__version__
在終端機執行conda upgrade scikit-learn
由於0.18後更新了許多modules,名稱也有更動,
可參考官方文件改正:
from sklearn.cross_validation import train_test_split
from sklearn.cross_validation import ShuffleSplit
from sklearn.grid_search import GridSearchCV
但要注意「cross_validation」在0.20的版本後會刪除!
若遇到程式有使用到open
來開檔,請務必加上「,encoding='utf8'
」,
避免遇到cp950的UnicodeDecodeError。
open('data.txt',encoding='utf8')
Cell > Run All
需要先將每一個程式區塊(Cell)跑過一次,
不然直接執行較下方的Cell,可能用到在上方宣告的變數,
而此時上方的Cell還沒執行過,也就是還沒宣告,就會出錯!
左方 In[]
裡的 *
代表程式還在執行(執行成功會顯示數字),
如果有時候覺得執行太久(通常不會超過1min),
可用「停止」、「重啟」之後,再重新執行