2017年8月26日 星期六

Python ê - Python2/Python3 徙栽

前一篇咱大概照原作者 ê 理路去寫。毋過,有一咧問題: 我是較偏向愛用 Python3 來實作。因為這是未來 ê 趨勢
雖然目前是過渡期,大部份 ê 物件閣是佇 Python2,咱嘛愛了解 Python2。咱就會使借著 Python2 ê 程式碼 (Code),徙栽 (英文:Porting,華語: 移植,嘛會用直接用台語音念用英文: Phóo-thìng) 到 Python3,來了解 Python2 和 Python3 ê 無仝。

咱若先提彼篇 ê 戲文來走,利用 Python3 來演,你會看著錯誤:
$ python3 web-scrape.py 
Traceback (most recent call last):
  File "web-scrape.py", line 2, in 
    import urllib2
ImportError: No module named 'urllib2'

python3,就是強迫使用 python3 解譯器,就算 web-scrapte.py 內的頭一是寫 #!/usr/bin/python來指定用 python2,伊嘛袂伊。
這咧錯誤,是揣無 'urllib2' 這个 module。若會按呢? 這時,你會當去 Google "urllib2 python3 python2" 一咧,你就會了解原來 python2 ê 'urllib2' 佇 python3 改名,毋若改名,閣成做 'urllib' ê 一部分,就是 'urllib.request'。

了解原理了後。--落來,咱愛思考按怎改程式較媠氣。"媠氣" ê 定義是在人ê,有人感覺愈緊會振動愈好,有人想欲寫一咧程式 Python2/Python3 攏會使行,有人感覺改愈少愈好。有人考慮著後擺予人好維持,這看你家己 ê 美感和追求ê目的是啥乜。
上簡單 ê 做法,是用文字編輯器攏有 ê 取代(Replace) 功能,共所有  urllib2 都換做 urllib.request

我是用改愈少愈好,利用 import Module ê 智識: 若是我會使共 import 入來个 urllib.request 號名做 urllib2,按呢後壁毋是攏免改--阿?
import urllib.request as urllib2

按呢改一逝就好。按呢做,咱欲做 Python2/Python3 攏會用(i̋ng)行 ê 程式嘛真簡單: 按怎咱的程式知影是 Python2 抑是 Python3 來搬演我咧? 咱 google 一咧 "python3 python2 version detect",會知影利用 sys.version_info(),所以咱按呢改:
import sys
if sys.version_info >= (3, 0):
    import urllib.request as urllib2
else:
    import urllib2

現成ê例,我佇遮: web-scrape-all.py。你用 python web-scrape-all.py 抑是 python3 web-scrape-all.py 齊會用--得。




2017年8月23日 星期三

Python ê 基礎 -- Module

Module 是啥乜?


Module (台羅: má-tsìo, 華語: 模組),就是囥寫便便 ê 程式。英文有時講是 Libraries,意思是圖書館。華語有時嘛講函式庫(hâm-sit-khòo) 。Module 是共一寡原料組做半成品,半成品就是先做到一个程度, 你捎幾个 Module 鬥鬥咧真緊就會使出貨。Python 的 Module,就是予你捎來,鬥鬥咧就會當寫出予你寫出予人呵咾甲會觸舌的程式。

咱踮佇 用 Python 掠股票的價數 中方(tiőng)使用著 urllib2 和  BeautifulSoup 兩的 Module,就算咱毋知真深 ê HTML 和網站智識,咱干焦了解按怎用這兩的 Module,毋免寫真複雜 ê HTML 處理程式,嘛免寫複雜的程式,來和網站交談,就會使達成咱的目的。

使用系統本底就有 ê Module


使用程式庫,愛先共伊掠--入來,這就愛用 import:
>>> import math
>>> math.cos(1)
0.5403023058681398

math 會當換做其他 ê module。所以,普通咱寫 python 程式,是先去網路頂仔揣看有啥物好的 module,共伊的名記起來,import 入來。紲落來著會當開始使用:

這是三角函數 ê cosine。你若是欲知影這咧函數有啥物會當用也是按怎用? 當然,你問萬能 ê Google,抑是踮咧網路,論壇揣資料,是上基本--ê。佇 Python Shell裡,你會使用 help() 來問:

>>> help(math)

伊就會共伊所有的內才反予你看。嘛會使用 help(math.cos) 干焦看 cos 佇創啥物。

佇頂仔的例tiőng,欲使用 math ê 物,你總是愛先寫 math.XXXX(),有時你捷捷用,逐擺攏愛寫 math 這咧名足麻煩。有時 Module 名lò-lò長,閣較囉嗦。這咧時陣,咱會當干焦 import 一部分:
>>> from math import cos
>>> cos(1)
0.5403023058681398

按呢,cos 就干焦是你家己寫好的函式。你若是毋但欲挃 cos 一咧,所有 math module ê 函式攏欲挃,會使一擺攏掠--入來:
>>> from math import *
>>> cos(1)
0.5403023058681398
>>> sin(1)
0.8414709848078965


咱嘛會使共伊換名,用咱佮意的方式叫伊:
>>> import math as madi
>>> madi.cos(1)
0.5403023058681398


搜揣 Module ê 路草

Python 本身就有佮真濟 Module.  親像頂仔 ê math module, 就是你佇安裝 Python 時順紲佮予你--ê. 你嘛會使親像 用 Python 掠股票的價數, 另外用 pip 抑是其他 ê 工具來安裝你欲挃 ê Module. 這寡 Module 攏是囥佇檔案系統內底, 等到有人使用 import ê 時, Python 就會去揣看有你欲挃个 Module 無?

欲去佗位揣咧? 伊是 sys.path 這个變數指定--ê, 你會使共伊印出來:
>>> import sys
>>> print(sys.path)
['', '/usr/lib/python36.zip', '/usr/lib/python3.6', '/usr/lib/python3.6/lib-dynload', '/home/black/.local/lib/python3.6/site-packages', '/usr/local/lib/python3.6/dist-packages', '/usr/lib/python3/dist-packages', '/usr/lib/python3.6/dist-packages']

添新 ê 搜揣路線

有時, 你若是寫一寡家己 ê Module, 會想欲共伊囥入去搜揣 ê 路草中方, 咱會使kā伊添入去 sys.path 內底:
sys.path.append('/my/new/path')

你共 Module 囥佇 /my/new/path, 伊就會去遐揣你 ê module


2017年8月18日 星期五

Python ê 例 - 用 Python 掠股票的價數

頭前咱介紹 Python 上基本的用法佮概念,久--來,嘛真無聊。咱佇遮來介紹一个例,會當去網路去(sa)資料轉--來。這咧程式真簡單,頭到尾,無算空佮註解,差不多十

這篇是參考原文:How to scrape websites with Python and BeautifulSoup,另外佇 TechOrange 有華語的翻譯:附範例與完整程式碼!手把手帶著你用 Python 做出爬蟲、抓取網頁資料
毋過,伊毋是頂面 ê 例 Copy and Paste 就好,嘛是有一寡鋩鋩角角愛修整。而且原例是 Python 2 的程式,我會閣揣出方法來予伊踮 Python3 會使振動。

當然,你若會曉一寡網頁 ê 設計智識閣好。毋過,就算毋捌嘛免煩惱。因為,這款的寫法是一種 SOP ê 寫法。咱講个 SOP (台羅: e-su-oo-phi, 英文: Standard Operation Procedure),就是講只要你會電腦環境和我相仝,抑是差不多,干焦照文章內講个照步來共命令拍入去,你的程式就會振動。

啥乜是網 (Web scraping)?

網(Web scraping) 是一種踮網路頂,共你欲的資訊搜揣出來的技術。

你會問,咱用 Chrome, IE, Firebox, Safari 去看就好,那有啥乜特別咧? 咱佇遮講个揣資料,毋是一筆兩筆,是大量的資料。比如講,我干焦想欲知影一百間公司的股票這馬懸? 平均偌濟? 你當然會當一間一間去拍開,用鳥鼠一直點點點,揣著公司股票,伊記--落來。仝款的動作做一百改。每擺你拍開一間公司的網頁,干焦一咧數字niâ-niâ。。不而過,你會看著圖啦,公司的 li-li-khok-khok 的資料,這攏毋是你想欲--ê。這時,咱愛咱無愛 ê 物件鑢予清氣,咱欲愛ê物就好。

鑢網就是佇網頁中,你欲的物件--出來的技術。鑢網是叫電腦共你鬥做,毋是你家己去鑢。

開始

咱是想欲使用 Python 語言來鑢,閣加上伊的一咧程式庫 BeautifulSoup (台羅發音: piú-tho-hu-sup)。
  • 若是 Mac/Linux 使用人,本底就有 Python, 先檢查伊的版本。開一咧 terminal,拍 python --version ,你會當看著伊的版本是 2.7
  • 若是 Windows,參考Python 官網來安裝。
  • 因為咱目標是佇 Python3 頂仔運行,嘛愛檢查有 Python3 無? 佇我的 Linux (Ubuntu 17.04),是 python3。

閣落--來,咱安裝 pip,佇 terminal,
easy_install pip
easy_install3 pip
pip install BeautifulSoup4

注意: 這愛佇 superuser/root 的身份運行,有一寡系統直接佇頂仔三的命令前sudo 就有法度運行。

基礎

佇開始進前,咱先了解一寡 HTML (台羅:e-tshi-thi-emu-elo) ê 基礎和鑢網 ê 規則。


HTML 標籤(piau-tshiam)

你若已經知影 HTML tag, 會共這段--過。

簡單講,你佇遊覽器(英文: Browser,像 Google Chrome, Firefox, IE, Safari 等等) 看著 ê 網頁,毋是遊覽器實際看著 ê 網頁遊覽器看著 ê 網頁。你會使想做是電影抑是電視ê 劇本: 觀眾看 ê 戲,是先有劇本予導演拍戲,伊會寫一寡台詞無 ê 物件,親像表情,場所來予演員搬戲。HTML 就是劇本,Tag (標籤) 就是共遊覽器講這咧所在个字是用啥物字體,大細,色緻,遊覽器照咧做出ê,就是你看著--ê。

<!DOCTYPE html>
<html>  
    <head>
    </head>
    <body>
        <h1> First Scraping </h1>
        <p> Hello World </p>
    <body>
</html>


頂仔這段,就是上基礎 ê HTML 網頁。

1. <!DOCTYPE html>: HTML 定著愛用這款 ê 型態宣告 (Type Declaration).
2. 規个 HTML ê 文件,是予 <html> 和 </html>包--咧。
3. HTML 文件 ê meta (台羅: mé-thà) 佮戲文( script) 宣告是佇 <head></head>
4. HTML 文件看會著ê部分是佇 <body>佮 </body>籤中方。
5. 標題是佇uì <h1> 到<h1>標籤。
6. 段落是用 <p>標籤.

閣有一寡有路用的標籤,像 <a> 來表示超連結(hyperlinks),<table> 來標示表格<tr> 來表示橫逝(Row),<td> 來表示直逝(Column)。

HTML 標籤不時有用著id(ái-ti) 抑class(ku-lé-sū)ê 性質(attributes)。id 性質指定一咧唯一 ê (Value),這个踮規个 HTML 文件裡愛是獨一無二。class 性質用來共一寡定定用的 HTML 標籤組合,合起來準做一咧 class,後擺若使用這咧 class,就是仝款 ê 效果。咱會當利用 id 和 class 來搜揣欲挃 ê 乜件。

若欲了解較濟 HTML 標籤,id,和 class,會用(ē-i̋ng) 參考 W3Schools Tutorials

鑢網愛守 ê 規則

1 欲鑢進前,先檢查網站 ê 使用條文和條件 (Terms and Conditions)。特別愛注意和使用資料有關係ê法律條文。普通是袂用佇商業使用。
2 你 ê 程式莫霸霸佇咧資料,按呢有可能共網站害--去。予你 ê 程式較有禮貌咧,親像咱人類上網彼囉款,差不多一秒鐘一咧網頁較好。
3 網頁 ê 佈置 (Layout) 定定變,有時你嘛愛用遊覽器去彼咧網站確認,修改你 ê code。


分析網頁

咱用 Bloomberg Quote 中(tiőng) ê 一頁來做例。
有一咧做股票ê人,想欲 uì 這咧網頁來出股票名抑是代碼(Index name),佮伊的價數。首先咱開一咧遊覽器(我ê是 Google Chrome),先共鳥鼠徙去股價頂仔,揤鳥鼠 ê 正鈕,揀 "檢查" :


咱就會當看著全頁變按呢:



咱共正手爿,頂仔 ê 所在共伊放大來看:


咱會當看著股價是囥佇幾落棧 ê HTML 標籤tiőng,就是 <div class="basic-quote"> → <div class="price-container up"> → <div class="price">

利用 HTML tag,這馬咱了解價數是囥佇這咧網頁 ê 佗位。
仝款 ê 道理,咱會當揣其他 ê 物件,親像 S&P 500 Index,恁會使家己試看mài。

行入 Code 裡

咱知影欲挃 ê 資料佇佗,會用咧開始寫咱的鑢網程式。這馬拍開你 ê 編輯器 (Editor)。

咱先用 import 來引入欲使用著 ê 程式庫:
# import libraries
import urllib2
from bs4 import BeautifulSoup


紲--落來,宣告一咧變數,囥網頁 ê URL(台羅: iú-a-e-lo),也就是咱連鞭欲去掠資料 ê 網頁:
# specify the url
quote_page = 'http://www.bloomberg.com/quote/SPX:IND'

利用 urllib2,去共彼咧網頁捎--轉來:
# query the website and return the html to the variable ‘page’
page = urllib2.urlopen(quote_page)

落尾,用 BeautifulSoup 來伊滾滾ê,做好啉 ê 湯,就是網頁成做 BeautifulSoup ê 樣(format):
# parse the html using beautiful soap and store in variable `soup`
soup = BeautifulSoup(page, ‘html.parser’)

這馬,湯/soup內底就是規个 HTML ê 料,咱欲開始去股價--出來。
閣會記得彼 HTML 標籤有幾落--無? BeautifulSoup 有一咧 find() 來kā咱鬥相共。佇咱這咧例--,HTML class name 是唯一ê,先kā伊揣--出來:
# Take out the 
of name and get its value name_box = soup.find(‘h1’, attrs={‘class’: ‘name’})

著這咧標籤,咱會使用伊的 text 來提伊的資料:
name = name_box.text.strip() # strip() is used to remove starting and trailing
print name

和頂仔相siâng,股價嘛會著:
# get the index price
price_box = soup.find(‘div’, attrs={‘class’:’price’})
price = price_box.text
print price


這馬你會使共頂--仔殕色裡的 code, 都入去編輯器內,予好,嘛會使 uì 附件連結,是我試過會振動 ê 戲文。你--落來(Download)佇電腦,用 python web-scrape.py 來運行。

web-scrape.py

佇下一篇,我欲這篇小khua改一咧,先欲共伊uì Python 2 改做 Python3




2017年8月10日 星期四

Ubuntu 17.04 安裝心得

今仔日有機會 uì 頭安裝 Ubuntu 17.04,伊的外號是 Zesty Zapus, 意思是 興奮(hing-hùn) ê 林跳鼠(lîm-thiàu-tshú)。我是先去 ubuntu 的本站伊的 iso 檔轉--來,燒做 DVD,才閣用 DVD 來安裝。

DVD 安裝無問題。毋過,一開機就問題liâu-liâu。

ifconfig 命令無--去阿

ifconfig 是基本ê命令。伊是用來看網路卡 ê 狀況。毋過無--去阿。原來,新的 Debian/Ubuntu 版本,無建議閣用 ifconfig,改用 ip 這咧命令:

root@labrix1:/home/broadcom# ip address
1: lo: mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
valid_lft forever preferred_lft forever
inet 127.0.0.1/8 scope host lo inet6 ::1/128 scope host
2: enp3s0: mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
valid_lft forever preferred_lft forever
link/ether fc:aa:14:a0:14:1b brd ff:ff:ff:ff:ff:ff
inet 192.168.101.110/24 brd 192.168.101.255 scope global enp3s0
valid_lft forever preferred_lft forever
valid_lft forever preferred_lft forever
inet6 fe80::feaa:14ff:fea0:141b/64 scope link
3: wlp2s0: mtu 1500 qdisc noop state DOWN group default qlen 1000
link/ether 52:3c:06:76:c4:c6 brd ff:ff:ff:ff:ff:ff

ip address 會使簡單寫做: ip a 
當然,你若是數念 ifconfig,無 ifconfig 袂用得,嘛是會 i̋ng 共伊用 apt install net-tools --轉來。

DNS 袂振袂動

DNS (台羅:tí-on-es,英文:Domain Name System) 是一種 IP 地址(IP address) 佮域名(台羅:hi̍k-miâ,英文:Domain Name) 會使對準的技術。若是無對予準,你拍 IP address,親像 ping 168.95.1.1 會通,毋過拍 ping www.google.com 袂通。這咧過程,號做 DNS 解破器 (DNS Resolver)
凊彩 Google (kú-kò) 一咧,這是這版 17.04 的大問題。其實,踮 17.04 嘛是換新个 DNS 解破機制,才會問題遐呢濟!

參考這篇: Ubuntu 17.04 無法度解破有 DNSSEC 支援 ê DNS 侍候器(Server)。

sudo mkdir -p /etc/systemd/resolved.conf.d
printf "[Resolve]\nDNSSEC=no\n" | sudo tee /etc/systemd/resolved.conf.d/no-dnssec.conf
頂面 ê 兩,就是叫 Ubuntu 17.04,咱的 DNS 解破器莫去解破 DNSSEC。你會當伊 Copy 了直接去 Terminal 裡運行,結果是:

cat /etc/systemd/resolved.conf.d/no-dnssec.conf
[Resolve]
DNSSEC=no
你愛看有 /etc/systemd/resolved.conf.d/no-dnssec.conf 這咧檔案,和伊的內容。
--落來,咱重開 DNS 解破器:

sudo dpkg-reconfigure resolvconf
按呢,伊就正常囉!


若是閣無法度

就共 systemd 个 dns 禁khiah, 直接用 Google 个 DNS 侍候器:
sudo systemctl disable systemd-resolved.service
sudo service systemd-resolved stop
vi /etc/resolv.conf
添一逝:
nameserver 8.8.8.8

2017年8月2日 星期三

Python ê 基礎 - 函式



基本

函數/函式/hâm-sit (function) 是一種起做 Python 裡蓋重要 ê 乜件。伊和  while 圈圈 (while loop) 和 for 圈圈 (for loop) 相sia̋ng,都是重複利用寫過 ê code。毋過,while 佮 for 攏是連紲運行,一直到條件判段式成做 False,抑是 List 用佮貼底,才會得通做捌項代誌。你若是佇咧無仝所在欲使用,就無法度囉。

函式就是共一段 code,一咧名,不管時想欲使用,就叫伊的名。按呢生你就有真大 ê 自由度來使用伊。咱來看:

def fahrenheit(T_in_celsius):
    """ returns the temperature in degrees Fahrenheit """
    return (T_in_celsius * 9 / 5) + 32

c1 = fahrenheit(13)

c2 = fahrenheit(27.3) + 5

for t in (22.6, 25.8, 27.3, 29.8):
  print(t, ": ", fahrenheit(t))

函式咱愛先伊定義: 用關鍵字 def 𤆬頭一个人一看就知意思 ê 名,閣紲落去用月眉號 ()來參數包--起來,落尾才綴一咧大句點 : 完成宣告。函式的體 (body),就攏愛向正爿勼,來函式想欲做 ê 代誌寫好。

佇頂仔 ê 例,函式名號做 fahrenheit, 這是溫度 ê 單位 Hua-sit (華語:華式,Fahrenheit)。伊的參數是 T_in_celsius ,咱一看名就知這是另一 ê 溫度 ê 單位 Se-sit (華語:攝式,Celsius)。咱一看就知影,伊是共 Se-sit 轉做 Hua-sit ê 函式。內底 """ 是註解: 彼是予人看ê,電腦無佇看彼。咱先莫伊。

會當看著,fahrenheit 會使佇任何所在:會當數字型態 ê 所在,就會當囥伊。因為伊會擲出來的值,嘛是數字型態。這予咱真大ê自由,程式嘛加真屧貼,媠氣。

程式 ê 參數,無限定偌濟。若有濟 ê 參數,愛用逗點(華語:逗號,,)共 in 分開,像 func(para1, para2, para3)。若是完全無參數,就莫寫,像按呢 func()。


無定著愛寫的參數(Optional Parameters)

咱嘛會用得予函式參數一咧預設值(ū-siat-ta̍t),按呢生,咱就會使共捷捷用的值,成做預設值,看下跤 ê 例?

def Hello(name="everybody"):
    """ Greets a person """
    print("Hello " + name + "!")

Hello("Peter")
Hello()

name="everybody" ,name是參數,"everybody" 是預設值。咱若知人名,就添入參數位,若無,放予空空,伊就用 "everybody" 共伊印--出來。

毋過,有時咱有幾落 ê  無定著愛寫的參數,拄好上尾彼咧愛寫:

def sum(start=1, end=10):
    c = start
    s = 0
    while (c < end):
        s = s + c
        c = c + 1
    return s
伊是會使對 start 開始,疊加到 end 進前一咧整數。sum(2, 11)  就是 1 + 2 + 3 + ... + 10,答案是 54。咱若想欲對 1 開始加,start 會使免寫,毋過 sum(11),sum 毋知 11 是 start 抑是 end,所以咱愛共伊講:

sum(end=11)
伊就知 start 用預設值,答案是 55,這號做 關鍵字參數 (keyword parameters)


說明字串

咱看著函式裡頭一逝是字串。毋過,伊孤一ê佇遐,無囥入去參數,無啥乜作用。咱會使共伊當做註解。伊的目的是欲予人知影這个函式的作用,佮有啥乜愛注意。佇每一咧函式前阿寫註解,是一咧真好的習慣。
咱嘛會使共這个說明字串印出來:

def Hello(name="everybody"):
    """ Greets a person """
    print("Hello " + name + "!")

print("The docstring of the function Hello: " + Hello.__doc__)

伊會印:
The docstring of the function Hello:  Greets a person 

擲轉來濟濟的值

函式擲轉來值,普通是一咧。咱嘛會使一擺等幾落ê。

def arithmetic(a,b):
    """ It give the result of four basic arithmetic operation """
    return a+b, a-b, a*b, a/b

all_4 = arithmetic(100, 33)
add, sub, mul, div = arithmetic(100, 33)

print(all_4)
print(add, sub, mul, div)
print(all_4[0], all_4[1], all_4[2], all_4[3])
運行ê結果:
(133, 67, 3300, 3.0303030303030303)
133 67 3300 3.0303030303030303
你若用一个變數起乘伊,伊就是一咧 Tha-poh (Tuple)。Tha-poh 是 Lists 的親情,嘛是一種資料型態,是一種有順序ê物件 (Sequential),嘛會使用索引(index) 來提伊的值。



這的文章的例,是對 Python3 Tutorial 提--來ê,若有興趣欲閣學閣較深咧,會使去看原文。



佇 Linux 來看GPX 檔案

最近定定有戶外活動。使用𤆬路機 (GPS) 來記錄行過的路線。普通我記錄路線,攏是用手機仔抑是專門个𤆬路機,罕得用電腦來看。 毋過,"仙人拍鼓有時錯,跤步踏差啥人無"。有一擺我無細膩,袂記得共一擺活動的路線收煞起來,閣直接開始記錄下一擺的活動,按呢共幾落...