2015Hackathon OpenWuDict

最後編輯:2015-05-03 建立:2015-03-19 歷史紀錄

上官良治均優台語駭客松

 

均優學習論壇三天議程 http://quality-learning.net/2015/about/about5.php

 

    上官良治快速連結

 

    上官良治計畫概要

上官良治說明:

 

《國臺對照活用辭典》進行開放內容及數位化的計畫。本書為已故台大文學院院長吳守禮教授著作,曾經由遠流出版社發行。吳氏後人基於提供大眾無償運用的理念,將本書以開放授權方式贈予中華民國維基媒體協會,結合維基社群、開放社群、企業及學術界力量,共同進行數位化工作。

 

本活動將使用近年常見於科技社群的活動形式「黑客松(Hackathon)」,集合開放社群工程師如唐鳳、張正一,運用半天下午的時間,將《國臺對照活用辭典》的檔案進行討論與實作,使之開放變成一個人人可以線上利用的開放計畫。預計的活動可能有聲韻學、維基媒體計畫、以及動態組字等概念之說明與實作,建議參與者攜帶筆電與無線網路。

 

元維基計畫頁面:https://meta.wikimedia.org/wiki/Wikimedia_Taiwan/OpenWuDict

議程申請(已完成

 

 

參考資料

萌典松第9次的hackpad https://g0v.hackpad.com/3-moed9ct#3-moed9ct

WMFlab的申請https://meta.wikimedia.org/wiki/Wikimedia_Taiwan/Creating_an_account_on_WMFLabs

 

*

http://www.slideshare.net/autang/koktai

 

    上官良治前置準備

上官良治當天計畫

當天可以做的事情:

1.(技術)

1-1. 處理缺字(做extension來接收第三方,比如意傳的組字引擎的web font回傳的svg,在維基的相關網站呈現動態組字)

1-2. 接收內容組的規範,處理分類或標籤的機器人

 

2.(內容)

2-1. 如何把github放在維基文庫上的格式手冊。

2-2. 做一個範例,給未來維基文庫或維基字典的機器人參考。

(可參考英文版的維基文庫

 

要帶去:

(文件)mediawiki extension的文件(規範說明)

(硬體)帶去可以架mediawiki的一個伺服器

 

現場網路

3月19號跟唐鳳討論,最長也可以到兩天(但需要準備睡袋),目前正在進行unicode與原始檔案的對應,等到對應完成後才能確定當天有什麼能夠請志工參與的。現在先暫定找一個人數可以到六十人的空間,並且我們會再帶4G的網路過去(啊當天忘記問唐鳳有沒有測試有訊號了,不過剛剛看台灣大哥大的4G訊號覆蓋圖 ,除了國家教育研究院最後面的訊號比較弱,應該是都有涵蓋,下面是截圖)

    Reke Wang國教院有wifi可以用吧?
    上官良治昨天 Gene Hong 和我有實測,國教院的 wifi 似乎有防火牆,某些網址無法載入。
    上官良治台灣大哥大的 4G 我使用是 OK,室內訊號稍弱,但也有 1Mbps 上下。

 

全球一動的覆蓋圖 看起來也可以,但我之前試用的效果不是很好)

 

 

    REKE W活動流程

 

*

 

    SHOICHI.MediaWiki系統動態組字擴充套件(Extension)設計

 

  1. SHOICHI.在遠端主機運算
    • 做法
      • shoichi.chou@gmail.com我可幫忙架設主機在維基,或者先暫時用意傳的主機
        shoichi.chou@gmail.com就暫時用意傳的主機囉
    • 待辦事項
    • 找函式庫產生svg
      shoichi.chou@gmail.com意傳 js產生的png,把附檔名改掉就行了
    上官良治感謝!伺服器端可能要傳回 Content-Type: image/svg+xml 檔頭,才能使用。
    上官良治另外也可以考慮加上某些 cache 機制(或 Cloudflare 之類)。
    • 把程式改做IDS標準相容
    • 決定注音符號的中繼符號
      • 上官良治萌典台語典目前是用 U+FFFA 作表音中繼符:
        • "\\u{FFF9}㧻破\\u{FFFA}tok-phuà\\u{FFFB}敲破"
      • 也許我們可以約定,傳 FFFA 之後接注音就都是用注音排版?
        • 以吳老的字典來說,這樣就足夠了:
          • "\\u{FFFA}ㄗˋ\\u{FFFB}"
      • 如果額外要做到連字注音,可以寫成:
        • "\\u{FFF9}字\\u{FFFA}ㄗˋ\\u{FFFB}"
          shoichi.chou@gmail.com所以\\u{FFF9}和\\u{FFFA}中間接漢字
          上官良治\\u{FFFA}和u{FFFB}中間接注音
          shoichi.chou@gmail.com\\u{FFFB}後接翻譯?
          shoichi.chou@gmail.com我需要多點例子:閩南語「椅仔」和華語「一盎司」
          上官良治送給組字引擎的應該已經切到單字層級,所以分兩筆:
          上官良治\\u{FFF9}椅\\u{FFFA}ㄧˋ\\u{FFFB}
          上官良治\\u{FFF9}仔\\u{FFFA}ㄚˋ\\u{FFFB}
          上官良治「一盎司」則是三筆:
          上官良治\\u{FFF9}一\\u{FFFA}ㄧ\\u{FFFB}
          上官良治\\u{FFF9}盎\\u{FFFA}ㄤˋ\\u{FFFB}
          上官良治\\u{FFF9}司\\u{FFFA}ㄙ\\u{FFFB}
          上官良治這是純文字的做法。
          上官良治在 HTML 情況下,可以考慮只處理注音的圖形,國字我們還是用基本的 Unicode。像這樣:
          上官良治椅<img src="//漢字.意傳.台灣/楷體/&#xFFFA;ㄧˋ&#xFFFB;.svg" alt="ㄧˋ">
          上官良治當然如果容許加注音又組字,會很炫麗,只是字典暫時用不到... 像「上盎下司附注音」:
          上官良治⿱\\u{FFF9}盎\\u{FFFA}ㄤˋ\\u{FFFB}\\u{FFF9}司\\u{FFFA}ㄙ\\u{FFFB}
          上官良治
          上官良治
          上官良治
    • SHOICHI.下面這幾件事短期內我撥不出時間用
    • 生試驗test
    • 整理程式碼
    • IDS IVD支援

 

 

上官良治

 

REKE Wa0cd ⿱中一

a0e5 ⿱宀贑

a0fd ⿰口欮

fa71 ⿱丙一

fab7 ⿰巴攵

facb⿰包攵

faf1 ⿰口敝

fb73 ⿱午一

fbbf ⿰⺼憲

fbc2 ⿰扌冄

fbcb ⿰口知

fbcc ⿰⺼獻

fbcf ⿰扌閱

fbd2 ⿰歹奧

fbdc ⿰扌林

fbf2 ⿱卄一⺼

fbf9 ⿰骨亏

fbfa ⿸疒粒

fc4c ⿸疒勘

fc50 ⿰扌 并(分開寫)

fc68 ⿰氵⿸厂炎

fc72 ⿸疒產

fc77 ⿰米包

fc7c ⿳艹丿恩(?)

fca8 ⿰布瓜

fccb ⿱臼丌

fcd3 ⿰亻狀

fcda ⿰不美

PEI Lfcdb ⿰勿美

fce0 ⿰⻊彪

fcf7 ⿰⿳日一寸当

fd78 ⿰亻⿱夭韭

fdc5 ???

fdc7 ???

fdf7 ⿱⺮允

fe4e ⿱⺮披

fe6f ⿰衤南

fea7 ⿰扌向

fee5 ⿰扌衮

feef ⿰扌送

fef7 ⿰扌彪

fefa ⿰尔我

 

 

SHOICHI.⿰ ⿱ ⿲ ⿳ ⿴ ⿵ ⿶ ⿷ ⿸ ⿹ ⿺ ⿻

上官良治扌阝艹氵冫辶衤礻忄釒⻊⺼刂冖⺮飠卩

SHOICHI.豎(丨)、撇(丿)、點(丶)、捺(㇏)、折(亅)

 

REKE W 

 

上官良治

 

 

 

PEI L97CB ⿱臥⿸厂虎

985c ⿵門⿱田电

98b7 ⿱妳心

98ba ⿰女⿱二女

987c ⿰食憲

9949 ⿱汝心

9962 ⿰金稾

9a7b ⿷ 匚⿳丨口丨

9c4a ???

9cdb ⿱彡儿

9ce4 ???

9ce5 ???

9cea ???

9d4a ⿰飠貴

9d6c ⿰忄天

 

上官良治

 

 

 

PEI L9d7c ⿱⿰丿土巾

9dcd ⿱宀儿

9dcf ???

9dd1 ???

9dd4 ⿰夫个

9dd8 ⿳宀儿徼

9de4 ???

9ebd ⿰酉彥

9ed5 ⿰扌义

9ee7 ⿴口清

9eec ???

9efe ⿰衤莽

9f50 ⿰口⿱肀巾

9fd0 ⿱一⿲丿亅丿

a046 ⿰⺼⿱禾夕

a05c ⿰忄恖

a06b ???

a070 ???

a073 ⿱亠ㄙ

a07b ???

a0bd ???

 

 

 

 

 

 

  1. SHOICHI.整理出字典unicode外字,成有效的IDS
  • 這是需要整理的清單,我們要把C欄有缺的補完 https://ethercalc.org/koktai-ids
    1. 補的方法:先用這個練習 http://意傳.台灣/線上組字#線上組字
    2. 完整的組字符在這裡⿰ ⿱ ⿲ ⿳ ⿴ ⿵ ⿶ ⿷ ⿸ ⿹ ⿺ ⿻,輸入法打不出來,就請從這邊複製貼上,他們的功能,請讀Unicode IDS,還有Unicode規格書ch11 第308頁,比較特別的「⿻」,是指把東西放在一個部件的左右兩邊,例如夾=⿻大⿰人人(理論上也有可能有上下的,有遇到再說囉)
    3. 上官良治常用部件如提手旁等,先打在這裡:扌阝艹氵冫辶衤礻忄釒⻊⺼刂冖⺮飠
      1. SHOICHI.中日韓部首補充區塊字符表 Unicode康熙部首
      2. 上官良治可以從剎那字引鍵入整字,再從頁面下方取得
      3. SHOICHI.另法,安裝jdk跟ant,git clone https://github.com/MGdeisgner/libdgg.git,然後到libdgg/libdgg目錄,下ant run,會執行IDSdemo程式,然後先輸入有你需要部件的字,然後按「拆字」,就可以取得無法輸入的部件(但要小心有些拆出來的部件是造字區的,如果有跟上面常用部件重疊的,請改用上面的常用部件版本)
        上官良治這樣好像會取得 U+Fxxx 的造字區部件?先打無妨,我看到會換成「扌」「⻊」
        shoichi.chou@gmail.com喔喔!!那我之後也得改single.fnt了,我會留意這件事
      1. 罕見只有一筆劃的部件在這裡:豎(丨)、撇(丿)、點(丶)、捺(㇏)、折(亅)
      2. 筆劃超少,很奇怪的字,也可查教育部異體字字典
      • REKE W
  1. SHOICHI.用javascript直接在電腦上算圖
    • shoichi.chou@gmail.com我可以把我的演算法整理出來
      shoichi.chou@gmail.comaudrey:外部結構, https://github.com/g0v/idskage 做了一個起頭,也許可以檢查看看合不合適?那天黑客松如果有人有興趣,再 port 到 JS 來來。
  2. REKE WMediaWiki Extension說明文件
    • 覺得可能要做的事就加進去,想做的就自己跳,跳完自己勾 XD
    • 簡單的翻譯?

 

 

上官良治維基模版

  • Ruby Test
  • {{#css:MyStyles.css}}:可能需要extension:css開放,要參考正一在文庫的測試頁面再做了解。如果真的無法開啟,也可以在 Template 裡用 <span style="..."></span> 手動解決注音符號排版,但 WebFont 載入就沒辦法了。
  • {{Ruby|八|ㄅㄚ}}
  • {{rt|ㄅㄚ|ˊ}}
  • Template:Ruby (後來不使用,改成 Template:rt 如後)
  • <ruby>{{{1}}}<rt>{{{2}}}</rt></ruby>
  • Template:rt
  • <span class="hruby zhuyin"><span class="ru" form="SJ" length="2"><span class="zhuyin"><span class="yin">{{{1}}}</span><span class="diao">{{{2}}}</span></span></span></span>
  • MyStyles.css

*https://gist.github.com/audreyt/07c65a5cedfd7c96042e

 

    上官良治當日紀錄

上官良治*

現場直播 https://www.youtube.com/watch?v=kafGcoovYOc

 

方音符號

 

輔音(濁音)

元音

 

教會羅馬字&台灣羅馬字vs通用拼音

 

通用拼音在濁音會注成清音

 

*漢語方言語區作業環境(bluebat,自由軟體中文化,訊息翻譯)

想要類似德文、中文等轉換,做閩南語的桌面環境。工作重點是把功能對照表做出來。我參加這個活動的原因,也是因為想說既然都把辭典做出來了,作業系統的功能應該也很容易。希望可以把閩南語桌面促成。

 

*台語輸入法 (Pierre)

這是個Android的app,大概一年多沒有改版,有點停滯,很可惜。這是我第一次做android app,想要繼續修改,大家有興趣可以到g0v的irc聯絡我。(現場有朋友在iOS做鍵盤,也許可以聯絡做台語的鍵盤輸入)

 

*如何用台語文操作電腦 (雋淮)

用一字多義&台語文變調,可以把台語文轉換成英文,就可以餵給siri,於是需要台語文知識的工作者、翻譯、以及人機介面UI的專長者,歡迎有興趣跟我聯繫。

 

*新台語運動(Liz)

我是教育部閩南語字典的前任編輯,教育部其實自己有做輸入法,(Pierre就是用這個輸入法),教育部的台語資料庫非常的老舊,想要做年輕人可以來加入,歡迎大家從hackpad上的新台語運動說明更詳細的資訊。(說明開放原始碼的台語)

 

header的說明

 

小八卦:法文文庫其實現在是第一名,原本三年前是前三名

 

字典:GLAM?

 

教育法案整合:曾大千

 

學術名詞