2015Hackathon OpenWuDict

編輯歷史

時間 作者 版本
2017-07-12 04:27 – 05:05 (unknown) r0 – r2
顯示 diff
+ 2015Hackathon OpenWuDict
+ 均優台語駭客松
+
+ 均優學習論壇三天議程 http://quality-learning.net/2015/about/about5.php
+
+ *快速連結
+ *維基測試機:http://120.127.225.125/mediawiki/ http://120.127.229.13/mediawiki/
+ *網頁試排:https://g0v.github.io/koktai/
+ *源碼庫:https://github.com/g0v/koktai
+ *華語、臺語注音符號溯源:https://g0v.github.io/koktai/phsource.txt
+ *組字線上版:http://www.意傳.台灣/%E7%B7%9A%E4%B8%8A%E7%B5%84%E5%AD%97
+ *缺字共筆:https://ethercalc.org/koktai-ids
+ *源碼庫:https://github.com/sih4sing5hong5/han3_ji7_tsoo1_kian3
+ *新臺語運動:https://github.com/g0v/taigi-neologism
+ *共筆:https://g0v.hackpad.com/moed7ct-taigi-neologism
+ *維基文庫實例:
+ *康熙字典
+ *佛學大辭典
+ *國臺對照活用辭典 <- Work in Progress
+
+ *計畫概要
+ 說明:
+
+ 《國臺對照活用辭典》進行開放內容及數位化的計畫。本書為已故台大文學院院長吳守禮教授著作,曾經由遠流出版社發行。吳氏後人基於提供大眾無償運用的理念,將本書以開放授權方式贈予中華民國維基媒體協會,結合維基社群、開放社群、企業及學術界力量,共同進行數位化工作。
+
+ 本活動將使用近年常見於科技社群的活動形式「黑客松(Hackathon)」,集合開放社群工程師如唐鳳、張正一,運用半天下午的時間,將《國臺對照活用辭典》的檔案進行討論與實作,使之開放變成一個人人可以線上利用的開放計畫。預計的活動可能有聲韻學、維基媒體計畫、以及動態組字等概念之說明與實作,建議參與者攜帶筆電與無線網路。
+
+ 元維基計畫頁面:https://meta.wikimedia.org/wiki/Wikimedia_Taiwan/OpenWuDict
+ 議程申請(已完成)
+
+
+ 參考資料
+ 萌典松第9次的hackpad https://g0v.hackpad.com/3-moed9ct#3-moed9ct
+ WMFlab的申請https://meta.wikimedia.org/wiki/Wikimedia_Taiwan/Creating_an_account_on_WMFLabs
+
+ *
+ http://www.slideshare.net/autang/koktai
+
+ *前置準備
+ 當天計畫
+ 當天可以做的事情:
+ 1.(技術)
+ 1-1. 處理缺字(做extension來接收第三方,比如意傳的組字引擎的web font回傳的svg,在維基的相關網站呈現動態組字)
+ 1-2. 接收內容組的規範,處理分類或標籤的機器人
+
+ 2.(內容)
+ 2-1. 如何把github放在維基文庫上的格式手冊。
+ 2-2. 做一個範例,給未來維基文庫或維基字典的機器人參考。
+ (可參考英文版的維基文庫 )
+
+ 要帶去:
+ (文件)mediawiki extension的文件(規範說明)
+ (硬體)帶去可以架mediawiki的一個伺服器
+
+ 現場網路
+ 3月19號跟唐鳳討論,最長也可以到兩天(但需要準備睡袋),目前正在進行unicode與原始檔案的對應,等到對應完成後才能確定當天有什麼能夠請志工參與的。現在先暫定找一個人數可以到六十人的空間,並且我們會再帶4G的網路過去(啊當天忘記問唐鳳有沒有測試有訊號了,不過剛剛看台灣大哥大的4G訊號覆蓋圖 ,除了國家教育研究院最後面的訊號比較弱,應該是都有涵蓋,下面是截圖)
+ *國教院有wifi可以用吧?
+ *昨天 Gene Hong 和我有實測,國教院的 wifi 似乎有防火牆,某些網址無法載入。
+ *台灣大哥大的 4G 我使用是 OK,室內訊號稍弱,但也有 1Mbps 上下。
+ *
+
+ (全球一動的覆蓋圖 看起來也可以,但我之前試用的效果不是很好)
+
+
+ *活動流程
+
+ *
+
+ *MediaWiki系統動態組字擴充套件(Extension)設計
+
+ *在遠端主機運算
+ *做法
+ *把程式架在維基的主機上,擴充套件再連線過去取圖,就像現在意傳網站這樣
+ *程式專案
+ *https://github.com/sih4sing5hong5/han3_ji7_tsoo1_kian3
+ *我可幫忙架設主機在維基,或者先暫時用意傳的主機
+ *就暫時用意傳的主機囉
+ *待辦事項
+ *找函式庫產生svg
+ *從意傳 js產生的png,把附檔名改掉就行了
+ *http://漢字.意傳.台灣/[IDS序列].png
+ *http://漢字.意傳.台灣/[IDS序列].svg
+ *感謝!伺服器端可能要傳回 Content-Type: image/svg+xml 檔頭,才能使用。
+ *另外也可以考慮加上某些 cache 機制(或 Cloudflare 之類)。
+ *把程式改做IDS標準相容
+ *決定注音符號的中繼符號
+ *萌典台語典目前是用 U+FFFA 作表音中繼符:
+ *"\\u{FFF9}㧻破\\u{FFFA}tok-phuà\\u{FFFB}敲破"
+ *也許我們可以約定,傳 FFFA 之後接注音就都是用注音排版?
+ *以吳老的字典來說,這樣就足夠了:
+ *"\\u{FFFA}ㄗˋ\\u{FFFB}"
+ *如果額外要做到連字注音,可以寫成:
+ *"\\u{FFF9}字\\u{FFFA}ㄗˋ\\u{FFFB}"
+ *所以\\u{FFF9}和\\u{FFFA}中間接漢字
+ *\\u{FFFA}和u{FFFB}中間接注音
+ *\\u{FFFB}後接翻譯?
+ *我需要多點例子:閩南語「椅仔」和華語「一盎司」
+ *送給組字引擎的應該已經切到單字層級,所以分兩筆:
+ *\\u{FFF9}椅\\u{FFFA}ㄧˋ\\u{FFFB}
+ *\\u{FFF9}仔\\u{FFFA}ㄚˋ\\u{FFFB}
+ *「一盎司」則是三筆:
+ *\\u{FFF9}一\\u{FFFA}ㄧ\\u{FFFB}
+ *\\u{FFF9}盎\\u{FFFA}ㄤˋ\\u{FFFB}
+ *\\u{FFF9}司\\u{FFFA}ㄙ\\u{FFFB}
+ *這是純文字的做法。
+ *在 HTML 情況下,可以考慮只處理注音的圖形,國字我們還是用基本的 Unicode。像這樣:
+ *椅<img src="//漢字.意傳.台灣/楷體/&#xFFFA;ㄧˋ&#xFFFB;.svg" alt="ㄧˋ">
+ *當然如果容許加注音又組字,會很炫麗,只是字典暫時用不到... 像「上盎下司附注音」:
+ *⿱\\u{FFF9}盎\\u{FFFA}ㄤˋ\\u{FFFB}\\u{FFF9}司\\u{FFFA}ㄙ\\u{FFFB}
+ *
+ *
+ *
+ *下面這幾件事短期內我撥不出時間用
+ *生試驗test
+ *整理程式碼
+ *IDS IVD支援
+
+
+ *
+
+ *有標高亮度(Cmd-E)表示已檢查過、轉寫回 https://ethercalc.org/koktai-ids 試算表裡。
+ a0cd ⿱中一
+ a0e5 ⿱宀贑
+ a0fd ⿰口欮
+ fa71 ⿱丙一
+ fab7 ⿰巴攵
+ facb⿰包攵
+ faf1 ⿰口敝
+ fb73 ⿱午一
+ fbbf ⿰⺼憲
+ fbc2 ⿰扌冄
+ fbcb ⿰口知
+ fbcc ⿰⺼獻
+ fbcf ⿰扌閱
+ fbd2 ⿰歹奧
+ fbdc ⿰扌林
+ fbf2 ⿱卄一⺼
+ fbf9 ⿰骨亏
+ fbfa ⿸疒粒
+ fc4c ⿸疒勘
+ fc50 ⿰扌 并(分開寫)
+ fc68 ⿰氵⿸厂炎
+ fc72 ⿸疒產
+ fc77 ⿰米包
+ fc7c ⿳艹丿恩(?)
+ fca8 ⿰布瓜
+ fccb ⿱臼丌
+ fcd3 ⿰亻狀
+ fcda ⿰不美
+ fcdb ⿰勿美
+ fce0 ⿰⻊彪
+ fcf7 ⿰⿳日一寸当
+ fd78 ⿰亻⿱夭韭
+ fdc5 ???
+ fdc7 ???
+ fdf7 ⿱⺮允
+ fe4e ⿱⺮披
+ fe6f ⿰衤南
+ fea7 ⿰扌向
+ fee5 ⿰扌衮
+ feef ⿰扌送
+ fef7 ⿰扌彪
+ fefa ⿰尔我
+
+
+ ⿰ ⿱ ⿲ ⿳ ⿴ ⿵ ⿶ ⿷ ⿸ ⿹ ⿺ ⿻
+ 扌阝艹氵冫辶衤礻忄釒⻊⺼刂冖⺮飠卩
+ 豎(丨)、撇(丿)、點(丶)、捺(㇏)、折(亅)
+
+  
+
+ *
+
+
+
+ 97CB ⿱臥⿸厂虎
+ 985c ⿵門⿱田电
+ 98b7 ⿱妳心
+ 98ba ⿰女⿱二女
+ 987c ⿰食憲
+ 9949 ⿱汝心
+ 9962 ⿰金稾
+ 9a7b ⿷ 匚⿳丨口丨
+ 9c4a ???
+ 9cdb ⿱彡儿
+ 9ce4 ???
+ 9ce5 ???
+ 9cea ???
+ 9d4a ⿰飠貴
+ 9d6c ⿰忄天
+
+ *
+
+
+
+ 9d7c ⿱⿰丿土巾
+ 9dcd ⿱宀儿
+ 9dcf ???
+ 9dd1 ???
+ 9dd4 ⿰夫个
+ 9dd8 ⿳宀儿徼
+ 9de4 ???
+ 9ebd ⿰酉彥
+ 9ed5 ⿰扌义
+ 9ee7 ⿴口清
+ 9eec ???
+ 9efe ⿰衤莽
+ 9f50 ⿰口⿱肀巾
+ 9fd0 ⿱一⿲丿亅丿
+ a046 ⿰⺼⿱禾夕
+ a05c ⿰忄恖
+ a06b ???
+ a070 ???
+ a073 ⿱亠ㄙ
+ a07b ???
+ a0bd ???
+
+
+
+
+
+
+ *整理出字典unicode外字,成有效的IDS
+ *這是需要整理的清單,我們要把C欄有缺的補完 https://ethercalc.org/koktai-ids
+ *補的方法:先用這個練習 http://意傳.台灣/線上組字#線上組字
+ *完整的組字符在這裡⿰ ⿱ ⿲ ⿳ ⿴ ⿵ ⿶ ⿷ ⿸ ⿹ ⿺ ⿻,輸入法打不出來,就請從這邊複製貼上,他們的功能,請讀Unicode IDS,還有Unicode規格書ch11 第308頁,比較特別的「⿻」,是指把東西放在一個部件的左右兩邊,例如夾=⿻大⿰人人(理論上也有可能有上下的,有遇到再說囉)
+ *常用部件如提手旁等,先打在這裡:扌阝艹氵冫辶衤礻忄釒⻊⺼刂冖⺮飠
+ *中日韓部首補充區塊字符表 、Unicode康熙部首
+ *可以從剎那字引鍵入整字,再從頁面下方取得
+ *另法,安裝jdk跟ant,git clone https://github.com/MGdeisgner/libdgg.git,然後到libdgg/libdgg目錄,下ant run,會執行IDSdemo程式,然後先輸入有你需要部件的字,然後按「拆字」,就可以取得無法輸入的部件(但要小心有些拆出來的部件是造字區的,如果有跟上面常用部件重疊的,請改用上面的常用部件版本)
+ *這樣好像會取得 U+Fxxx 的造字區部件?先打無妨,我看到會換成「扌」「⻊」
+ *喔喔!!那我之後也得改single.fnt了,我會留意這件事
+ *罕見只有一筆劃的部件在這裡:豎(丨)、撇(丿)、點(丶)、捺(㇏)、折(亅)
+ *筆劃超少,很奇怪的字,也可查教育部異體字字典
+ *
+ *用javascript直接在電腦上算圖
+ *我可以把我的演算法整理出來
+ *audrey:外部結構, https://github.com/g0v/idskage 做了一個起頭,也許可以檢查看看合不合適?那天黑客松如果有人有興趣,再 port 到 JS 來來。
+ *MediaWiki Extension說明文件
+ *任務:蒐集及整理說明文件,最好能有一些大綱可以在任務簡報時提示參與者
+ *蒐集場
+ *Extension 設計手冊 http://www.mediawiki.org/wiki/Manual:Developing_extensions
+ *API手冊 https://www.mediawiki.org/wiki/API:Extensions
+ *其他工作區
+ *覺得可能要做的事就加進去,想做的就自己跳,跳完自己勾 XD
+ *簡單的翻譯?
+
+
+ 維基模版
+ *Ruby Test
+ *{{#css:MyStyles.css}}:可能需要extension:css開放,要參考正一在文庫的測試頁面再做了解。如果真的無法開啟,也可以在 Template 裡用 <span style="..."></span> 手動解決注音符號排版,但 WebFont 載入就沒辦法了。
+ *{{Ruby|八|ㄅㄚ}}
+ *{{rt|ㄅㄚ|ˊ}}
+ *Template:Ruby (後來不使用,改成 Template:rt 如後)
+ *<ruby>{{{1}}}<rt>{{{2}}}</rt></ruby>
+ *Template:rt
+ *<span class="hruby zhuyin"><span class="ru" form="SJ" length="2"><span class="zhuyin"><span class="yin">{{{1}}}</span><span class="diao">{{{2}}}</span></span></span></span>
+ *MyStyles.css
+ *https://gist.github.com/audreyt/07c65a5cedfd7c96042e
+
+ *當日紀錄
+ *
+ 現場直播 https://www.youtube.com/watch?v=kafGcoovYOc
+
+ 方音符號
+
+ 輔音(濁音)
+ 元音
+
+ 教會羅馬字&台灣羅馬字vs通用拼音
+
+ 通用拼音在濁音會注成清音
+
+ *漢語方言語區作業環境(bluebat,自由軟體中文化,訊息翻譯)
+ 想要類似德文、中文等轉換,做閩南語的桌面環境。工作重點是把功能對照表做出來。我參加這個活動的原因,也是因為想說既然都把辭典做出來了,作業系統的功能應該也很容易。希望可以把閩南語桌面促成。
+
+ *台語輸入法 (Pierre)
+ 這是個Android的app,大概一年多沒有改版,有點停滯,很可惜。這是我第一次做android app,想要繼續修改,大家有興趣可以到g0v的irc聯絡我。(現場有朋友在iOS做鍵盤,也許可以聯絡做台語的鍵盤輸入)
+
+ *如何用台語文操作電腦 (雋淮)
+ 用一字多義&台語文變調,可以把台語文轉換成英文,就可以餵給siri,於是需要台語文知識的工作者、翻譯、以及人機介面UI的專長者,歡迎有興趣跟我聯繫。
+
+ *新台語運動(Liz)
+ 我是教育部閩南語字典的前任編輯,教育部其實自己有做輸入法,(Pierre就是用這個輸入法),教育部的台語資料庫非常的老舊,想要做年輕人可以來加入,歡迎大家從hackpad上的新台語運動說明更詳細的資訊。(說明開放原始碼的台語)
+
+ header的說明
+
+ 小八卦:法文文庫其實現在是第一名,原本三年前是前三名
+
+ 字典:GLAM?
+
+ 教育法案整合:曾大千
+ 學術名詞