20161116起動態組字在中文維基 irc / tg 聊天室的相關討論

回到動態組字專案頁

zhao shi, [16.11.16 11:25]

对了,关于动态组字技术,这两天和glyphwiki对比了一下,个人感觉glyphwiki似乎优点更多一些,只是缺乏对wikipedia的良好支持

zhao shi, [16.11.16 11:25]

http://glyphwiki.org/

zhao shi, [16.11.16 11:27]

动态组字的优点在于可以用简单的语法任意组合出新字,但也就是这样了

Mingye Wang, [16.11.16 11:27]

glyphwiki 是人工的。

zhao shi, [16.11.16 11:28]

人工的好处是能做出字形来

zhao shi, [16.11.16 11:28]

而且他现在似乎和unihan有支持关系

Mingye Wang, [16.11.16 11:29]

主要是需要一个 IDS Normalization 方式(已有),然后做一个检字系统(参见 CHISE 的 lookup)

Mingye Wang, [16.11.16 11:29]

[In reply to zhao shi]

没听说过。

Mingye Wang, [16.11.16 11:30]

如果检字检得准的话甚至可以回到拼字程序里面对于小块东西尝试使用更大的已有部件…

zhao shi, [16.11.16 11:30]

从长远来看,做出字形放到glyphwiki ,然后unihan收录后,就能有现成的字形使用,动态组字则做不出字形来

zhao shi, [16.11.16 11:31]

[In reply to Mingye Wang]

我看到unihan上的字形里,有链接到GlyphWiki

Mingye Wang, [16.11.16 11:31]

[In reply to zhao shi]

Unihan 的收录是有有定义的 source 的,这些 source 很多是 Adobe 编码页(因此也有 Adobe 标宋支持)。GlyphWiki 能扯上的关系只有他们的人会去看 U-source 表。

zhao shi, [16.11.16 11:32]

现在双方是互链形式

Mingye Wang, [16.11.16 11:32]

还是得说,从这个推到 Unicode 审核录取规则的话可能是阁下维基百科 COI 看多了…

zhao shi, [16.11.16 11:33]

[In reply to Mingye Wang]

Unicode 审核录取规则我知道啊,我去提过未收录汉字的

Mingye Wang, [16.11.16 11:34]

现在你看那么多个 source… 没有什么字是靠 GlyphWiki 当作参照画出来的

Mingye Wang, [16.11.16 11:34]

GlyphWiki 只是个跟得够快且开放的下游……

zhao shi, [16.11.16 11:36]

[In reply to Mingye Wang]

的确是没有,但那是以前啊

Mingye Wang, [16.11.16 11:36]

我觉得克林贡收进去之后才会开始有人审视只在 GlyphWiki 出现过的字(

zhao shi, [16.11.16 11:37]

[In reply to Mingye Wang]

额,你搞错意思了

Mingye Wang, [16.11.16 11:37]

别的该描碑描碑去……

Mingye Wang, [16.11.16 11:39]

现在给参考字型也是几个公司都有人担……

zhao shi, [16.11.16 11:39]

我的意思就是下游啊

zhao shi, [16.11.16 11:40]

不是说GlyphWiki上的字能收录到unihan

zhao shi, [16.11.16 11:41]

[In reply to zhao shi]

之前我想多了,意思没表达明白,不好意思

Liang-chih Shang Kuan, [16.11.16 15:07]

[In reply to zhao shi]

各位,我把動態組字的主要開發者 @MGdesigner 拉進這裡,讓大家交換想法。

正一 張, [16.11.16 15:08]

大家好,我在維基計畫上的帳號是[[shoichi]],在推動態組字應用計畫的

正一 張, [16.11.16 15:10]

我現在才知道有telegram群組XD抱歉現在才參加

正一 張, [16.11.16 15:11]

有想要討論動態組字的話,歡迎找我

則文 王, [16.11.16 15:17]

[In reply to zhao shi]

應該不止,它有個好處是「不必建檔」,不需要因為極罕用的字來建立一個永久性的儲存空間。如果以後服務提供者無法再提供服務了,動態組字只要把source code 丟到另一個伺服器上運算就可以延續;glyphwiki似乎是要把整個資料庫都備份下來才行。

zhao shi, [16.11.16 15:52]

[In reply to 則文 王]

嗯,其实我更喜欢一些可以建档的方案....

正一 張, [16.11.16 16:06]

[In reply to zhao shi]

不只是如此,而是可被交換、可定序、可被搜尋,就像一般的文字一樣,不是單單可顯示而已。

zhao shi, [16.11.16 16:07]

[In reply to 正一 張]

这样,这个真不了解

zhao shi, [16.11.16 16:08]

动态组字的重点是未收录字,还是也包括了已收录但缺乏字体支持的的字?

zhao shi, [16.11.16 16:09]

[In reply to zhao shi]

总感觉已收录字更适合webfont来做

正一 張, [16.11.16 16:09]

[In reply to zhao shi]

在電腦上,文字要可被交換、可定序、可被搜尋,它要有可交換的編碼。 glyphwiki 是蒐集了一個缺字,但是不一定有一個可以流通的編碼-unicode。而動態組字技術可以,那就是IDS

正一 張, [16.11.16 16:17]

而其實有對應到IDS就能解決問題,就算是glyphwiki,如果他們能用技術對應到IDS,那也可以。 問題會再更進一部的人工處理的效率。現在大家看到glyphwiki有40漢字覺得很多,那也是花很多年慢慢提報整理上去,然後機器描繪(就是一種IDS呈像技術)加人工

例如這裡就有他們的render的技術討論 

http://glyphwiki.org/wiki/GlyphWiki:%E3%83%90%E3%82%B0%E5%A0%B1%E5%91%8A-%E4%BF%9D%E5%AD%98

正一 張, [16.11.16 16:23]

不過他們的東西算是「不夠動態」,算比較舊的技術(我以前用過類似的需要很多人工校正)。此外,維基文庫的典藏文獻的問題g4

正一 張, [16.11.16 16:27]

是一本書來,如果是公元2000年前出版甚至是鉛字印刷時代的書,可能發現有數量級為百甚至萬集的新缺字。很難單單為了等傳統缺字處理好幾年(康熙字典可以完整用unicode在一般電腦上呈現,就花了多少寒暑),才能讓這本書進維基文庫。

zhao shi, [16.11.16 16:31]

嗯嗯

正一 張, [16.11.16 16:31]

補充glyphwiki用的IDS描繪引擎是KAGE  http://fonts.jp/kage.html

zhao shi, [16.11.16 16:32]

我比较关心一个问题,是可搜寻,组字技术组出来的字也能让搜索引擎搜到?

正一 張, [16.11.16 16:35]

[In reply to zhao shi]

可以,就是IDS, IDS就是一個可交換的編碼了,例如說google搜尋 ⿲囧rz ,已經可以看到很多比

正一 張, [16.11.16 16:39]

很多筆。當然這又延伸出一個問題 同一個字,可能有複數的IDS,例如說 ⿲囧rz ⿰⿰囧rz ⿰囧⿰rz 是一樣的。 這個其實可以透過漢字筆劃序技術(我實作測試過),透過漢字筆序的自然hash,就可以辨別

正一 張, [16.11.16 16:41]

實作上,可以在我們的extension甚或是建議上游引擎,來作對IDS「等效代換」

正一 張, [16.11.16 16:42]

請記得,只有圖片而沒有IDS的meta組合資訊,就無法被搜尋到

正一 張, [16.11.16 16:48]

[In reply to zhao shi]

抱歉,我原來舉的例子不夠好,這個比較有待表性:招財進寶   ⿴辶⿴宀⿱珤⿰隹⿰貝招

則文 王, [16.11.16 16:55]

[In reply to zhao shi]

組字技術可以想像成一種拼符號的文字,所以可以搜尋,甚至可以支援一些有趣的搜尋方式。比方說假如已知一個偏旁是「咼」,可以用「*咼*」找到所有用「咼」組出的新字。

#wikipedia-zh, [16.11.16 17:32]

<Antigng> 那个汉字组建的开发者还在tg上吗?

zhao shi, [16.11.16 17:41]

这个意思就是组字技术主要用于未收录汉字?

Liang-chih Shang Kuan, [16.11.16 17:41]

[In reply to #wikipedia-zh]

Antigng,他應該還在,我來ping一下[[User:Shoichi]] @MGdesigner

#wikipedia-zh, [16.11.16 17:53]

<Antigng> @shangkuanlc 那个汉字组建的插件现在的工作方法完全不可行。

Liang-chih Shang Kuan, [16.11.16 18:07]

[In reply to #wikipedia-zh]

@Antigng 可以詳細說明不可行的block task嗎?

#wikipedia-zh, [16.11.16 18:08]

<Antigng> @shangkuanlc 那个东西设计理念有问题,不应该从浏览器一端访问提供汉字组建的服务器

#wikipedia-zh, [16.11.16 18:09]

<Antigng> 应该从运行mediawiki的服务器一端访问后台服务器,并适当加以缓存

則文 王, [16.11.16 18:09]

[In reply to #wikipedia-zh]

快取有被列入優先的to-do list喔

Liang-chih Shang Kuan, [16.11.16 18:11]

@Antigng 樓上 @RekeWang 的回覆有看到嗎?放到MediaWiki這件事印象中,目前正在 phabricator 上跟WMF工程師處理

#wikipedia-zh, [16.11.16 18:12]

<Antigng> @shangkuanlc 你大概没明白我的意思。

則文 王, [16.11.16 18:13]

[In reply to #wikipedia-zh]

基本上這個運作模式之前已經有開測試伺服器運行過,然後基金會的工程師已經著手要讓這個插件列入佈署,現在待解決的比較是資安問題。所以不至於到不可行,只是會不會被放在優先列表中的問題。

#wikipedia-zh, [16.11.16 18:13]

<Antigng> 现在,你们的那个插件是将特定的wikitext转换为一定的图片链接,浏览器获得页面内容以后去访问这些链接。

則文 王, [16.11.16 18:14]

你似乎弄錯原理?

#wikipedia-zh, [16.11.16 18:16]

<Antigng> 别的不说,你可以看看[[:mw:Extension:Math]]是怎么工作的

#wikipedia-zh, [16.11.16 18:16]

<linky-zh> Antigng: https://zh.wikipedia.org/wiki/%3Amw%3AExtension%3AMath

則文 王, [16.11.16 18:17]

這個插件的運作方式不是用wikitext 而是用 unicode 的標準動態組字字元;然後我沒記錯的話,也不是給圖片鏈結,是直接讓瀏覽器繪製

#wikipedia-zh, [16.11.16 18:18]

<Antigng> https://tools.wmflabs.org/idsgen/%E2%BF%B0%E9%9B%BB%E5%BF%83.png?%E5%AD%97%E9%AB%94=%E5%AE%8B%E9%AB%94 让浏览器绘制,逗我呢?

Liang-chih Shang Kuan, [16.11.16 18:19]

讓瀏覽器直接渲染

#wikipedia-zh, [16.11.16 18:21]

<Antigng> 你这样还是直接让浏览器访问绘制图片的服务器

#wikipedia-zh, [16.11.16 18:21]

<Antigng> 这是不允许的

#wikipedia-zh, [16.11.16 18:21]

<Antigng> 所有的图片都必须通过mediawiki的图片存储机制

則文 王, [16.11.16 18:23]

[In reply to #wikipedia-zh]

這是有明文的規則還是「這樣比較好」?

#wikipedia-zh, [16.11.16 18:23]

<Antigng> 访问后台服务器,不允许。

#wikipedia-zh, [16.11.16 18:24]

<Antigng> 你们用VE的时候难道直接访问parsoid了吗?

則文 王, [16.11.16 18:24]

[In reply to #wikipedia-zh]

我的意思是,「誰」不允許??

#wikipedia-zh, [16.11.16 18:25]

<Antigng> https://github.com/Wikimedia-TW/Mediawiki-IDSextension/blob/master/ids_body.php 这个25行的玩具还需要很多改进才能真正用到维基百科上

zhao shi, [16.11.16 18:25]

[In reply to 則文 王]

这个就是所说的资安问题啊

則文 王, [16.11.16 18:26]

喔喔,那這個部分是基金會的工程部門在接手啊

#wikipedia-zh, [16.11.16 18:27]

<Antigng> 这不是wmf的工程人员能解决的问题。如果你写了个插件,直接将querystring内容复制到sql查询语句里边,wmf工程人员再怎么努力也无济于事。

zhao shi, [16.11.16 18:28]

我同意antigng对缓存的意见,组字内容应该缓存,没必要每次都要后台去及时生成

則文 王, [16.11.16 18:29]

緩存這個是有在下一階段工作內容的沒錯

#wikipedia-zh, [16.11.16 18:29]

<Antigng> 不是在后台服务器端缓存。

則文 王, [16.11.16 18:30]

緩存是要緩存在mediawiki的

#wikipedia-zh, [16.11.16 18:30]

<Antigng> 是生成图片后,需要存储到wmf的文件存储服务器里面。

正一 張, [16.11.16 18:30]

[In reply to 則文 王]

我來了

則文 王, [16.11.16 18:31]

現階段我們沒有權限去做到讓文件存在WMF的服務器吧?

#wikipedia-zh, [16.11.16 18:31]

<Antigng> 这和权限有啥关系呢?难道mediawiki没提供文件存储功能吗?

zhao shi, [16.11.16 18:31]

[In reply to 則文 王]

这应该是设定好的,调用就行了吧

正一 張, [16.11.16 18:33]

[In reply to zhao shi]

這個在上個週末我跟引擎上游作者檢視過了。

    安全問題:han3_ji7_tsoo1_kian3(我們採用的組字引擎server)提供的web API,接到指令只會丟描繪png或者svg圖而回傳(我們extension目前只使用png),不會有其他硬體I/O。換句話說,這樣一來,這個服務就會像是commons.wikipedia.com對外的一種特殊服務

    原來為了安全,實務的作法得在extension那邊實作出類似goo.gl一類的短轉址服務,轉包一層外加額外的資料庫存取

    效率問題:han3_ji7_tsoo1_kian3作者回答如果在他那邊實作快取也不需要,而是靠Proxy作即可,而維基相關計畫的網站入口 就是一台Varnish Proxy ,所以不用擔心。

#wikipedia-zh, [16.11.16 18:35]

<Antigng> 用户能直接访问swift以获得图片吗?

#wikipedia-zh, [16.11.16 18:35]

<Antigng> commons显然不是这么做的。

zhao shi, [16.11.16 18:35]

这意思是组字插件调用第三方服务生成图像存储在wmf上,然后再显示到页面?

zhao shi, [16.11.16 18:36]

我的理解对吗?

#wikipedia-zh, [16.11.16 18:36]

<Antigng> exactly

正一 張, [16.11.16 18:36]

[In reply to zhao shi]

不是,是组字插件轉換成對第三方服务的位址呼叫。而這個地三方服務,還是在維基服務的雲端裡面,是一個新server。

zhao shi, [16.11.16 18:37]

[In reply to 正一 張]

哦,全部都还是在wmf上完成?

#wikipedia-zh, [16.11.16 18:39]

<Antigng> “而這個地三方服務,還是在維基服務的雲端裡面,是一個新server。”不允许这样做,应该把图片和所有其他的图片放在一起。

正一 張, [16.11.16 18:39]

[In reply to zhao shi]

對,比方說 wmf將來這個server叫做 wikids.org,他就提供ids組字圖回傳服務。所謂的安全性問題,在於他本身 server程式本身

zhao shi, [16.11.16 18:40]

[In reply to 正一 張]

你是指组字引擎?

正一 張, [16.11.16 18:41]

[In reply to zhao shi]

對,這是先前跟基金會工程師討論的。目前那邊的工程議題,是這個server用java寫的,應該用tomcat?jetty?或者其他的server,還有維護團隊的招募議題

則文 王, [16.11.16 18:41]

唔,所以之前說要翻譯組字的程式碼是因為這個嗎 XD (我果然太久沒跟新的工作進度)

zhao shi, [16.11.16 18:42]

[In reply to 正一 張]

原来是卡在了这里。。。

正一 張, [16.11.16 18:42]

[In reply to #wikipedia-zh]

基金會沒有不允許。

正一 張, [16.11.16 18:43]

此外產出的圖片,有需要的話,要儲存到commons也是可以

#wikipedia-zh, [16.11.16 18:44]

<Antigng> @MGdesigner 除了你们这个东西,就没有一个其他的插件是这么用的

正一 張, [16.11.16 18:44]

[In reply to 則文 王]

對,因為要把該server程式的原始碼(漢字命名的函式、變數、註解),要適度翻譯成英文,幫助理事會工程師理解

則文 王, [16.11.16 18:45]

[In reply to #wikipedia-zh]

工程團隊都列入考量了,也就不用管別的插件有沒有這樣用了吧 orz

#wikipedia-zh, [16.11.16 18:48]

<Antigng> 难不成wmf还要单独给你们弄一个Ids cache eqiad集群?

正一 張, [16.11.16 18:49]

[In reply to #wikipedia-zh]

我說過了,經過研究還有這個軟體上游的討論這個不用cache

正一 張, [16.11.16 18:49]

用proxy 就解決了

zhao shi, [16.11.16 18:50]

[In reply to #wikipedia-zh]

这方面wmf会有管控的

正一 張, [16.11.16 18:50]

而wmf的雲端對外,就是Varnish Proxy 的server這個就可以了

正一 張, [16.11.16 18:54]

此外效率上,使用者在連線時例如連到維基文庫,等於分別跟zh.wikisource要文字、跟commons要圖、跟未來的wikids要缺字圖,因為是分開的,所以這樣效率好,而不是還要等zh.wikisource後台再去讀wikids自身的cache

#wikipedia-zh, [16.11.16 18:54]

<Antigng> 错了,所有的图片都是问upload.wikimedia.org要

正一 張, [16.11.16 18:54]

更正,應該是讀zh.wikisource自身來自wikids自身的cache

正一 張, [16.11.16 18:55]

[In reply to #wikipedia-zh]

那是另外一個server

#wikipedia-zh, [16.11.16 18:55]

<Antigng> 不管你的图片是用户上传的,还是Math插件或Score插件上传的

正一 張, [16.11.16 18:58]

[In reply to #wikipedia-zh]

Math插件是純粹的一個插件。但是這個解決方案已經是一個插件mediawiki插件與專門server。 你說的是要把專門server產出的圖檔再匯出給common.wikimedia.org 。如果這個server的效率、安全性都沒有問題,這不是多做了一次?

正一 張, [16.11.16 18:58]

而且這個server就在將來的wmf雲端裡面

#wikipedia-zh, [16.11.16 19:00]

<Antigng> 不是多做了一次。因为做很多事情都要尽可能利用现有的功能。

#wikipedia-zh, [16.11.16 19:01]

<Antigng> 我举个例子,比如mediawiki系统对提交编辑的速率有限制。

#wikipedia-zh, [16.11.16 19:02]

<Antigng> 如果所有的图片都是应mediawiki系统的请求生成,那么你们那个后台服务器遭受ddos的概率就小。

則文 王, [16.11.16 19:03]

既然是WMF工程團隊同意的做法,不用管這個方法到底被不被允許了吧?就算這是獨特的做法,也未嘗不可能是未來新的插件可以仿效的模式。到時候這個功能本身就變成「現有功能」了。

#wikipedia-zh, [16.11.16 19:03]

<Antigng> 如果任何用户都可以直接请求你们那个后台服务器生成组建后文字的图片,那么则反之。

#wikipedia-zh, [16.11.16 19:04]

<Antigng> mediawiki不是给wmf一家用的,还要考虑到其他的用户。

正一 張, [16.11.16 19:06]

[In reply to #wikipedia-zh]

首先,這是另外一個server他不是在網頁伺服器架構下的。關於ddos

正一 張, [16.11.16 19:07]

不用擔心到太遠。 此外,因為這本來就是mediawiki無法提供的功能。如果我們目前不用這個方案,我們改用之前討論到的另外一個KAGE引擎的方案,我們還會有一樣的情況。

#wikipedia-zh, [16.11.16 19:08]

<Antigng> 为什么会有类似的情况呢?

#wikipedia-zh, [16.11.16 19:09]

<Antigng> 问题不在上游,而在你们写的这个mediawiki插件功能太简单

正一 張, [16.11.16 19:10]

[In reply to #wikipedia-zh]

可是基金會工程師review過了。

#wikipedia-zh, [16.11.16 19:11]

<Antigng> 难道啥意见都没提?难道wmf工程师允许你们把后台服务器地址写死在代码文件里?那么他应该下岗。

正一 張, [16.11.16 19:12]

安全問題在組字server端,那邊證明沒問題就OK 後台服務改在localsetting設定即可

正一 張, [16.11.16 19:14]

而如果你擔心的是組字server被暴露的話怎麼辦? 現在的作法就是組字server就是公開的。他夠安全、效能好就不用擔心。

則文 王, [16.11.16 19:14]

現在跟非WMF管理的伺服器要東西,應該是暫時性的做法 (為了至少能看到圖)?

正一 張, [16.11.16 19:15]

[In reply to 則文 王]

現在其實還是跟wmf管理的伺服器要東西,現在是跟wmf的「實驗伺服器」要東西

則文 王, [16.11.16 19:17]

現在的組字後台也已經進到實驗伺服器了?

正一 張, [16.11.16 19:17]

[In reply to 則文 王]

你lag好久了 >_<

則文 王, [16.11.16 19:18]

下回我還是去一下萌典松現場好了 XD

#wikipedia-zh, [16.11.16 19:20]

<Antigng> @MGdesigner 不是这么一回事。wmf的服务器不应该服务于非wmf的用途。

則文 王, [16.11.16 19:21]

[In reply to #wikipedia-zh]

https://phabricator.wikimedia.org/T137786 你可以考慮一下去這上面反應好了

正一 張, [16.11.16 19:22]

這邊說明一下,ids 的測試wiki站是這個 http://ids-testing.wmflabs.org/ 組字伺服器是在另外一台機器 https://tools.wmflabs.org/idsgen/ ,其實實體在兩個不同機器上(wikilab跟 toolab) 在 ids-testing.wmflabs 裡面的ids示範字可以看到類似這樣的原碼 https://tools.wmflabs.org/idsgen/%E2%BF%B2%E5%9B%A7rz.png?字體=宋體

#wikipedia-zh, [16.11.16 19:22]

<Antigng> 之前parsoid服务也是公开的,现在也不再公开了。

正一 張, [16.11.16 19:25]

[In reply to #wikipedia-zh]

wmf的服務器當然要服務wmf的計畫,我想你想要的是它一定要是mediawiki+php+mysql+apache。問題是不一定是要這樣吧....不能因為他是java servlet+ java 應用程式伺服器然後有自己的資料處理方式就非得用 mediawiki+php+mysql+apache轉包吧?

#wikipedia-zh, [16.11.16 19:27]

<Antigng> 我不是这个意思。我的意思是现在你们这样做,那么别的网站也可以利用wmf的服务器提供ids服务。

正一 張, [16.11.16 19:30]

[In reply to #wikipedia-zh]

對,就像 upload.wikimedia.org的圖也可以被外界使用,例如 https://upload.wikimedia.org/wikipedia/commons/thumb/4/4f/Gymnocephalus_cernuus_P%C3%A4rnu_River_Estonia_2010-01-06.jpg/1199px-Gymnocephalus_cernuus_P%C3%A4rnu_River_Estonia_2010-01-06.jpg

正一 張, [16.11.16 19:30]

可以被telegram的web端存取到

正一 張, [16.11.16 19:32]

但是不會因為 uploads.wikimedia.org的圖可以無差別的被任何網站、網路服務讀取到,就損壞了uploads.wikimedia.org的價值

則文 王, [16.11.16 19:33]

往回爬了爬,也許…可能…覺得對外存取只集中透過uploads?

#wikipedia-zh, [16.11.16 19:34]

<Antigng> 两者不一样。外界可以访问和维基媒体计划有关、已存在的图,和外界可以利用wmf服务器来生成和维基媒体计划没关系、要额外消耗wmf服务器存储资源的图还是两回事。

則文 王, [16.11.16 19:34]

因為像數學公式的舉例就是生成的圖還是透過uploads這邊抓?反正這個公開了乾脆只讓這個公開?

正一 張, [16.11.16 19:34]

[In reply to 則文 王]

那個協會的工程師都有辦法處理。 也許是兩個不同的server可是你使用時,其實還是同一個網址

正一 張, [16.11.16 19:35]

[In reply to 正一 張]

整合起來,也許變成 upload.wikimedia.org/ids/..........

正一 張, [16.11.16 19:36]

url 叫做什麼,只是外表的事情。

正一 張, [16.11.16 19:37]

更正,是基金會的工程師

正一 張, [16.11.16 19:39]

我說回來「外表」是怎樣,老實說都可能,那要看基金會工程組的作法。但是骨子裡,這個組字server確實不是走php的體系的。

#wikipedia-zh, [16.11.16 19:40]

<Antigng> 没说一定要用php来写东西啊

#wikipedia-zh, [16.11.16 19:41]

<Antigng> ve就不用php解析wikitext

正一 張, [16.11.16 19:42]

[In reply to #wikipedia-zh]

所以,你希望的應該是網址最終歸於 upload.wikimedia.org底下,其實就是基金會那邊設好domain name,定址好即可

#wikipedia-zh, [16.11.16 19:42]

<Antigng> 但是他也没让自己的解析服务器暴露在外面

正一 張, [16.11.16 19:44]

[In reply to #wikipedia-zh]

upload.wikimedia.org就是暴露在外啊,維基百科首頁的原始碼就可以看到這樣的東西  //upload.wikimedia.org/wikipedia/commons/thumb/3/34/Tiksi.jpg/160px-Tiksi.jpg   安全性沒問題的話,又不用擔心這件事

#wikipedia-zh, [16.11.16 19:44]

<Antigng> 我的意思不在于应该归属于哪个域名下面

#wikipedia-zh, [16.11.16 19:45]

<Antigng> 而是那个服务器不应该应外界的要求产生图片

正一 張, [16.11.16 19:46]

[In reply to #wikipedia-zh]

可是upload.wikimedia.org已經在應外界的要求產生圖片

#wikipedia-zh, [16.11.16 19:46]

<Antigng> @MGdesigner upload.wikimedia.org除了产生缩略图以外,不会应其他用户的要求产生math或score的图片

正一 張, [16.11.16 19:46]

我現在是用web端的 telegram,就在這個web服務裡面,這個圖片被載入了

則文 王, [16.11.16 19:47]

(再次整理) 意思可能是希望非WMF的伺服器只能讀到「已經被WMF的計劃需求而造出的字」,但不准他們藉此讀到「他們自己想要產生,但在WMF各計畫中還沒要求過的字」

#wikipedia-zh, [16.11.16 19:47]

<Antigng> 产生新图片不等于给出现有的图片

#wikipedia-zh, [16.11.16 19:49]

<Antigng> 我前面说ddos也是这个事情。如果允许其他网站访问wmf的这个服务。如果其他网站被攻击(比如强制其他用户跳转到这个网站)

#wikipedia-zh, [16.11.16 19:49]

<Antigng> 那么wmf不是跟着遭殃了

正一 張, [16.11.16 19:50]

https://upload.wikimedia.org/wikipedia/commons/4/4f/Gymnocephalus_cernuus_P%C3%A4rnu_River_Estonia_2010-01-06.jpg

正一 張, [16.11.16 19:50]

都可以直接拜訪喔

#wikipedia-zh, [16.11.16 19:51]

<Antigng> 这图片是其他用户上传到commons区的啊。

#wikipedia-zh, [16.11.16 19:51]

<Antigng> 不是应非wmf计划的其他用户要求造出来的

正一 張, [16.11.16 19:52]

[In reply to #wikipedia-zh]

我覺得這已經杞人憂天。 那某一個網站鍊結了 https://upload.wikimedia.org/wikipedia/commons/4/4f/Gymnocephalus_cernuus_P%C3%A4rnu_River_Estonia_2010-01-06.jpg 我們就會擔心那個網站被dds了,連帶的 upload.wikimedia.org也會被搞倒?

正一 張, [16.11.16 19:53]

更正被 dos

#wikipedia-zh, [16.11.16 19:53]

<Antigng> 被缓存的图片和一个声称不需要缓存,每次都依赖服务器生成图片的服务,是一回事吗?

則文 王, [16.11.16 19:54]

[In reply to 正一 張]

他的意思我有解釋在上頭了啦,就是如果因為維基計畫需要而組出的字,被其他人直接讀到可以;但如果是我自己網站上要畫一個字,跟WMF無關,會希望我的網站不能因為這個插件,直接跟wiki ids server要到一個本來還沒有被造出的圖。

正一 張, [16.11.16 19:54]

[In reply to #wikipedia-zh]

不是說有 proxy了嗎?

#wikipedia-zh, [16.11.16 19:55]

<Antigng> proxy没有用啊,不缓存。

正一 張, [16.11.16 19:55]

proxy有用啊

#wikipedia-zh, [16.11.16 19:57]

<Antigng> 你这边造新字,那边缓存有什么用啊?

正一 張, [16.11.16 19:58]

[In reply to 則文 王]

另外這個給server下黑白名單即可

則文 王, [16.11.16 19:58]

做個假設

如果我的網站被hack,寫了一篇無意義的文章,裡頭第一個字是unicode上編碼第一個字符跟編碼第二號的符組字、然後第二個字是編碼第一個字符跟編碼跟第三號組字、第三個字是編碼第一個字符跟編碼跟第四號組字……把所有2x2的組字組合都玩一遍。

則文 王, [16.11.16 19:58]

大概antigng擔心的是這個

則文 王, [16.11.16 19:59]

這篇文章跑去直接跟wiki ids 討圖會爆沒錯…但我覺得這好像也是用個白名單就解決,沒有把插件碼弄複雜的必要性?

#wikipedia-zh, [16.11.16 20:00]

<Antigng> 白名单没有用。因为都是浏览器在透过proxy直接访问这个服务。

#wikipedia-zh, [16.11.16 20:01]

<Antigng> 基于IP地址的白名单。

正一 張, [16.11.16 20:03]

[In reply to #wikipedia-zh]

proxy會對網頁存cache,包含向這樣的「網頁」 https://tools.wmflabs.org/idsgen/%E2%BF%B0%E9%9B%BB%E5%BF%83.png?%E5%AD%97%E9%AB%94=%E5%AE%8B%E9%AB%94

#wikipedia-zh, [16.11.16 20:05]

<Antigng> 但是如果之前都没有用户使用这字,缓存会直接pass

則文 王, [16.11.16 20:05]

如果在一個非WMF管控的wiki上裝了這個插件,是否能要到這個後台來組字?

正一 張, [16.11.16 20:05]

如果越常用的,proxy的cache會存活越久

#wikipedia-zh, [16.11.16 20:06]

<Antigng> 还有更简单的,同一个字,把?字體= 后面改一改,都没有缓存

正一 張, [16.11.16 20:09]

[In reply to 則文 王]

將來正式的插件應該是沒有辦法,就算現在extension都不改,只會連到一個已經沒有在服務的tools.wmflabs.org/idsgen server

則文 王, [16.11.16 20:10]

[In reply to 正一 張]

但如果我去看正式插件的原始代碼,把伺服器位址也做相應改動呢?

正一 張, [16.11.16 20:13]

[In reply to #wikipedia-zh]

那還蠻辛苦的,此外在server code review發現這會有問題的話,就那時向上游發patch,可是就算花了這麼大的代價(不是apache,而是 java servlet更難dos),把它打倒了(作不完的苦工?),也不過就是暫時缺字無法顯示。花了大的成本攻打他,結果沒有癱瘓整個網站,這是沒有效益的事情

正一 張, [16.11.16 20:14]

[In reply to 則文 王]

其實這就好向你要地圖的服務從 google maps轉向 openstreetmaps之類類似的事情。這個就看server的承載能力,應付壓力的能力

#wikipedia-zh, [16.11.16 20:16]

<Antigng> google多少钱、多少台服务器,能给全世界提供公开的地图服务。wmf做得到吗?

Liang-chih Shang Kuan, [16.11.16 20:17]

所以 @Antigng 的意思,是要把上面這張架構圖,裡面的 IDS 描繪引擎直接丟給瀏覽器的部分給停止?

#wikipedia-zh, [16.11.16 20:18]

<Antigng> 对。

正一 張, [16.11.16 20:19]

[In reply to #wikipedia-zh]

這個不要問我,我不知道。這個是wmf對這個方案自己的評估。 openstretmap比起google 也沒有多厲害啊

#wikipedia-zh, [16.11.16 20:19]

<Antigng> 只允许运行mediawiki的服务器访问ids服务器,然后把图片放到存储集群,再将存储集群的图片链接交给用户。

士涵 林, [16.11.16 20:19]

Server架構相關請找WMF

則文 王, [16.11.16 20:20]

IDS只回丟給WMF的頁面,讓browser這邊無法直接解析到IDS的原始位址,不能直接改網址就直接要到新字

正一 張, [16.11.16 20:24]

[In reply to 則文 王]

現在基金會工程組在view的不是這個作法。

而要改這樣作,還要再有額外的運算成本跟儲存成本。我覺得是基金會工程組覺得要改再說

#wikipedia-zh, [16.11.16 20:25]

<Antigng> 在wmf,运算成本>>存储成本

則文 王, [16.11.16 20:27]

我們現在很難猜測他們當初沒提這點的原因,也許真的去phabricator溝通才會有答案

翔泰 簡, [16.11.16 20:39]

ids 雖然是組出新字,但是組出新字的頻率有沒有那麼大?如果沒有,那麼要求量會造成 DDoS 的可能性就可以不用考慮

翔泰 簡, [16.11.16 20:40]

說真的,如果有人真的文章或網站所有字都用 ids 來產生,會用到的資源是不是真的會很多,還是會有疑問的

#wikipedia-zh, [16.11.16 20:42]

<Antigng> 上游那个汉字组建有经过压力测试吗?

則文 王, [16.11.16 20:44]

假如我想DDoS,也許可以發動數千台電腦,然後每台電腦用八個unicode符號去組一個字,用程式不斷自動更換排列組合…

但,阻斷的結果會導致WMF的服務下線,或者只是導致WMF上組出來的字看不到圖片?

翔泰 簡, [16.11.16 20:46]

[In reply to 則文 王]

有必要用僵屍大軍來做這種測試嗎?

則文 王, [16.11.16 20:46]

如果只有造成後者的效果,的確不太可能發生,這比上街搶五元還沒有用 XD

zhao shi, [16.11.16 20:48]

我觉得这个事情实作起来,wmf那边肯定会考虑到的

翔泰 簡, [16.11.16 20:48]

現在基金會那邊工程組還在評估的階段,我想這問題他們也會評估進去

正一 張, [16.11.16 20:49]

[In reply to 則文 王]

理論上就是造成WMF上組出來的字遲遲看不到圖片。但是其他服務正常。

#wikipedia-zh, [16.11.16 20:49]

<Antigng> 之前问了个问题还没回答,有没有人测试过汉字组建的性能?

翔泰 簡, [16.11.16 20:50]

[In reply to 正一 張]

是,server 是各自獨立提供服務的

翔泰 簡, [16.11.16 20:50]

這種情況下被影響的應該只有 ids 自己的 server

翔泰 簡, [16.11.16 20:51]

WMF 那邊應付 DDoS 已經很有經驗了,我想我們也不用太瞎操心

#wikipedia-zh, [16.11.16 20:53]

<Antigng> wmf有70台跑mediawiki的服务器。然而弄这么多汉字组建服务器是不现实的。

#wikipedia-zh, [16.11.16 20:54]

<Antigng> 70台服务index.php,50台服务api.php

翔泰 簡, [16.11.16 20:54]

漢字組件服務器不用那麼多台

則文 王, [16.11.16 20:55]

現在有種窮人家在討論要不要裝紅外線感應防盜系統的感覺了

翔泰 簡, [16.11.16 20:56]

每台 MediaWiki 服務器上的 ids extension 只是外掛,呼叫漢字組件服務器去組字,不是每一台 MediaWiki 服務器各自去組字

翔泰 簡, [16.11.16 20:57]

您要先瞭解 MediaWiki 服務器的處理程序啊

#wikipedia-zh, [16.11.16 20:59]

<Antigng> 服务器资源少就更需要考虑被攻击的问题。另外现在的插件不是让跑mediawiki的服务器访问组字服务器,而是让浏览器直接访问。

則文 王, [16.11.16 21:01]

其實現在大家有在考慮攻擊問題,但除了技術上的能被攻擊,也要考慮經濟上的到底有沒有人想要攻擊

Liang-chih Shang Kuan, [16.11.16 21:02]

感覺基金會也是被攻擊了才開始處理,像是最近的二階段認證⋯⋯

則文 王, [16.11.16 21:03]

一個人打爆wikipedia是可以成名的,一個人打爆wikids……說不定五天後才被發現 orz

zhao shi, [16.11.16 21:42]

https://tools.wmflabs.org/idsgen/%E2%BF%BA%E8%BE%B6%E2%BF%B1%E2%BF%B1%E7%A9%B4%E2%BF%B0%E6%9C%88%E2%BF%B0%E2%BF%B1%EF%95%9F%E2%BF%B2%E9%95%B7%E9%A6%AC%E9%95%B7%E5%88%82%E5%BF%83.png?%E5%AD%97%E9%AB%94=%E6%A5%B7%E9%AB%94

zhao shi, [16.11.16 21:43]

类似这种url,字體=楷體是否改成英文表示好一些?

正一 張, [16.11.16 21:54]

[In reply to zhao shi]

關於這個,我們可以跟上游下request去改,或者wmf server要佈署時,自行改程式變成英文。實際上,這個技術用在埃及、瑪雅古文字的拼合時,就不是只有漢字使用者在用了,確實要考慮這件事

zhao shi, [16.11.16 21:55]

http://ids-testing.wmflabs.org/wiki/沙箱

zhao shi, [16.11.16 21:55]

是不是坏了?

zhao shi, [16.11.16 21:56]

[In reply to 正一 張]

组字组不了了

則文 王, [16.11.16 21:57]

被ddos了 (X)

正一 張, [16.11.16 21:58]

[In reply to zhao shi]

我去看看

zhao shi, [16.11.16 21:59]

就刚才还好的时候说一下,组出来的字太模糊 http://ids-testing.wmflabs.org/wiki/%E8%B6%85%E6%BD%AE%E6%96%B0%E5%AD%97%E5%AD%97%E5%85%B8

zhao shi, [16.11.16 21:59]

完全看不清楚

zhao shi, [16.11.16 22:00]

其他的还没测....

zhao shi, [16.11.16 22:04]

我先说一下我的想法吧,也不知道对不对

zhao shi, [16.11.16 22:04]

组字技术为何不用webfont的方式实现,而是采用生成图片的方式?

zhao shi, [16.11.16 22:05]

例如 http://glyphwiki.org/wiki/GlyphWiki:%e9%ab%98%e5%ba%a6%e3%81%aa%e6%b4%bb%e7%94%a8%e6%96%b9%e6%b3%95

zhao shi, [16.11.16 22:05]

GlyphWiki提供的webfont脚本

zhao shi, [16.11.16 22:07]

我之前在中文维基百科上用它做了一个js,效果还可以,只是后来强制https后,glyphwiki因为没有https,造成了js失效了

正一 張, [16.11.16 22:08]

[In reply to zhao shi]

現在好了

zhao shi, [16.11.16 22:09]

基本上不管哪种技术,我们要解决的问题有两个:一是未收录汉字问题,二是已收录汉字但大多设备都暂时不支持的问题

zhao shi, [16.11.16 22:09]

动态组字在第一个问题上很不错

zhao shi, [16.11.16 22:10]

但是在第二个问题上,用目前的组字方式是否会有一些问题?

#wikipedia-zh, [16.11.16 22:10]

<Antigng> 想到一个不好的事情,有人用这个拼汉字绕过滤器

zhao shi, [16.11.16 22:10]

(或者组字技术只考虑的是第一个问题?)

則文 王, [16.11.16 22:10]

有webfont的組字範例嗎?因為我點進那個網頁沒看到用組的文字

zhao shi, [16.11.16 22:12]

[In reply to 則文 王]

我不知道哪里有范例,wikipedia上的失效了

正一 張, [16.11.16 22:12]

[In reply to zhao shi]

第二個問題的邏輯是, 可以用這樣的方式來取用 https://tools.wmflabs.org/idsgen/寶.png?字體=宋體 也就是沒有利用組字引擎組字的功能,而是利用這個server上的字型檔上的收的unicode的字比較多(將來可以再加裝),來作

正一 張, [16.11.16 22:13]

這個case是假設「寶」是大部分電腦設備還沒有字型的狀況

zhao shi, [16.11.16 22:15]

[In reply to zhao shi]

因为第二个问题是字其实在,只是不能显示,webfont的话,造出这个字的font来,然后调用就能显示,也不妨碍复制粘贴等各种文字上的操作,因为编码在,只是显示不显示这个字的问题,如果是目前的组字的话,用ids组出来的字是图片,无法像文字一样复制粘贴等操作

則文 王, [16.11.16 22:15]

[In reply to #wikipedia-zh]

這個有被討論過。是說我們好像需要做個FAQ頁。

zhao shi, [16.11.16 22:16]

[In reply to 則文 王]

这个不是组字本身的问题

Liang-chih Shang Kuan, [16.11.16 22:16]

[In reply to 則文 王]

要做faq的話直接放在community wishlist survey或phabricator上吧

則文 王, [16.11.16 22:17]

[In reply to Liang-chih Shang Kuan]

做在meta的頁面上?wish list應該不是這樣用的XD

則文 王, [16.11.16 22:17]

[In reply to #wikipedia-zh]

做FAQ是說像這種很多人提起的問題我們不用重覆回答啦

zhao shi, [16.11.16 22:17]

刚才试了一下,选择复制的话,一是文字图片夹杂在一起,点选很不方便,二是复制出来的是ids,而不是该字

zhao shi, [16.11.16 22:18]

所以能否还是用组字技术,但通过webfont实现,而不是用图片呢?

正一 張, [16.11.16 22:19]

[In reply to zhao shi]

關於複製貼上,還是可以,但是電腦設備的字型檔還不支援到這個unicode字碼的,他複製貼上到自己電腦的編輯器上,就會還原成一個unicode的方塊代碼

zhao shi, [16.11.16 22:20]

[In reply to 正一 張]

这个没关系啊。将来设备上有这个字的字型,或者找到有这个字的字型的字体,就能显示了啊

zhao shi, [16.11.16 22:22]

如果是目前的ids方式,除非装了这个插件,否则还是显示不了啊

zhao shi, [16.11.16 22:24]

而这个插件又不是通吃所有的操作系统、软件、网站啊

正一 張, [16.11.16 22:24]

[In reply to zhao shi]

我做了一個範例: 在沙箱裡面的第二行:「如果用ids標籤測試顯示非ids漢字:?? 」 http://ids-testing.wmflabs.org/wiki/%E6%B2%99%E7%AE%B1

則文 王, [16.11.16 22:24]

我詳細講時昭的考慮。

用webfont,就是你雖然在這台電腦上只能用瀏覽器看到這個字,用別的軟體時看不到,但假如copy / paste 到word裡(在現在用的電腦看不到字),然後存檔寄給自己,回家用另一台電腦就看到了。如果用組字符,就是回家打開word檔仍看到組字符。

zhao shi, [16.11.16 22:25]

[In reply to 則文 王]

对,就是这个意思

正一 張, [16.11.16 22:26]

[In reply to 正一 張]

這個狀況的話,整行copy出去以後, 「??」就變成一般的unicode碼,是可以把ids組字當作一種webfont的替代品

zhao shi, [16.11.16 22:26]

[In reply to 正一 張]

打开好慢

則文 王, [16.11.16 22:27]

我們的測試頁有一個例子「話 vs ⿰言舌」如果讀到「 ⿰言舌」會轉成「話」而不是一張圖的呈現,copy/paste會比較方便,大概是這樣。

則文 王, [16.11.16 22:28]

用ids標籤測試顯示非ids漢字:??

則文 王, [16.11.16 22:29]

?? 顯示是連到 https://tools.wmflabs.org/idsgen/%F0%A2%A6%8F.png?%E5%AD%97%E9%AB%94=%E5%AE%8B%E9%AB%94 所以如果不用組字而是用單一符號,但調用IDS,是可以copy/paste並保持原字的

則文 王, [16.11.16 22:30]

不過如果使用者不直接打出這個字,而用 ⿱ 十戈 就不行了

zhao shi, [16.11.16 22:30]

http://ids-testing.wmflabs.org/wiki/Test

zhao shi, [16.11.16 22:31]

第一行

zhao shi, [16.11.16 22:31]

复制出来是⿱龙天

zhao shi, [16.11.16 22:31]

而不是䶮

zhao shi, [16.11.16 22:32]

[In reply to 則文 王]

我要说的就是这种

zhao shi, [16.11.16 22:32]

https://zh.wikipedia.org/wiki/Category:%E4%BD%BF%E7%94%A8Unicode%E6%89%A9%E5%B1%95%E6%B1%89%E5%AD%97%E7%9A%84%E6%9D%A1%E7%9B%AE

zhao shi, [16.11.16 22:32]

也就是这些条目中的Unicode扩展用字

zhao shi, [16.11.16 22:33]

而且ids用图片显示,png的效果非常差,不知道svg是否好一点?

則文 王, [16.11.16 22:34]

我記得組字結果若跟unicode重覆,可以辨認出來並轉成unicode輸出的功能有被討論過,但這是要去改組字server的程式

zhao shi, [16.11.16 22:35]

是的。一是unicode已有的字,复制粘贴时应该把组出的字当作文字来处理,而不是图片或ids

zhao shi, [16.11.16 22:37]

二是希望显示的字更清楚,尽量接近于文字的清晰度

正一 張, [16.11.16 22:38]

[In reply to zhao shi]

我好像知道你的意思了,有時候我們不知道一個缺字是不是真的unicode沒有這個字,就直接用ids組了。但是可能其實已經有這個字了,只是我們不知道。

這個可以在extension或者server端實作改良這件事。

則文 王, [16.11.16 22:38]

718

則文 王, [16.11.16 22:39]

我找到一個稍稍可以替代FAQ的東西 XD

正一 張, [16.11.16 22:39]

[In reply to zhao shi]

這個就是extensio改呼叫server 產生svg而非png

zhao shi, [16.11.16 22:39]

[In reply to 正一 張]

对。一是缺字问题,二是有字但没有字型可用问题

則文 王, [16.11.16 22:39]

關於圖片美感的問題這裡就有討論到

則文 王, [16.11.16 22:39]

「先求顯示既有unicode無解缺字,再求美」

zhao shi, [16.11.16 22:41]

我觉得缺字和有字不能显示,两个问题都很重要

則文 王, [16.11.16 22:42]

畢竟這個案子本身要先解決我們wikisource專案的書全文上線的事情

則文 王, [16.11.16 22:42]

所以重要度會是這樣排的 XD

zhao shi, [16.11.16 22:42]

好吧:emoji_1f648: 

則文 王, [16.11.16 22:43]

但我們沒有做出我們要的圖就收工,主要也是讓東西有機會一直一直改善啦

zhao shi, [16.11.16 22:43]

我想解决的是不管是不是缺字,任何字都能在wiki上显示出来

則文 王, [16.11.16 22:44]

如果都要做好才能掛上去,這樣就太多事情卡住了

正一 張, [16.11.16 22:44]

[In reply to zhao shi]

有字不能显示,的確是組字server可以兼作。但是我認為,他是真的沒有其他方案時才兼。兼的話就是能顯示了,美觀的問題也是漸次慢慢來改良,先求有再求好

我現在來後台改個東西,改成 extension改用svg試看看,稍等我一下

則文 王, [16.11.16 22:45]

其實現況已經接近任何字都能顯示了,只是跟既有unicode重疊的在轉移上不太對,還有不漂亮。

zhao shi, [16.11.16 22:46]

[In reply to 正一 張]

美观问题的确较为次要,但尽量还是在现有条件下做的好看一点

#wikipedia-zh, [16.11.16 22:47]

<Antigng> github挂了?

zhao shi, [16.11.16 22:48]

另外,能不能做到用鼠标复制的时候,在组字上复制不会出现复制图像等选项,而是想选文字一样?

zhao shi, [16.11.16 22:49]

[In reply to #wikipedia-zh]

woc,真挂了

正一 張, [16.11.16 22:49]

[In reply to zhao shi]

改好了,現在是svg了。

則文 王, [16.11.16 22:50]

[In reply to zhao shi]

這個是要插件動態讀鍵鼠的動作耶,感覺是真的不可能了(或者也是另寫別的東西來解決,不是放這個插件裡)

zhao shi, [16.11.16 22:50]

[In reply to 正一 張]

赞!清楚多了

zhao shi, [16.11.16 22:51]

既然能svg了,是不是也就能webfont了?

zhao shi, [16.11.16 22:51]

(理论上

zhao shi, [16.11.16 22:52]

[In reply to 則文 王]

我知道的就是webfont可以解决:emoji_1f648: 

正一 張, [16.11.16 22:52]

[In reply to zhao shi]

我發現也有差耶。跟png的差別算是傳輸資料量大小。理論上這個可以能變成在一種webfont的「框架」下。

則文 王, [16.11.16 22:52]

webfont 問題應該是「如何判斷這個字是否已有unicode」

zhao shi, [16.11.16 22:53]

[In reply to 則文 王]

判断交给后台吧,后台把组字转成webfont交给前台

正一 張, [16.11.16 22:54]

應該說他有webfont之實,但是還沒有webfont的框架(要偽裝一個字型檔?)

zhao shi, [16.11.16 22:54]

我不太了解svg字体和svg图片的差异...

則文 王, [16.11.16 22:55]

剛才有說這是後台做,當然;但後台要做出這個是大工程。畢竟一個字可以有多種組法,怎麼判斷出來…總不能做字典檔暴力求解

zhao shi, [16.11.16 22:56]

[In reply to zhao shi]

另外,考虑浏览器兼容性,可能还要同时转成多种字体格式

zhao shi, [16.11.16 22:56]

[In reply to 則文 王]

那之前说的判断unicode和这个有什么不一样么?

則文 王, [16.11.16 22:57]

[In reply to zhao shi]

沒有不一樣,就是…還不急,以後慢慢寫。

zhao shi, [16.11.16 22:57]

[In reply to 則文 王]

:emoji_1f602: 

正一 張, [16.11.16 22:57]

[In reply to zhao shi]

你是說「SVG字型檔」嗎?

zhao shi, [16.11.16 22:57]

[In reply to 正一 張]

正一 張, [16.11.16 22:58]

[In reply to zhao shi]

我翻一下svg font 的spec看看

zhao shi, [16.11.16 23:00]

总之,能解决文字就是文字,而不是图片的问题,就善莫大焉了

正一 張, [16.11.16 23:06]

[In reply to 正一 張]

我看了w3c對svg font的定義,svg font算是特殊的svg圖。

zhao shi, [16.11.16 23:07]

https://meta.wikimedia.org/wiki/SVG_fonts

zhao shi, [16.11.16 23:07]

这里有一个wmf服务器上安装的svg字体包的名单

正一 張, [16.11.16 23:08]

如果可以做成svg font的型態的話,就變成好像一般文字字體可以加粗、加底線、可以被css裡面,當成一般文字做呈像的處理,我想這會是未來的

正一 張, [16.11.16 23:09]

一個方向

zhao shi, [16.11.16 23:09]

[In reply to 正一 張]

哈,刚测试了一下,发现这些都不能实现啊...

zhao shi, [16.11.16 23:11]

也没法在上面使用wikicode

正一 張, [16.11.16 23:12]

[In reply to zhao shi]

應該是有可能,但會需要java層次的技術實作。其實這真的是另外一個更深的課題

zhao shi, [16.11.16 23:13]

嗯,晚上测试下来,感觉目前还是限制颇多啊

和平奮鬥 救地球, [16.11.16 23:14]

今天都是一些看不懂的話題XD

zhao shi, [16.11.16 23:16]

[In reply to 和平奮鬥 救地球]

那也是可以测试啊

正一 張, [16.11.16 23:17]

[In reply to zhao shi]

我認為,在救急的應用,IDS動態組字借用來作勉強可用的webfont是可以的。

他變成一個完整的webfont方案,是需要更多的能量去推動。用現有的webfont會比較好,然後ids組字就純粹解決缺字

zhao shi, [16.11.16 23:19]

[In reply to 正一 張]

目前wiki没有可以支持中文webfont的技术...

正一 張, [16.11.16 23:21]

[In reply to zhao shi]

請問其他語種的wiki已經可以使用了嗎?是只有中文wiki才如此嗎?我剛才看svg font的條目,上面也有看到中文svg font,是裝了,但是不能使用嗎?

zhao shi, [16.11.16 23:21]

现在服务器上的中文字体是用来支持其他的一些扩展的,例如graph之类,但很奇怪一直不可用,wmf那边弄了好久都没搞定,不知为什么

正一 張, [16.11.16 23:21]

原來如此@@

正一 張, [16.11.16 23:25]

[In reply to zhao shi]

會不會wmf的其他語種wiki有類似狀況?

zhao shi, [16.11.16 23:26]

[In reply to 正一 張]

好像东亚语言普遍这样,装了字体,但不工作

正一 張, [16.11.16 23:26]

如果是歐語系呢?

zhao shi, [16.11.16 23:27]

[In reply to 正一 張]

这个似乎没问题

正一 張, [16.11.16 23:27]

我大概知道為什麼了....

zhao shi, [16.11.16 23:30]

https://phabricator.wikimedia.org/T22825

正一 張, [16.11.16 23:31]

我剛才更深入研究以後發現....svg font的原理,可以想成一個很大的svg圖檔,裡面標好很多的「字形」。 然後要顯示svg font是要透過client端,也就是你的網頁跟svg字型檔同時下載下來,到使用者的電腦上,然後瀏覽器才能呈現出來。歐語系的沒問題,是因為他們只有26個字母,檔案小,當然漢字就不是如此

正一 張, [16.11.16 23:33]

我看了這個網頁與他的實作範例 http://blogger.gtwang.org/2014/01/web-font-css-font-face.html 如果是漢字wiki站要用這個,必須額外有另外一個程式,去計算這個條目網頁要用到哪些中文「字形」(例如說1000個),然後臨時產生出一個只有這個頁面使用到的svg字型檔,給用戶端下載下來

zhao shi, [16.11.16 23:35]

[In reply to 正一 張]

基本上有这么几种解决办法:1. 一个字一个font,2. 一个大font,客户端通过参数(例如usefont=U+4DAE)传给服务器,服务器在后台拆出一个小font传回来

zhao shi, [16.11.16 23:36]

[In reply to 正一 張]

google的webfont有用到这种技术,但不是针对中文

正一 張, [16.11.16 23:37]

[In reply to zhao shi]

所以這個問題算是 東亞wiki的技術課題有瓶頸?

zhao shi, [16.11.16 23:39]

还有就是目前wiki上所用Unicode扩展汉字页面也就是不到1000,如果做成一个font,不大的话也是可以

正一 張, [16.11.16 23:40]

所以之前的webfont問題算是還沒有走到你說的解決辦法?

順便說「一个字一个font」,聽起來跟目前組字server呈現的結果還蠻像的

zhao shi, [16.11.16 23:41]

[In reply to 正一 張]

这种模式的弊病就是可能会比较费服务器资源

zhao shi, [16.11.16 23:42]

组字模式也一样可能有这个问题

zhao shi, [16.11.16 23:43]

请求数太多的话,负载可能要吃不消

zhao shi, [16.11.16 23:45]

[In reply to 正一 張]

中文webfont的问题就是如何处理font太大和资源消耗的问题

zhao shi, [16.11.16 23:45]

需要找到一个合适的平衡点

zhao shi, [16.11.16 23:48]

还有一种办法就是每次打开一个页面时,把页面上调用组字的地方全部传给服务器,服务器做一个含有该页面的所有组字的webfont回传过来

正一 張, [16.11.16 23:49]

是的,其實在台灣這邊,Mozilla社群有人提過這個想法

zhao shi, [16.11.16 23:51]

能实现就好了:emoji_1f60d: 

正一 張, [16.11.16 23:51]

這是一種可能的作法。不過層級會跟現在的extension實現不同。要hack mediawiki render的程序,這個比較複雜

zhao shi, [16.11.16 23:52]

[In reply to 正一 張]

zhao shi, [16.11.16 23:54]

如果能开发到这个地步,沿袭目前的组字模式,也不错啊

正一 張, [17.11.16 00:00]

我想目前是這樣子:應用han3_ji7_tsoo1_kian3引擎作缺字處理可以。要作為更為完善的web font方案,未來需要培養這方面的技術社群,然後push必要的server改良給上游(一次傳回一堆字形的svg font,而不是現在的單一svg圖檔),然後在mediawiki端能改變render頁面的程序(要掃描需要顯示哪些字,產生臨時字型檔索取的連結),這個我還不知道是否extension可以達成,還是要參與對mediawiki程式碼本身的協作就是了..

zhao shi, [17.11.16 00:03]

[In reply to 正一 張]

??:emoji_1f3fb: 

源環, [17.11.16 00:23]

分兩類,在Unicode中有的字,復製起來就輸出原字,在U中沒有的就輸出組建的各符號。

Mingye Wang, [17.11.16 00:24]

[In reply to zhao shi]

毕竟宋体骨架……

Mingye Wang, [17.11.16 00:24]

细,又缩小了

源環, [17.11.16 00:25]

這樣子的話有裝最新版Unicode的電腦能看到此字,但缺點是沒裝的會看到方塊

Mingye Wang, [17.11.16 00:25]

(其实 svg 缩放可能更好一点)

zhao shi, [17.11.16 00:25]

[In reply to Mingye Wang]

现在test那边已经改成svg了

zhao shi, [17.11.16 00:26]

好了很多

Mingye Wang, [17.11.16 00:26]

我觉得 超潮新字字典 还是在 png

正一 張, [17.11.16 00:26]

[In reply to Mingye Wang]

因為proxy會有 cache,所以你可能讀到的還是png,只要編輯文章,用預覽,就會看到新的svg產生的字圖

zhao shi, [17.11.16 00:27]

[In reply to Mingye Wang]

空编辑一下看看

Mingye Wang, [17.11.16 00:28]

Failure to load image, Chrome 56.

Mingye Wang, [17.11.16 00:28]

Fails*

#wikipedia-zh, [17.11.16 00:29]

<Antigng> 这也表明你的Extension有问题,对action=purge没反应

#wikipedia-zh, [17.11.16 00:30]

<Antigng> action=purge的处理机制最后会有一条发送给缓存服务器的命令要求清除缓存,你这个没有

正一 張, [17.11.16 00:31]

[In reply to #wikipedia-zh]

但是這就是你本來講的cache啊

zhao shi, [17.11.16 00:32]

[In reply to #wikipedia-zh]

action=purge和Extension应该没关系吧

正一 張, [17.11.16 00:32]

[In reply to Mingye Wang]

我剛才開了chrome,確實無法顯示svg出來 @@ firefox才可以

#wikipedia-zh, [17.11.16 00:33]

<Antigng> 不是那么回事。我说的cache有很多意思。比如存在图片存储集群上的数学公式某种意义上也是缓存。

zhao shi, [17.11.16 00:34]

[In reply to 正一 張]

生成的svg格式有问题?

#wikipedia-zh, [17.11.16 00:34]

<Antigng> 当你修改数学公式或刷新条目式,无论存储集群上的图片还是缓存在varnish里的图片都会刷新

正一 張, [17.11.16 00:34]

[In reply to Mingye Wang]

我先註記這個bug

#wikipedia-zh, [17.11.16 00:34]

<Antigng> 条目时

Mingye Wang, [17.11.16 00:34]

[In reply to zhao shi]

應該是回應標頭沒有 Content-Type 吧

zhao shi, [17.11.16 00:35]

[In reply to #wikipedia-zh]

刷新是直接让服务器刷cache吧?不关扩展的事啊

#wikipedia-zh, [17.11.16 00:36]

<Antigng> 但是按照现在的机制刷不到cache啊

zhao shi, [17.11.16 00:37]

刷cache不走扩展啊,扩展看到cache空了,就应该重新生成了

zhao shi, [17.11.16 00:38]

除非是扩展走在了刷cache前面

正一 張, [17.11.16 00:40]

[In reply to Mingye Wang]

我來解看看

正一 張, [17.11.16 05:34]

[In reply to Mingye Wang]

研究完了,這問題不是content-type問題,而是Mozilla系瀏覽器呈現svg圖正常,但部份webkit系瀏覽器尚未支援用img標籤來正確顯示svg圖,目前改成extension後端會退回改用png。

Mingye Wang, [17.11.16 05:40]

[In reply to 正一 張]

https://github.com/bpierre/webkit-svg-fixer

Mingye Wang, [17.11.16 05:40]

要不要试试这个……

Mingye Wang, [17.11.16 05:40]

svg 的好处还是很明显的

Mingye Wang, [17.11.16 05:41]

退回是 onerror?

正一 張, [17.11.16 05:43]

[In reply to Mingye Wang]

對, 然後我也有改用object,但是縮放會不正常。會變成只顯示大圖的一小部份,這個應該是上游產生svg檔時,svg檔裡面的內碼要改

Mingye Wang, [17.11.16 05:43]

然后我还是怀疑 content-type(抱歉),等下我自己找个 rawgit 之类的有正确 type 的地方构建一个例子吧

正一 張, [17.11.16 05:44]

沒關係

正一 張, [17.11.16 05:44]

[In reply to Mingye Wang]

我後來加過content-type了,沒有效果

正一 張, [17.11.16 05:55]

[In reply to Mingye Wang]

我去睡了,我醒來再來研究 https://github.com/bpierre/webkit-svg-fixer

FiveYellowMice.dwg, [17.11.16 08:22]

我也觉得是 content type 的问题,因为我自己用的时候 SVG 放在 img 里面,在 Chrome 和 Safari 上都没有问题。

正一 張, [17.11.16 13:09]

[In reply to FiveYellowMice.dwg]

han3_ji7_tsoo1_kian3上游確認了,等他修了。

正一 張, [17.11.16 13:09]

[In reply to Mingye Wang]

你是對的

Mingye Wang, [17.11.16 13:14]

dwd

Mingye Wang, [17.11.16 13:14]

兔子耳朵。

正一 張, [17.11.16 13:23]

[In reply to Mingye Wang]

厲害 :) 我還以為可以在html裡面解決 XD

Mingye Wang, [17.11.16 14:39]

@MGdesigner 請試試 sih4sing5hong5/han3_ji7_tsoo1_kian3#61

正一 張, [17.11.16 14:41]

[In reply to Mingye Wang]

好,我能控server的時候就來先自行下這個patch。 :)