Move Math Article to Github.io

我寫 blog 目的是把自己讀過或做過的工程,物理,資訊,語言做一些紀錄,間或做一些整理便於之後快速查詢。最近 (2021) 看到蘇劍林似乎很早就在經營科學空間 https://spaces.ac.cn 做的非常好。其中一些文章對我很有幫助。 我也想把之前或之後的紀錄和心得能夠更好的呈現,主要還是為了自己的整理和查詢。當然如果能有助於他人更好。因此找到一個適合呈現 math equation, figure, 並且可以長時間存在的 blog 平台就很重要。 Blogger (Google) 和 WordPress (Open) 對於 math equation 很多問題。 Medium 我沒試過,但我不喜歡付費才能閱讀。最近 (2020) 試了一下 Jekyll (markdown to html) + Next theme + Github.io (Blog platform, now Microsoft) 似乎是不錯的組合。產生的 math equation 最接近我想要的呈現。因此我會把一些文章逐步搬到 Github.io: https://allenlu2009.github.io 特此為誌。

Edge AI: BERT for 分詞

中文自然語言處理的其中一個重要環節就是斷詞的處理。英文字詞基本相同,斷詞非常容易,直接用 space 就可以斷字或斷詞。中文斷詞在先天上就比較難處理,比如電腦要怎麼知道「全台大停電」要斷詞成「全台 / 大 / 停電」或是 「全/台大 / 停電」呢?如果是英文「Power outage all over Taiwan」,就可以直接用空白斷成「Power / outage / all / over / Taiwan」,可見中文斷詞是一個大問題。因為斷詞有歧義的可能如上,所以後面用分詞來替代斷詞。英文也會有姓名,專有名詞,復合名詞需要分詞,不過比起中文分詞還是相對容易。 傳統中文分詞 中文分詞根據實現原理和特點,主要分為以下2個類別: 1、基於詞典分詞算法 也稱字符串匹配分詞算法。該算法是按照一定的策略將待匹配的字符串和一個已建立好的「充分大的」詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞算法分為以下幾種:正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。 基於詞典的分詞算法是應用最廣泛、分詞速度最快的。很長一段時間內研究者都在對基於字符串匹配方法進行優化,比如最大長度設定、字符串存儲和查找方式以及對於詞表的組織結構,比如採用TRIE索引樹、Hash 索引等。 2、基於統計的機器學習算法 這類目前常用的是算法是HMM、CRF (Conditional Random Field)、SVM、深度學習等算法,比如 Stanford、Hanlp 分詞工具是基於 CRF 算法。以 CRF 為例,基本思路是對漢字進行標注訓練,不僅考慮了詞語出現的頻率,還考慮上下文,具備較好的學習能力,因此其對歧義詞和未登錄詞的識別都具有良好的效果。 例如 JIEBA 中文分詞所使用的演算法是基於 TRIE TREE 結構去生成句子中中文字所有可能成詞的情況,然後使用動態規劃(DYNAMIC PROGRAMMING)算法來找出最大機率的路徑,這個路徑就是基於詞頻的最大分詞結果。對於辨識新詞(字典詞庫中不存在的詞)則使用了 HMM 模型及 VITERBI 算法來辨識出來。基本上這樣就可以完成具有分詞功能的程式了。 分詞器的挑戰 目前中文分詞難點主要有三個: 分詞標準:比如人名,在哈工大的標準中姓和名是分開的,但在Hanlp中是合在一起的。這需要根據不同的需求制定不同的分詞標準。這一般不是問題。 歧義:對同一個待切分字符串存在多個分詞結果。歧義又分為組合型歧義、交集型歧義和真歧義三種類型。 組合型歧義:分詞是有不同的粒度的,指某個詞條中的一部分也可以切分為一個獨立的詞條。比如「中華人民共和國」,粗粒度的分詞就是「中華人民共和國」,細粒度的分詞可能是「中華/人民/共和國」 …

NLP #2: Attention: Transformer Model

Why Embedding? dog and cat and bird is different from tree jump Why Attention? to solve the word embedding issue and extent to contextual word embedding. from 臺大李弘毅教授的 video lecture. money bank river bank need context to identify the meaning!! token! How about blood bank, same as bank? or a different meaning? each word token …

跨平臺 (Computing/Cloud) Markdown Editors 經驗分享

我常用的計算平臺包含:MacBook air/pro (Mac OS), PC (Windows 10), and iPad air (iPad OS). 常常使用的 computing platform and offline blog editors 如下: Computing Platform and Editor MacBook air/pro (mobile at work) – Marsedit (paid), mweb (paid) Windows (fixed at home) – WLW (Window Live Writer, free), VScode (free), Typora (free) iPad air (for portability and photo) – …

英文發音和音標

KK, IPA (International Phonetics ..), Respelling Very good reference https://www.lexico.com/grammar/key-to-pronunciation [@lexicoKeyEnglish2019] Pronunciations for US English The pronunciations given represent a general accent of American English, without certain features particular to New England or the southern states of the U.S., and the example words given in this key are to be understood as pronounced in such …

用 Markdown 撰寫工程科學文章

Markdown 是一個輕量級的標記語言,讓你用簡單的方式編輯文件,最後轉換成 HTML 輸出,被廣泛的應用在技術文件撰寫,例如 GitHub、Stack Exchange 都可以看到它的蹤跡。雖然他好棒棒,但是跟傳統的編輯方式相比,各有優缺,假如你想像 Word 一樣編輯文章,那麼建議採用原有的視覺化編輯器。 Markdown 是個網路內容的寫作語言,最主要的目的是讓文章編寫的可讀性提高。傳統使用 HTML 進行超連結、文字大小等設定,必須要用 HTML 標籤包起來,屬性多的時候,原始碼變得很長,維護不易。另外,處理程式碼縮排與空白字元是件令人頭痛的事,儘管有程式碼亮高的套件協助排版,但是使用 WordPress 視覺化編輯器時,句首的空白字元會被吃掉,不得不尋找新的解決方案。對我而言,更重要的是輸入數學公式。很多的 markdown editor 或是 blog 都支持 markdown + latex/katex/mathjax. 在 WordPress 使用 Markdown 的優缺點: 優點 Markdown 結合 Latex/Katex/MathJax 撰寫數學公式 For example, 使用 Mathpix Snip with MathJax: 文章編寫的可讀性提高 解決程式碼縮排、空白符號的問題 未來能無痛移植至 Markdown 平台 很多工具 handle Markdown 轉換(Pandoc, Marked2), bibtex (Zotero), 移植 …

Welcome to MWeb

MWeb is a professional Markdown writing, note taking, and static blog generator app for Mac, iPad, and iPhone. Here are some special features of MWeb. The software Made with supporting native technologies in mind. It is always a perfect integration with the platform. Aiming for modern UI and high performance, also being powerful, easy-to-use, and …

Design a site like this with WordPress.com
Get started