allenlu2019

Move Math Article to Github.io

我寫 blog 目的是把自己讀過或做過的工程，物理，資訊，語言做一些紀錄，間或做一些整理便於之後快速查詢。最近 (2021) 看到蘇劍林似乎很早就在經營科學空間 https://spaces.ac.cn 做的非常好。其中一些文章對我很有幫助。我也想把之前或之後的紀錄和心得能夠更好的呈現，主要還是為了自己的整理和查詢。當然如果能有助於他人更好。因此找到一個適合呈現 math equation, figure, 並且可以長時間存在的 blog 平台就很重要。 Blogger (Google) 和 WordPress (Open) 對於 math equation 很多問題。 Medium 我沒試過，但我不喜歡付費才能閱讀。最近 (2020) 試了一下 Jekyll (markdown to html) + Next theme + Github.io (Blog platform, now Microsoft) 似乎是不錯的組合。產生的 math equation 最接近我想要的呈現。因此我會把一些文章逐步搬到 Github.io: https://allenlu2009.github.io 特此為誌。

Math AI: Maximum Likelihood Estimation (MLE) Evolve To EM Algorithm For Incomplete/Hidden Data

Math AI: Maximum Likelihood Estimation (MLE) Evolve To EM Algorithm For Incomplete/Hidden Data To Variational Bayesian Inference Major Reference [@poczosCllusteringEM2015] [@matasExpectationMaximization2018] good reference [@choyExpectationMaximization2017] [@tzikasVariationalApproximation2008] excellent introductory paper Maximum Likelihood Estimation 和應用 Maximum likelihood estimation (MLE) 最大概似估計是一種估計模型參數的方法。適用時機在於手邊有模型，但是模型參數有無限多種，透過真實觀察到的樣本資訊，想辦法導出最有可能產生這些樣本結果的模型參數，也就是挑選使其概似性(Likelihood)最高的一組模型參數，這系列找參數的過程稱為最大概似估計法。 Bernoulli distribution：投擲硬幣正面的機率 , 反面的機率 . 連續投擲的正面/反面的次數分別是 H/T. Likelihood function 為 MLE 在無限個中，找到一個使概似性最大的 , i.e. 只要 likelihood function …

Continue reading “Math AI: Maximum Likelihood Estimation (MLE) Evolve To EM Algorithm For Incomplete/Hidden Data”

Math AI: Unsupervised Learning – Similarity/Clustering: K-means and GMM

Major Reference [@poczosCllusteringEM2015] Unsupervised Learning Unsupervised learning (UL) 簡單說就是 learning without label. 常見的 UL 包含降維 (e.g. PCA) 或是 clustering (e.g. K-means). UL 比起 supervised learning (SL) 更難以捉摸。一個常引述的原因是 UL 的結果比較主觀，因為沒有 label 也就沒有標準答案。但這並不意味沒有 loss function. 當然我們需要 loss function 才能 optimization. 但是 Loss function 可能包含 hyper parameter, 這些 hyper parameter 只能 try-and-error 得到。例如 PCA dimension reduction 到底要 …

Continue reading “Math AI: Unsupervised Learning – Similarity/Clustering: K-means and GMM”

Math AI – Variational Autoencoder (VAE) 變分自編碼器

機器學習的起手式是 MNIST 的手寫數字辨識率，這是 supervised learning. 使用的 Neural network 是 discriminative model, 可以是 MLP (multi-layer perceptron) 或是 CNN. 另一個機器學習的分支是 MNIST 影像 dimension reduction/compression, reconstruction, denoise, 這是 unsupervised learning, 也稱為 self-supervised learning. 使用的 neural network (decoder) 是 generative model, 可以是 autoencoder (AE) 以及變形 (sparse AE, convolution AE, variational AE, etc.) 或是更 fancy 的 GAN, 如下圖。 AE 以及變形在 …

Continue reading “Math AI – Variational Autoencoder (VAE) 變分自編碼器”

原理 → 定律 → 現象：最小作用量用原理

物理學最早從現象的觀察，歸納出定律(law) – 例如光學 Snell's law，牛頓力學定律，萬有引力定律，電磁學的庫倫定律、安培定律、法拉第定律、Lawrence 定律、最終整合成 Maxwell's equation 的電磁學定律。再由這些定律找出更基本，更統一且具有美感的原理。原理 → 定律 → 現象一般認為物理學的兩大基本原理是：最小作用原理和對稱性原理。可以從這兩大基本原理推論出定律。再由定律解釋各種物理現象，如下圖。（相對性原理是對稱性原理的一種？）具體的操作（至少邏輯上） Step 1: 找到或是猜到這個系統的 Lagrangian, L. "作用 (action)"一般是 Lagrangian 的時間積分。以古典力學為例 where , 是動能，是位能。 Step 2A: 使用最小作用原理，用變分法 (calculus of variation) 於 action, 就是用 Euler-Lagrange equation, 得到“自然定律一”，一般是運動方程式。例如應用於古典力學可以得到牛頓力學定律 [@sufeifanDerivationClassic2019]。應用於電磁學可以得到 EM Wave equation. 顯然最小作用原理和 scaling/coupling constant 無關（最小值乘常數或加常數還是最小值），因此需要確認常數和定律的 consistency. Step 2B: 使用對稱性原理，用 Noether …

Continue reading “原理 → 定律 → 現象：最小作用量用原理”

Edge AI: BERT for Text Classification I

Text classification 是 NLP 最基本的任務，應用廣泛。例如 sentiment analysis, spam filtering, news categorization, etc. 本文聚焦 fake news detection (classifying a news as REAL or FAKE) 任務。此處我們 detect fake news using the state-of-the-art models, 也就是 BERT. 這個 tutorial 可以 extended to really any text classification task. The Transformer is the basic building block of most current state-of-the-art …

Continue reading “Edge AI: BERT for Text Classification I”

Edge AI: BERT for 分詞

中文自然語言處理的其中一個重要環節就是斷詞的處理。英文字詞基本相同，斷詞非常容易，直接用 space 就可以斷字或斷詞。中文斷詞在先天上就比較難處理，比如電腦要怎麼知道「全台大停電」要斷詞成「全台 / 大 / 停電」或是「全／台大 / 停電」呢？如果是英文「Power outage all over Taiwan」，就可以直接用空白斷成「Power / outage / all / over / Taiwan」，可見中文斷詞是一個大問題。因為斷詞有歧義的可能如上，所以後面用分詞來替代斷詞。英文也會有姓名，專有名詞，復合名詞需要分詞，不過比起中文分詞還是相對容易。傳統中文分詞中文分詞根據實現原理和特點，主要分為以下2個類別： 1、基於詞典分詞算法也稱字符串匹配分詞算法。該算法是按照一定的策略將待匹配的字符串和一個已建立好的「充分大的」詞典中的詞進行匹配，若找到某個詞條，則說明匹配成功，識別了該詞。常見的基於詞典的分詞算法分為以下幾種：正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。基於詞典的分詞算法是應用最廣泛、分詞速度最快的。很長一段時間內研究者都在對基於字符串匹配方法進行優化，比如最大長度設定、字符串存儲和查找方式以及對於詞表的組織結構，比如採用TRIE索引樹、Hash 索引等。 2、基於統計的機器學習算法這類目前常用的是算法是HMM、CRF (Conditional Random Field)、SVM、深度學習等算法，比如 Stanford、Hanlp 分詞工具是基於 CRF 算法。以 CRF 為例，基本思路是對漢字進行標注訓練，不僅考慮了詞語出現的頻率，還考慮上下文，具備較好的學習能力，因此其對歧義詞和未登錄詞的識別都具有良好的效果。例如 JIEBA 中文分詞所使用的演算法是基於 TRIE TREE 結構去生成句子中中文字所有可能成詞的情況，然後使用動態規劃（DYNAMIC PROGRAMMING）算法來找出最大機率的路徑，這個路徑就是基於詞頻的最大分詞結果。對於辨識新詞（字典詞庫中不存在的詞）則使用了 HMM 模型及 VITERBI 算法來辨識出來。基本上這樣就可以完成具有分詞功能的程式了。分詞器的挑戰目前中文分詞難點主要有三個：分詞標準：比如人名，在哈工大的標準中姓和名是分開的，但在Hanlp中是合在一起的。這需要根據不同的需求制定不同的分詞標準。這一般不是問題。歧義：對同一個待切分字符串存在多個分詞結果。歧義又分為組合型歧義、交集型歧義和真歧義三種類型。組合型歧義：分詞是有不同的粒度的，指某個詞條中的一部分也可以切分為一個獨立的詞條。比如「中華人民共和國」，粗粒度的分詞就是「中華人民共和國」，細粒度的分詞可能是「中華/人民/共和國」 …

Continue reading “Edge AI: BERT for 分詞”

NLP Neural History Part2 – Attention

下圖整理簡單的 Neural history of NLP from [@ruderReviewRecent2018], [@suSeq2seqPay2018], and [@suSeq2seqPay2018a] 近年注意力模型 (Attention Model) 是深度學習領域最受矚目的新星，用來處理與序列相關的資料，特別是2017年 Google 提出 self attention 後，模型成效、複雜度又取得了更大的進展。然而，從 Attention model 讀到 self attention 時，遇到不少障礙，其中很大部分是後者在論文提出的概念，鮮少有文章解釋如何和前者做關聯。希望藉由這系列文，解釋在機器翻譯的領域中，是如何從Seq2seq演進至Attention model 再至 self attention，使讀者在理解Attention 機制不再這麼困難。Attention 的演進史如下圖，對應上圖的 Attention stage. Stage 3 (2015-): Attention is All You Need 前文提到 Seq2Seq 包含 encoder 和 decoder 兩個 RNN 所構成。它的運作原理其實與人類的思維很相似，當我們看到一段話時，會先將這句話理解吸收，再根據我們理解的內容說出回覆，Sequence to Sequence 就是在模擬這個過程。 Encoder 就是負責將輸入序列消化、吸收成一個向量，我們通常把這個向量稱為 …

Continue reading “NLP Neural History Part2 – Attention”

Edge AI: Object Detection History: 2-Pass Vs. 1-Pass; Anchor Vs. Anchor-less

sequenceDiagram participant Alice participant Bob Alice->John: Hello John, how are you? loop Healthcheck John->John: Fight against hypochondria end Note right of John: Rational thoughts <br/>prevail… John–>Alice: Great! John->Bob: How about you? Bob–>John: Jolly good! graph LR A[方形] –>B(圆角) B –> C{条件a} C –>|a=1| D[结果1] C –>|a=2| E[结果2] F[横向流程图]

Multi-Object Tracking 數據集: MOT15/16/17/19/20

多目標跟蹤 (MOT) 是監控重要的功能。雖然沒有 ImageNet 大量的 dataset, 但因為 MOT Challenge 的關係，MOT Challenge dataset 成為大家公認的 dataset 用於檢視 MOT 算法的效能。 MOT Challenge是多目標跟蹤領域最權威的國際測評平臺，由慕尼黑工業大學、阿德萊德大學、蘇黎世聯邦理工學院以及達姆施塔特工業大學聯合創辦。MOT Challenge 提供了非常準確的標註資料和全面的評估指標，用以評估跟蹤演算法、行人檢測器的效能。這裡介紹這些 datasets. MOT 數據集數據集用的最多的是 MOTChallenge，專注於行人追蹤的: https://motchallenge.net/ MOT15 年的都是採集的老的數據集的視頻做的修正。參考論文：MOT Challenge 2015: Towards a Benchmark for Multi-Target Tracking『https://arxiv.org/abs/1504.01942』 MOT16 年的是全新的數據集 (7 video for training and 7 video for test)，相比於 15 年的行人密度更高、難度更大。特別注意這個 DPM 檢測器，效果非常的差，全是漏檢和誤檢。參考論文：MOT16: A Benchmark …

Continue reading “Multi-Object Tracking 數據集: MOT15/16/17/19/20”