Move Math Article to Github.io

我寫 blog 目的是把自己讀過或做過的工程,物理,資訊,語言做一些紀錄,間或做一些整理便於之後快速查詢。最近 (2021) 看到蘇劍林似乎很早就在經營科學空間 https://spaces.ac.cn 做的非常好。其中一些文章對我很有幫助。 我也想把之前或之後的紀錄和心得能夠更好的呈現,主要還是為了自己的整理和查詢。當然如果能有助於他人更好。因此找到一個適合呈現 math equation, figure, 並且可以長時間存在的 blog 平台就很重要。 Blogger (Google) 和 WordPress (Open) 對於 math equation 很多問題。 Medium 我沒試過,但我不喜歡付費才能閱讀。最近 (2020) 試了一下 Jekyll (markdown to html) + Next theme + Github.io (Blog platform, now Microsoft) 似乎是不錯的組合。產生的 math equation 最接近我想要的呈現。因此我會把一些文章逐步搬到 Github.io: https://allenlu2009.github.io 特此為誌。

Math AI: Maximum Likelihood Estimation (MLE) Evolve To EM Algorithm For Incomplete/Hidden Data

Math AI: Maximum Likelihood Estimation (MLE) Evolve To EM Algorithm For Incomplete/Hidden Data To Variational Bayesian Inference Major Reference [@poczosCllusteringEM2015] [@matasExpectationMaximization2018] good reference [@choyExpectationMaximization2017] [@tzikasVariationalApproximation2008] excellent introductory paper Maximum Likelihood Estimation 和應用 Maximum likelihood estimation (MLE) 最大概似估計是一種估計模型參數的方法。適用時機在於手邊有模型,但是模型參數有無限多種,透過真實觀察到的樣本資訊,想辦法導出最有可能產生這些樣本結果的模型參數,也就是挑選使其概似性(Likelihood)最高的一組模型參數,這系列找參數的過程稱為最大概似估計法。 Bernoulli distribution:投擲硬幣正面的機率 , 反面的機率 . 連續投擲的正面/反面的次數分別是 H/T. Likelihood function 為 MLE 在無限個 中,找到一個使概似性最大的 , i.e. 只要 likelihood function …

Math AI: Unsupervised Learning – Similarity/Clustering: K-means and GMM

Major Reference [@poczosCllusteringEM2015] Unsupervised Learning Unsupervised learning (UL) 簡單說就是 learning without label. 常見的 UL 包含降維 (e.g. PCA) 或是 clustering (e.g. K-means). UL 比起 supervised learning (SL) 更難以捉摸。 一個常引述的原因是 UL 的結果比較主觀,因為沒有 label 也就沒有標準答案。但這並不意味沒有 loss function. 當然我們需要 loss function 才能 optimization. 但是 Loss function 可能包含 hyper parameter, 這些 hyper parameter 只能 try-and-error 得到。例如 PCA dimension reduction 到底要 …

Math AI – Variational Autoencoder (VAE) 變分自編碼器

機器學習的起手式是 MNIST 的手寫數字辨識率,這是 supervised learning. 使用的 Neural network 是 discriminative model, 可以是 MLP (multi-layer perceptron) 或是 CNN. 另一個機器學習的分支是 MNIST 影像 dimension reduction/compression, reconstruction, denoise, 這是 unsupervised learning, 也稱為 self-supervised learning. 使用的 neural network (decoder) 是 generative model, 可以是 autoencoder (AE) 以及變形 (sparse AE, convolution AE, variational AE, etc.) 或是更 fancy 的 GAN, 如下圖。 AE 以及變形在 …

原理 → 定律 → 現象:最小作用量用原理

物理學最早從現象的觀察,歸納出定律(law) – 例如光學 Snell's law,牛頓力學定律,萬有引力定律,電磁學的庫倫定律、安培定律、法拉第定律、Lawrence 定律、最終整合成 Maxwell's equation 的電磁學定律。再由這些定律找出更基本,更統一且具有美感的原理。 原理 → 定律 → 現象 一般認為物理學的兩大基本原理是:最小作用原理和對稱性原理。 可以從這兩大基本原理推論出定律。再由定律解釋各種物理現象,如下圖。(相對性原理是對稱性原理的一種?) 具體的操作(至少邏輯上) Step 1: 找到或是猜到這個系統的 Lagrangian, L. "作用 (action)"一般是 Lagrangian 的時間積分。以古典力學為例 where , 是動能, 是位能。 Step 2A: 使用最小作用原理,用變分法 (calculus of variation) 於 action, 就是用 Euler-Lagrange equation, 得到“自然定律一”,一般是運動方程式。例如應用於古典力學可以得到牛頓力學定律 [@sufeifanDerivationClassic2019]。應用於電磁學可以得到 EM Wave equation. 顯然最小作用原理和 scaling/coupling constant 無關(最小值乘常數或加常數還是最小值),因此需要確認常數和定律的 consistency. Step 2B: 使用對稱性原理,用 Noether …

Edge AI: BERT for Text Classification I

Text classification 是 NLP 最基本的任務,應用廣泛。例如 sentiment analysis, spam filtering, news categorization, etc. 本文聚焦 fake news detection (classifying a news as REAL or FAKE) 任務。 此處我們 detect fake news using the state-of-the-art models, 也就是 BERT. 這個 tutorial 可以 extended to really any text classification task. The Transformer is the basic building block of most current state-of-the-art …

Edge AI: BERT for 分詞

中文自然語言處理的其中一個重要環節就是斷詞的處理。英文字詞基本相同,斷詞非常容易,直接用 space 就可以斷字或斷詞。中文斷詞在先天上就比較難處理,比如電腦要怎麼知道「全台大停電」要斷詞成「全台 / 大 / 停電」或是 「全/台大 / 停電」呢?如果是英文「Power outage all over Taiwan」,就可以直接用空白斷成「Power / outage / all / over / Taiwan」,可見中文斷詞是一個大問題。因為斷詞有歧義的可能如上,所以後面用分詞來替代斷詞。英文也會有姓名,專有名詞,復合名詞需要分詞,不過比起中文分詞還是相對容易。 傳統中文分詞 中文分詞根據實現原理和特點,主要分為以下2個類別: 1、基於詞典分詞算法 也稱字符串匹配分詞算法。該算法是按照一定的策略將待匹配的字符串和一個已建立好的「充分大的」詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞算法分為以下幾種:正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。 基於詞典的分詞算法是應用最廣泛、分詞速度最快的。很長一段時間內研究者都在對基於字符串匹配方法進行優化,比如最大長度設定、字符串存儲和查找方式以及對於詞表的組織結構,比如採用TRIE索引樹、Hash 索引等。 2、基於統計的機器學習算法 這類目前常用的是算法是HMM、CRF (Conditional Random Field)、SVM、深度學習等算法,比如 Stanford、Hanlp 分詞工具是基於 CRF 算法。以 CRF 為例,基本思路是對漢字進行標注訓練,不僅考慮了詞語出現的頻率,還考慮上下文,具備較好的學習能力,因此其對歧義詞和未登錄詞的識別都具有良好的效果。 例如 JIEBA 中文分詞所使用的演算法是基於 TRIE TREE 結構去生成句子中中文字所有可能成詞的情況,然後使用動態規劃(DYNAMIC PROGRAMMING)算法來找出最大機率的路徑,這個路徑就是基於詞頻的最大分詞結果。對於辨識新詞(字典詞庫中不存在的詞)則使用了 HMM 模型及 VITERBI 算法來辨識出來。基本上這樣就可以完成具有分詞功能的程式了。 分詞器的挑戰 目前中文分詞難點主要有三個: 分詞標準:比如人名,在哈工大的標準中姓和名是分開的,但在Hanlp中是合在一起的。這需要根據不同的需求制定不同的分詞標準。這一般不是問題。 歧義:對同一個待切分字符串存在多個分詞結果。歧義又分為組合型歧義、交集型歧義和真歧義三種類型。 組合型歧義:分詞是有不同的粒度的,指某個詞條中的一部分也可以切分為一個獨立的詞條。比如「中華人民共和國」,粗粒度的分詞就是「中華人民共和國」,細粒度的分詞可能是「中華/人民/共和國」 …

NLP Neural History Part2 – Attention

下圖整理簡單的 Neural history of NLP from [@ruderReviewRecent2018], [@suSeq2seqPay2018], and [@suSeq2seqPay2018a] 近年注意力模型 (Attention Model) 是深度學習領域最受矚目的新星,用來處理與序列相關的資料,特別是2017年 Google 提出 self attention 後,模型成效、複雜度又取得了更大的進展。然而,從 Attention model 讀到 self attention 時,遇到不少障礙,其中很大部分是後者在論文提出的概念,鮮少有文章解釋如何和前者做關聯。希望藉由這系列文,解釋在機器翻譯的領域中,是如何從Seq2seq演進至Attention model 再至 self attention,使讀者在理解Attention 機制不再這麼困難。Attention 的演進史如下圖,對應上圖的 Attention stage. Stage 3 (2015-): Attention is All You Need 前文提到 Seq2Seq 包含 encoder 和 decoder 兩個 RNN 所構成。它的運作原理其實與人類的思維很相似,當我們看到一段話時,會先將這句話理解吸收,再根據我們理解的內容說出回覆,Sequence to Sequence 就是在模擬這個過程。 Encoder 就是負責將輸入序列消化、吸收成一個向量,我們通常把這個向量稱為 …

Edge AI: Object Detection History: 2-Pass Vs. 1-Pass; Anchor Vs. Anchor-less

sequenceDiagram participant Alice participant Bob Alice->John: Hello John, how are you? loop Healthcheck John->John: Fight against hypochondria end Note right of John: Rational thoughts <br/>prevail… John–>Alice: Great! John->Bob: How about you? Bob–>John: Jolly good! graph LR A[方形] –>B(圆角) B –> C{条件a} C –>|a=1| D[结果1] C –>|a=2| E[结果2] F[横向流程图]

Multi-Object Tracking 數據集: MOT15/16/17/19/20

多目標跟蹤 (MOT) 是監控重要的功能。雖然沒有 ImageNet 大量的 dataset, 但因為 MOT Challenge 的關係,MOT Challenge dataset 成為大家公認的 dataset 用於檢視 MOT 算法的效能。 MOT Challenge是多目標跟蹤領域最權威的國際測評平臺,由慕尼黑工業大學、阿德萊德大學、蘇黎世聯邦理工學院以及達姆施塔特工業大學聯合創辦。MOT Challenge 提供了非常準確的標註資料和全面的評估指標,用以評估跟蹤演算法、行人檢測器的效能。 這裡介紹這些 datasets. MOT 數據集 數據集用的最多的是 MOTChallenge,專注於行人追蹤的: https://motchallenge.net/ MOT15 年的都是採集的老的數據集的視頻做的修正。參考論文:MOT Challenge 2015: Towards a Benchmark for Multi-Target Tracking『https://arxiv.org/abs/1504.01942』 MOT16 年的是全新的數據集 (7 video for training and 7 video for test),相比於 15 年的行人密度更高、難度更大。特別注意這個 DPM 檢測器,效果非常的差,全是漏檢和誤檢。參考論文:MOT16: A Benchmark …

Design a site like this with WordPress.com
Get started