Math AI: Maximum Likelihood Estimation (MLE) Evolve To EM Algorithm For Incomplete/Hidden Data

Math AI: Maximum Likelihood Estimation (MLE) Evolve To EM Algorithm For Incomplete/Hidden Data To Variational Bayesian Inference Major Reference [@poczosCllusteringEM2015] [@matasExpectationMaximization2018] good reference [@choyExpectationMaximization2017] [@tzikasVariationalApproximation2008] excellent introductory paper Maximum Likelihood Estimation 和應用 Maximum likelihood estimation (MLE) 最大概似估計是一種估計模型參數的方法。適用時機在於手邊有模型,但是模型參數有無限多種,透過真實觀察到的樣本資訊,想辦法導出最有可能產生這些樣本結果的模型參數,也就是挑選使其概似性(Likelihood)最高的一組模型參數,這系列找參數的過程稱為最大概似估計法。 Bernoulli distribution:投擲硬幣正面的機率 , 反面的機率 . 連續投擲的正面/反面的次數分別是 H/T. Likelihood function 為 MLE 在無限個 中,找到一個使概似性最大的 , i.e. 只要 likelihood function …

Math AI: Unsupervised Learning – Similarity/Clustering: K-means and GMM

Major Reference [@poczosCllusteringEM2015] Unsupervised Learning Unsupervised learning (UL) 簡單說就是 learning without label. 常見的 UL 包含降維 (e.g. PCA) 或是 clustering (e.g. K-means). UL 比起 supervised learning (SL) 更難以捉摸。 一個常引述的原因是 UL 的結果比較主觀,因為沒有 label 也就沒有標準答案。但這並不意味沒有 loss function. 當然我們需要 loss function 才能 optimization. 但是 Loss function 可能包含 hyper parameter, 這些 hyper parameter 只能 try-and-error 得到。例如 PCA dimension reduction 到底要 …

Math AI – Variational Autoencoder (VAE) 變分自編碼器

機器學習的起手式是 MNIST 的手寫數字辨識率,這是 supervised learning. 使用的 Neural network 是 discriminative model, 可以是 MLP (multi-layer perceptron) 或是 CNN. 另一個機器學習的分支是 MNIST 影像 dimension reduction/compression, reconstruction, denoise, 這是 unsupervised learning, 也稱為 self-supervised learning. 使用的 neural network (decoder) 是 generative model, 可以是 autoencoder (AE) 以及變形 (sparse AE, convolution AE, variational AE, etc.) 或是更 fancy 的 GAN, 如下圖。 AE 以及變形在 …

Edge AI: BERT for Text Classification I

Text classification 是 NLP 最基本的任務,應用廣泛。例如 sentiment analysis, spam filtering, news categorization, etc. 本文聚焦 fake news detection (classifying a news as REAL or FAKE) 任務。 此處我們 detect fake news using the state-of-the-art models, 也就是 BERT. 這個 tutorial 可以 extended to really any text classification task. The Transformer is the basic building block of most current state-of-the-art …

Edge AI: BERT for 分詞

中文自然語言處理的其中一個重要環節就是斷詞的處理。英文字詞基本相同,斷詞非常容易,直接用 space 就可以斷字或斷詞。中文斷詞在先天上就比較難處理,比如電腦要怎麼知道「全台大停電」要斷詞成「全台 / 大 / 停電」或是 「全/台大 / 停電」呢?如果是英文「Power outage all over Taiwan」,就可以直接用空白斷成「Power / outage / all / over / Taiwan」,可見中文斷詞是一個大問題。因為斷詞有歧義的可能如上,所以後面用分詞來替代斷詞。英文也會有姓名,專有名詞,復合名詞需要分詞,不過比起中文分詞還是相對容易。 傳統中文分詞 中文分詞根據實現原理和特點,主要分為以下2個類別: 1、基於詞典分詞算法 也稱字符串匹配分詞算法。該算法是按照一定的策略將待匹配的字符串和一個已建立好的「充分大的」詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞算法分為以下幾種:正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。 基於詞典的分詞算法是應用最廣泛、分詞速度最快的。很長一段時間內研究者都在對基於字符串匹配方法進行優化,比如最大長度設定、字符串存儲和查找方式以及對於詞表的組織結構,比如採用TRIE索引樹、Hash 索引等。 2、基於統計的機器學習算法 這類目前常用的是算法是HMM、CRF (Conditional Random Field)、SVM、深度學習等算法,比如 Stanford、Hanlp 分詞工具是基於 CRF 算法。以 CRF 為例,基本思路是對漢字進行標注訓練,不僅考慮了詞語出現的頻率,還考慮上下文,具備較好的學習能力,因此其對歧義詞和未登錄詞的識別都具有良好的效果。 例如 JIEBA 中文分詞所使用的演算法是基於 TRIE TREE 結構去生成句子中中文字所有可能成詞的情況,然後使用動態規劃(DYNAMIC PROGRAMMING)算法來找出最大機率的路徑,這個路徑就是基於詞頻的最大分詞結果。對於辨識新詞(字典詞庫中不存在的詞)則使用了 HMM 模型及 VITERBI 算法來辨識出來。基本上這樣就可以完成具有分詞功能的程式了。 分詞器的挑戰 目前中文分詞難點主要有三個: 分詞標準:比如人名,在哈工大的標準中姓和名是分開的,但在Hanlp中是合在一起的。這需要根據不同的需求制定不同的分詞標準。這一般不是問題。 歧義:對同一個待切分字符串存在多個分詞結果。歧義又分為組合型歧義、交集型歧義和真歧義三種類型。 組合型歧義:分詞是有不同的粒度的,指某個詞條中的一部分也可以切分為一個獨立的詞條。比如「中華人民共和國」,粗粒度的分詞就是「中華人民共和國」,細粒度的分詞可能是「中華/人民/共和國」 …

NLP Neural History Part2 – Attention

下圖整理簡單的 Neural history of NLP from [@ruderReviewRecent2018], [@suSeq2seqPay2018], and [@suSeq2seqPay2018a] 近年注意力模型 (Attention Model) 是深度學習領域最受矚目的新星,用來處理與序列相關的資料,特別是2017年 Google 提出 self attention 後,模型成效、複雜度又取得了更大的進展。然而,從 Attention model 讀到 self attention 時,遇到不少障礙,其中很大部分是後者在論文提出的概念,鮮少有文章解釋如何和前者做關聯。希望藉由這系列文,解釋在機器翻譯的領域中,是如何從Seq2seq演進至Attention model 再至 self attention,使讀者在理解Attention 機制不再這麼困難。Attention 的演進史如下圖,對應上圖的 Attention stage. Stage 3 (2015-): Attention is All You Need 前文提到 Seq2Seq 包含 encoder 和 decoder 兩個 RNN 所構成。它的運作原理其實與人類的思維很相似,當我們看到一段話時,會先將這句話理解吸收,再根據我們理解的內容說出回覆,Sequence to Sequence 就是在模擬這個過程。 Encoder 就是負責將輸入序列消化、吸收成一個向量,我們通常把這個向量稱為 …

Edge AI: Object Detection History: 2-Pass Vs. 1-Pass; Anchor Vs. Anchor-less

sequenceDiagram participant Alice participant Bob Alice->John: Hello John, how are you? loop Healthcheck John->John: Fight against hypochondria end Note right of John: Rational thoughts <br/>prevail… John–>Alice: Great! John->Bob: How about you? Bob–>John: Jolly good! graph LR A[方形] –>B(圆角) B –> C{条件a} C –>|a=1| D[结果1] C –>|a=2| E[结果2] F[横向流程图]

Multi-Object Tracking 數據集: MOT15/16/17/19/20

多目標跟蹤 (MOT) 是監控重要的功能。雖然沒有 ImageNet 大量的 dataset, 但因為 MOT Challenge 的關係,MOT Challenge dataset 成為大家公認的 dataset 用於檢視 MOT 算法的效能。 MOT Challenge是多目標跟蹤領域最權威的國際測評平臺,由慕尼黑工業大學、阿德萊德大學、蘇黎世聯邦理工學院以及達姆施塔特工業大學聯合創辦。MOT Challenge 提供了非常準確的標註資料和全面的評估指標,用以評估跟蹤演算法、行人檢測器的效能。 這裡介紹這些 datasets. MOT 數據集 數據集用的最多的是 MOTChallenge,專注於行人追蹤的: https://motchallenge.net/ MOT15 年的都是採集的老的數據集的視頻做的修正。參考論文:MOT Challenge 2015: Towards a Benchmark for Multi-Target Tracking『https://arxiv.org/abs/1504.01942』 MOT16 年的是全新的數據集 (7 video for training and 7 video for test),相比於 15 年的行人密度更高、難度更大。特別注意這個 DPM 檢測器,效果非常的差,全是漏檢和誤檢。參考論文:MOT16: A Benchmark …

NLP #5: Tracking with Transformer

有兩篇 papers: TransTrack and TrackFormer Track by detection Track by segmentation Track by attention Track by Attention 四部曲 Built on DETR, DETR 包含下面四步: Frame level feature extraction with a common CNN backbone (e.g. ResNet). Encoding of frame features with self-attention in a transformer encoder. Decoding of output embeddings with self- and encoder-decoder attention in a …

NLP #2: Attention: Transformer Model

Why Embedding? dog and cat and bird is different from tree jump Why Attention? to solve the word embedding issue and extent to contextual word embedding. from 臺大李弘毅教授的 video lecture. money bank river bank need context to identify the meaning!! token! How about blood bank, same as bank? or a different meaning? each word token …

Design a site like this with WordPress.com
Get started