文章目录
  1. 1. 词性
  2. 2. CRF, HMM, Viterbi
    1. 2.1. 发射矩阵
    2. 2.2. Softmax回归、Logistic回归
      1. 2.2.1. 最大似然估计
    3. 2.3. 拉格朗日乘子法
      1. 2.3.1. 对偶性
    4. 2.4. 最大熵模型
    5. 2.5. EM算法
    6. 2.6. HMM
    7. 2.7. 总结
  3. 3. 纯概率论

记录了一些学习nlp时的笔记。


梦想还是要有的, 万一实现了呢

词性

词的分类

  • 实词:名词、动词、形容词、状态词、区别词、数词、量词、代词
  • 虚词:副词、介词、连词、助词、拟声词、叹词。

ICTPOS3.0 词性标记集

n 名词
	nr 人名
		nr1 汉语姓氏
		nr2 汉语名字
		nrj 日语人名
		nrf 音译人名
	ns 地名
	 nsf 音译地名
	nt 机构团体名
	nz 其它专名
	nl 名词性惯用语
	ng 名词性语素

t 时间词
  tg 时间词性语素

s 处所词

f 方位词

v 动词
	vd 副动词
	vn 名动词
	vshi 动词“是”
	vyou 动词“有”
	vf 趋向动词
	vx 形式动词
	vi 不及物动词(内动词)
	vl 动词性惯用语
	vg 动词性语素
a 形容词
	ad 副形词
	an 名形词
	ag 形容词性语素
	al 形容词性惯用语
b 区别词
	bl 区别词性惯用语
z 状态词
r 代词
	rr 人称代词
	rz 指示代词
		rzt 时间指示代词
		rzs 处所指示代词
		rzv 谓词性指示代词
	ry 疑问代词
		ryt 时间疑问代词
		rys 处所疑问代词
		ryv 谓词性疑问代词
	rg 代词性语素
m 数词
	mq 数量词
q 量词
	qv 动量词
	qt 时量词

虚词

d 副词
p 介词
	pba 介词“把”
	pbei 介词“被”
c 连词
	cc 并列连词
u 助词
	uzhe 着
	ule 了 喽
	uguo 过
	ude1 的 底
	ude2 地
	ude3 得
	usuo 所
	udeng 等 等等 云云
	uyy 一样 一般 似的 般
	udh 的话
	uls 来讲 来说 而言 说来

	uzhi 之
	ulian 连 (“连小学生都会”)

e 叹词
y 语气词(delete yg)
o 拟声词
h 前缀
k 后缀
x 字符串
	xx 非语素字
	xu 网址URL
w 标点符号
	wkz 左括号,全角:( 〔  [  {  《 【  〖 〈   半角:( [ { <
	wky 右括号,全角:) 〕  ] } 》  】 〗 〉 半角: ) ] { >
	wyz 左引号,全角:“ ‘ 『
	wyy 右引号,全角:” ’ 』
	wj 句号,全角:。
	ww 问号,全角:? 半角:?
	wt 叹号,全角:! 半角:!
	wd 逗号,全角:, 半角:,
	wf 分号,全角:; 半角: ;
	wn 顿号,全角:、
	wm 冒号,全角:: 半角: :
	ws 省略号,全角:……  …
	wp 破折号,全角:——   --   ——-   半角:---  ----
	wb 百分号千分号,全角:% ‰   半角:%
	wh 单位符号,全角:¥ $ £  °  ℃  半角:$

ICTCLAS 汉语词性标注集

代码 名称 帮助记忆的诠释
Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以 A。
a 形容词 取英语形容词 adjective 的第 1 个字母。
ad 副形词 直接作状语的形容词。形容词代码 a 和副词代码 d 并在一起。
an 名形词 具有名词功能的形容词。形容词代码 a 和名词代码 n 并在一起。
b 区别词 取汉字“别”的声母。
c 连词 取英语连词 conjunction 的第 1 个字母。
Dg 副语素 副词性语素。副词代码为 d,语素代码g前面置以 D。
d 副词 取 adverb 的第 2 个字母,因其第 1 个字母已用于形容词。
e 叹词 取英语叹词 exclamation 的第 1 个字母。
f 方位词 取汉字“方” 的声母。
g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
h 前接成分 取英语 head 的第 1 个字母。
i 成语 取英语成语 idiom 的第 1 个字母。
j 简称略语 取汉字“简”的声母。
k 后接成分
l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母。
m 数词 取英语 numeral 的第 3 个字母,n,u 已有他用。
Ng 名语素 名词性语素。名词代码为 n,语素代码g前面置以 N。
n 名词 取英语名词 noun 的第 1 个字母。
nr 人名 名词代码 n 和“人(ren)”的声母并在一起。
ns 地名 名词代码 n 和处所词代码 s 并在一起。
nt 机构团体 “团”的声母为 t,名词代码 n 和 t 并在一起。
nz 其他专名 “专”的声母的第 1 个字母为 z,名词代码 n 和 z 并在一起。
o 拟声词 取英语拟声词 onomatopoeia 的第 1 个字母。
p 介词 取英语介词 prepositional 的第 1 个字母。
q 量词 取英语 quantity 的第 1 个字母。
r 代词 取英语代词 pronoun 的第 2 个字母,因 p 已用于介词。
s 处所词 取英语 space 的第 1 个字母。
Tg 时语素 时间词性语素。时间词代码为 t,在语素的代码 g 前面置以 T。
t 时间词 取英语 time 的第 1 个字母。
u 助词 取英语助词 auxiliary 的第 2 个字母,因 a 已用于形容词。
Vg 动语素 动词性语素。动词代码为 v。在语素的代码 g 前面置以 V。
v 动词 取英语动词 verb 的第一个字母。
vd 副动词 直接作状语的动词。动词和副词的代码并在一起。
vn 名动词 指具有名词功能的动词。动词和名词的代码并在一起。
w 标点符号
x 非语素字 非语素字只是一个符号,字母 x 通常用于代表未知数、符号。
y 语气词 取汉字“语”的声母。
z 状态词 取汉字“状”的声母的前一个字母。

jieba 字典中出现的类型

a
	ad
	ag
	an
b
c
d
	df
	dg
e
f
g
h
i
j
k
l
m
	mg
	mq
n
	ng
	nr
	nrfg
	nrt
	ns
	nt
	nz
o
p
q
r
	rg
	rr
	rz
s
t
	tg
u
	ud
	ug
	uj
	ul
	uv
	uz
v
	vd
	vg
	vi
	vn
	vq
x
y
z
	zg

simhash 过滤的掉的词汇

c
e
h
k
o
p
u
	ud
	ug
	uj
	ul
	uv
	uz
x
y

CRF, HMM, Viterbi

命名实体提取用了一下HanLP试了试效果,CRF和perceptor都不错,但perceptor不知道它的传播算法是用的什么,我只会最基础的BackPropagation算法,听说CRF是传统的命名实体提取算法,所以打算用CRF。

下面开始递归学习:

CRF:https://www.cnblogs.com/en-heng/p/6214023.html

CRF提到了HMM

HMM:http://www.cnblogs.com/en-heng/p/6164145.html

HMM提到了Viterbi

Viterbi:

https://www.cnblogs.com/zhibei/p/9391014.html

https://blog.csdn.net/RangerWolf/article/details/84733911

π是初始状态数组,用各状态取值的可能性表示

HMM和Viterbi提到了马尔可夫链Markov chain:

https://blog.csdn.net/bitcarmanlee/article/details/82819860

扩展https://blog.csdn.net/u011251225/article/details/44421853

扩展https://blog.csdn.net/zhaozhn5/article/details/79776163

发射矩阵

发射矩阵就是某个状态下,得到各个观测值的概率

比方说,发烧时{正常、发热、头晕}的概率,健康时{正常、发热、头晕}的概率。

Softmax回归、Logistic回归

logistic函数就是sigmoid函数

softmax回归是logistic在多分类问题上的推广,logistic是softmax在二分类问题上的特例,二者在代价函数上形成统一

文章:

logistic回归

softmax回归

温习:

最大似然估计

扩展:

代价函数,损失函数,目标函数区别

softmax函数:

为了方便起见,我们同样使用符号 θ\theta来表示全部的模型参数。在实现Softmax回归时,将θ\theta用一个k×(n+1)k\times (n+1)的矩阵来表示会很方便,该矩阵是将θ1,θ2,,θk\theta_1, \theta_2, \ldots, \theta_k按行罗列起来得到的,如下所示:

在Softmax回归中将xx分类为类别jj的概率为(kk是类别数):

p(y(i)=jx(i);θ)=eθjTx(i)l=1keθlTx(i)p(y^{(i)}=j|x^{(i)};\theta)=\frac{e^{\theta^T_jx^{(i)}}}{\sum_{l=1}^ke^{\theta^T_lx^{(i)}}}

在求代价函数时,由于我们已知x(i)x^{(i)}属于jj类别,因此x(i)x^{(i)}属于其他类别的概率为0。——(*)

m是样本数,1{t}={1t=true0t=false1\{t\}=\begin{cases}1&\text{t=true}\\0&\text{t=false}\end{cases},有

J(θ)=1mi=1mj=1k1{y(i)=j}logeθjTx(i)l=1keθlTx(i)J(\theta)=-\frac{1}{m}\sum_{i=1}^m\sum_{j=1}^k1\{y^{(i)}=j\}\log\frac{e^{\theta^T_jx^{(i)}}}{\sum_{l=1}^ke^{\theta^T_lx^{(i)}}}

观察可以发现,代价函数对每个样本的每种可能性都做了累加,但由于(*),引入了1{t}进行限制。注意我们的log,这是为了方便后续计算而使用了对数似然函数,最后取了样本平均值及加负号(代价函数是优化其最小值,似然函数是优化最大值)。

softmax和logistic的代价函数最小值目前还没有闭式解法,一般用梯度下降等方法求解。

在softmax参数求解中,加入权重衰减项使代价函数变为严格凸函数,可保证得到唯一解。

TODO:softmax交叉熵

最大似然估计

百度百科:在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性

给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:

实际上,我们最大化L(θx)L(\theta|x)即是说,在给定的x下,求使得Θ发生的概率最大的Θ取值。即是说,假如有各种款式的硬币(θ1,...,θn\theta_1,...,\theta_n),我的先验发现x=0.5(正面向上的概率为0.5),则求所有可能的Θ中,可能性最大的那个,即最大化L(θx)L(\theta|x),所以我们会得到最“公平”的那枚硬币。

拉格朗日乘子法

拉格朗日乘子法最终的表达式很简单,但想真正理解还是需要下点功夫。

基本概念解释:

如何理解拉格朗日乘子法? - 马同学的回答 - 知乎
https://www.zhihu.com/question/38586401/answer/457058079

深入解释:

如何理解拉格朗日乘子法? - 陆zz的回答 - 知乎
https://www.zhihu.com/question/38586401/answer/105400458

注意,该回答中海拔h=f(x,y,z)=zh=f(x,y,z)=z,优化h的最大值,即是说

F=(F1,F2,...,Fk)F=(F_1,F_2,...,F_k)这样的山的约束下,优化海拔h的最大值。

f=(0,0,1)\nabla f=(0,0,1)与各约束形成的流形切空间垂直,即与各约束的法向量的合向量方向相同(或者说该点天空流形切空间和山的流形切空间平行)。

那么在一般的例子中,天空的形状没有那么平了,可以想象成任意的波澜起伏,那么同样的,极值点即该点山的流形切空间和天空的流形切空间平行,即他们的法线(梯度向量)平行。

法线和梯度的关系http://www.cnblogs.com/LeslieForever/p/9226581.html

结论:某点梯度与该点等高线的法线方向一致。

https://www.jianshu.com/p/23b4e4d63cea

结论:方向导数是梯度在向量l\vec l上的投影,因此求方向导数最简单的方法是用该点grand点乘该方向的单位向量。

不容易理解的点:

  1. h=f(x,y,z)=1h=f(x,y,z)=1的梯度是f=(0,0,1)\nabla f=(0,0,1),它刚好表示在任意的天空空间的等值线的法线都是(0,0,1)(0,0,1),因为我们定义天空是平的,即f(x,y,z)=zf(x,y,z)=z

  2. 天空空间的抽象仅仅是为了说明在山的不同位置上,其要满足平行条件的梯度也是不同的,我所有的解空间都在约束条件所形成的山上,而与我的优化函数无关,毕竟山上随便取个解都能在优化函数里带出个值来。

  3. 约束形如F1(x,y,z)=3F_1(x,y,z)=3,梯度从二维的与等值线法线方向相同引申到了与三维的法线方向相同。

  4. 如何理解拉格朗日乘子法? - 戏言玩家的回答 - 知乎
    https://www.zhihu.com/question/38586401/answer/105588901
    这个回答中将优化函数比喻成一座山,而约束比喻做一条线,这实际上是另一种方式的抽象。它将z=f(x,y)z=f(x,y)zz也放进去画了一个三维函数图像(山),和我们的抽象方式不同,注意区分。

而我们的这种抽象,注意我们的优化函数h=f(x,y,z)h=f(x,y,z),它在(x0,y0,z0)(x_0,y_0,z_0)的梯度方向为h取某一定值时,函数图像(三维)在该点的法线方向。而我们要做的就是在定义域空间(由各种约束形成的)找到一个点,在该点邻域范围内,在给定优化函数对应的法线方向上无法更优,那么这个点就是我们要找的极值。

下面是第三种表达方式:

下面就同济《高等数学第七版下册》P118拉格朗日函数做出解释:

L(x,y)=f(x,y)+\lambda\varphi(x,y)\\ \max_\lambda L(x,y)=\begin {cases} f(x,y)&x,y满足约束\\+\infin&其他 \end {cases}\\

因此显然有

minx,ymaxλL(x,y)=f(x,y)\min_{x,y}\max_\lambda L(x,y)=f(x,y)

可以看出这个定义和我们的定义是等价的,它巧妙(骚包)地将我们原本就有两种形式对条件的表达写成了第三种形式的表达。

原本哪两种?

  1. 对L(x,y)分别求x,y,λ的偏导,并分别等于0。在这一种中,对λ求偏导等于0就是约束条件φ(x,y)=0本身。
  2. f(x,y)的梯度平行于φ(x,y)的梯度,并且满足约束条件φ(x,y)。

当然,上述表达不是广义情况,广义情况类似。

三种表达等价。

对偶性

拉格朗日对偶性见李航《统计学习方法》附录C.

它是指minx,ymaxλL(x,y)\min_{x,y}\max_\lambda L(x,y)的最优解等于maxλminx,yL(x,y)\max_\lambda\min_{x,y} L(x,y)的最优解

简要证明:

显然

minx,yL(x,y)L(x,y)maxλL(x,y)\min_{x,y} L(x,y) \leqslant L(x,y) \leqslant \max_\lambda L(x,y)

maxλminx,yL(x,y)minx,ymaxλL(x,y)\max_\lambda \min_{x,y} L(x,y) \leqslant \min_{x,y} \max_\lambda L(x,y)

某些情况下最优解相等,当L(x,y)是凸函数时。

详细见李航《统计学习方法》附录C。

还可以参考(sup为上界,inf为下界):

注意,这里的凹函数是指https://zh.wikipedia.org/wiki/凹函数

国内外定义是相反的,博客中指出的错误其实没有错。

http://blog.sina.com.cn/s/blog_628cc2b70102xyed.html

https://blog.csdn.net/u014540876/article/details/79153913

指出:拉格朗日对偶函数一定是凹函数(国内指凸函数),且其凹性与最优化函数和约束函数无关

https://zhuanlan.zhihu.com/p/59928816:几乎所有的凸优化问题都满足某种constraint qualification,所以主问题和对偶问题有相同的最优值。

凸优化问题指目标函数是凸函数(凹函数)。

最大熵模型

吴军博士在其所著的《数学之美》一书中曾经谈到:“有一次,我去AT&T实验室作关最大熵模型的报告,随身带了一个骰子。我问听众‘每个面朝上的概率分別是多少’,所有人都说是等概率,即各种点数的概率均为1/6。这种猜测当然是对的。我问听众为什么,得到的回答是一致的:对这个‘一无所知’的骰子,假定它毎一面朝上概率均等是最安全的做法。(你不应该主观假设它像韦小宝的骰子—样灌了铅。)从投资的角度看,就足风险最小的做法。从信息论的角度讲,就足保留了最大的不确定性,也就是说让熵达到最大。

接着我又告诉听众,我的这个骰子被我特殊处理过,已知四点朝上的概率是1/3,在这种情况下,每个面朝上的概率是多少?这次,大部分人认为除去四点的概率是1/3,其余的均是2/15,也就是说已知的条件(四点概率为1/3)必须满足,而对于其余各点的概率因为仍然无从知道,因此只好认为它们均等。注意,在猜测这两种不同情况下的概率分布时,大家都没有添加任何主观的假设,诸如四点的反面一定是三点等等。(事实上,有的骰子四点的反面不是三点而是一点。)这种基于直觉的猜测之所以准确,是因为它恰好符合了最大熵原理。”
摘自:https://blog.csdn.net/baimafujinji/article/details/78986906

扩展——>

推荐文章:https://www.jianshu.com/p/e7c13002440d

信息熵:http://www.cnblogs.com/ooon/p/5707889.html

做分类,要注意四个地方,x,y,θ,Px,y,\theta,P

将x分类为y=j的充要条件为:输入x,在所有类标y中,y=j是在Θ参数下使得P最大的类标

通常y=j和Θ会结合在一起,即分类为y=j的概率为P(y=jx;θj)P(y=j|x;\theta_j),然后对每个分类y去求最大的那个概率作为x的类别。

那么在求Θ的时,我需要输入x和y=j,求使得P最大的Θ

在训练时,或在损失函数中,x和y=j的输入形式可以是P(y|x)作为一个参数,x和y=j也可以是单独的x,y=j作为两个参数

一般情况下,我们先知道P(y|x)的表达式,然后再用似然估计的方法求出损失函数,最小化其损失函数,求得参数;而最大熵模型是先知道损失函数,损失函数是关于P(y|x)和Θ的,根据条件可以直接求出P(y|x)的表达式,然后再解出参数Θ,此时参数Θ其实是拉格朗日乘子。

事实:事实就是说,无论给什么样本,都满足这个约束。比方说我观察了N个零件样本,保证N足够大,N个零件样本中只要质量大于5,体积小于3的都是A类零件,这就叫做一个事实,也叫一个约束条件。如果有n个特征函数,即n个事实,也即n个约束条件,每个特征函数用fi(x,y)f_i(x,y)表示,可以提取输入和输出的特征。

那么忽略前面的推导过程,最后我们会推出最大熵模型(有nn个事实,且有类别集合yy,wiw_i是特征的权值,wiw_ifi(x,y)f_i(x,y)都是标量):

Pw(yx)=exp(i=1nwifi(x,y))yexp(i=1nwifi(x,y))P_w(y|x)=\frac{\exp(\sum_{i=1}^nw_if_i(x,y))}{\sum_y\exp(\sum_{i=1}^nw_if_i(x,y))}

最大熵模型是多分类模型,在稍作变形后可以推出二分类模型logistic回归模型,见如何理解特征函数

而softmax回归模型就是logistic回归模型的多分类推广,所以我们来看看最大熵模型能不能推出softmax回归模型。

我们回顾softmax:

在Softmax回归中将x(i)x^{(i)}分类为类别jj的概率为(kk是类别数):

p(y(i)=jx(i);θ)=eθjTx(i)l=1keθlTx(i)p(y^{(i)}=j|x^{(i)};\theta)=\frac{e^{\theta^T_jx^{(i)}}}{\sum_{l=1}^ke^{\theta^T_lx^{(i)}}}

为了比较,我们将之前的最大熵模型的ww和f(x,y)​写成向量形式:

定义

w,f(x,y)nw,f(x,y) \in \Re ^n

w=w1,w2,...,wnw={w_1,w_2,...,w_n}

f(x,y)=f1(x,y),f2(x,y),...,fn(x,y)f(x,y)={f_1(x,y),f_2(x,y),...,f_n(x,y)}

则有最大熵模型:

Pw(yx)=ewTf(x,j)yewTf(x,y)P_w(y|x)=\frac{e^{w^Tf(x,j)}}{\sum_ye^{w^Tf(x,y)}}

观察可知,我们的参数w无法根据y灵活变换,再想想softmax回归模型的参数是一个k×(n+1)k\times(n+1)的矩阵,而最大熵模型中的参数是一个由拉格朗日乘子组成的向量,与类型y无关。

因此只能思考在f(x,y)中加入y的特征。

那么取w恒为1,f(x,y)中加入与类型相同数量的特征向量,然后通过样本训练它们,可能就和softmax一样了。

最大熵模型最大的特点就在于它在计算参数时选用的是事实,而不是样本。

在写出概率公式之后,对于softmax来说,还需要用样本将损失函数最小化,以求合适的参数;而对于最大熵模型,通过事实就将参数顺便解出来了。因此事实一般是人为选取的,而不是推算出来的。所以最大熵模型是推不出softmax回归模型的。

对于二分类问题,也是通过人为选取f(x,y)={xy=y00y=y1f(x,y)=\begin{cases}x&y=y0\\0&y=y1\end{cases},从而得到logistic回归模型。

就像黄老板说:损失函数最小化的过程中某种程度上是确认各种事实的重要程度。

我在和他讨论的过程中受益匪浅。

既然最大熵模型必须人为选取事实,那么是否比较鸡肋呢?我们就此问了复旦的郑老师,老师说最大熵模型是说,观测到的特征要尽量满足,没观测到的,要让它们熵最大。最大熵模型比logistic严格,有更严格的假设。因此最大熵模型是有特定的适用场合的,不能说该模型鸡肋。

“观测到的特征”即我们所说的“事实”。

EM算法

EM是一种迭代方法,用以求解含隐变量问题的概率模型中的参数。

隐变量:https://blog.csdn.net/Ding_xiaofei/article/details/80207084

感性理解EM算法https://www.jianshu.com/p/1121509ac1dc

EM初级版中,当由P1、P2估计完隐变量Z之后,每组样例都有Z、几率,由几率作为概率P1或P2即可。求和统计降低误差。

EM进阶版中,当由P1、P2估计完隐变量Z取值的两种取值的几率后,每组样例都有取当前Z=k(文章中k取1或2)的几率(这个几率要归一化,即kP(Z=k)=1\sum_kP(Z=k)=1),每组样例也有正反面的几率,用加权求和几率作为P1或P2的概率。关键理解点在于每组样例的Z=k的几率都不同,所以要加权求和。而EM初级版中,相当于每组样例的Z=k的几率要么是1要么是0。

HMM

HMM的无监督训练——Baum-Welch算法:https://blog.csdn.net/u014688145/article/details/53046765

Baum-Welch算法是EM算法的特例。

总结

看完之后,回来看:

如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别? - milter的回答 - 知乎
https://www.zhihu.com/question/35866596/answer/139485548

拓展总结,相当好:

https://www.zhihu.com/question/35866596/answer/236886066

但是文中有一些错误,比方说:

  1. HMM的联合概率分布(O是状态序列,I是观测序列):

    P(O,I)=t=1TP(OtOt1)P(ItOt)P(O,I)=\prod_{t=1}^TP(O_t|O_{t-1})P(I_t|O_t)

    由于II独立同分布,且当前输出只与当前输入相关,下面给出简要推导:

    P(O,I)=P(O1,O2,...,OT,I1,I2,...,IT)P(O,I)=P(O_1,O_2,...,O_T,I_1,I_2,...,I_T)
    =P(I1,I2,...,ITO1,O2,...,OT)P(O1,O2,...,OT)=P(I_1,I_2,...,I_T|O_1,O_2,...,O_T) P(O_1,O_2,...,O_T)
    =t=1TP(ItOt)t=1TP(OtOt1)=\prod_{t=1}^T P(I_t|O_t) \prod_{t=1}^TP(O_t|O_{t-1})

    =右边

    或者将t=1TP(ItOt)\prod_{t=1}^T P(I_t|O_t)认为是发射矩阵的元素bt(t)b_t(t)t=1TP(OtOt1)\prod_{t=1}^TP(O_t|O_{t-1})是转移矩阵的元素a(t1)ta_{(t-1)t},可以感性地思考其意义。

  2. 一阶马尔科夫假设,2-gram模型

最大团:

https://www.cnblogs.com/changer-qyz/p/8450562.html

纯概率论

概率密度函数:https://blog.csdn.net/sigai_csdn/article/details/83586458

文章目录
  1. 1. 词性
  2. 2. CRF, HMM, Viterbi
    1. 2.1. 发射矩阵
    2. 2.2. Softmax回归、Logistic回归
      1. 2.2.1. 最大似然估计
    3. 2.3. 拉格朗日乘子法
      1. 2.3.1. 对偶性
    4. 2.4. 最大熵模型
    5. 2.5. EM算法
    6. 2.6. HMM
    7. 2.7. 总结
  3. 3. 纯概率论