![图像处理中的数学修炼(第2版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/451/34061451/b_34061451.jpg)
2.2 凸函数与詹森不等式
函数的凹凸性在求解最优化问题时是一种非常有利的工具。不仅在图像处理,甚至在机器学习中也常被用到。例如,在EM算法和支持向量机的推导中都用到了凸函数的性质。与函数的凹凸性紧密相连的是著名的詹森不等式。本书后续的许多定理都可以利用詹森不等式加以证明。
2.2.1 凸函数的概念
凸函数是一个定义在某个向量空间的凸子集C(区间)上的实值函数f,而且对于凸子集C中任意两个向量p1和p2,以及存在任意有理数θ∈(0,1),则有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P81_28368.jpg?sign=1739244449-AbYBJxaNFIfLOUWh4sQxiLv91E5bjMse-0-44fab04e2e3fe7252922ab664e467376)
如果f连续,那么θ可以改为(0,1)中的实数。若这里的凸子集θ即某个区间,那么f就为定义在该区间上的函数,p1和p2则为该区间上的任意两点。
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_10076.jpg?sign=1739244449-JvKpIFPhIQA0zOmcBLblzE3ZRAsYvKbA-0-1723a478419137e43afa3c5811d6c900)
图2-1 凸函数示意图
图2-1为一个凸函数示意图,结合图形,不难分析在凸函数的定义式中,θp2+(1-θ)p1可以看作是p1和p2的加权平均,因此fθp2+(1-θ)p1[
]是位于函数f曲线上介于p1和p2区间内的一点。而θf(p2)+(1-θ)f(p1)则是f(p1)和f(p2)的加权平均,也就是以f(p1)和f(p2)为端点的一条直线段上的一点,或者也可以从直线的两点式方程考查它。已知点(x1,y1)和(x2,y2),则可以确定一条直线的方程为
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28370.jpg?sign=1739244449-o4ksUClk7v6jtlijBoST0lUHcwhqmGcW-0-c45189effccc8fd88a229c8583f8421f)
现在已知直线上的两个点为[p1,f(p1)]和[p2,f(p2)],于是便可根据上式写出直线方程,即
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28372.jpg?sign=1739244449-Iaim2nSgMiJfzWRz0IlxKQHor2OrKsD2-0-f2fa2f51ec0d4bbd6498d87d07b16103)
然后又知直线上一点的横坐标为θp2+(1-θ)p1,代入上式便可求得其对应的纵坐标为θf(p2)+(1-θ)f(p1)。
如果f是定义在一个开区间(a,b)上的可微实值函数,那么f是一个凸函数的充要条件就是f′为定义在(a,b)上的一个单调递增的函数。
现在证明这个结论。首先证明充分性。假设f′在区间(a,b)上是单调递增的,证明f是一个凸函数。再假设p1<p2<p3是区间(a,b)上的三个点,根据拉格朗日中值定理,在(p1,p2)内至少存在一点ξ1,使得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_10103.jpg?sign=1739244449-vCrQVWOoop8GySKsAEYpfztt2I16e4bx-0-462af35385bdde7dc839d3b404bdcfa6)
同理,在(p2,p3)内至少存在一点ξ2,使得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28379.jpg?sign=1739244449-jxOAbuEAVtmxIrnAtWlm5NBQpyCjbLYl-0-9e30ded585ee83fe94054521d0a67e5e)
又因为f′是单调递增的,所以f′(ξ1)≤f′(ξ2),即
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28381.jpg?sign=1739244449-b1bqzkwkMVy3orgT374hPpZpJejUz0D8-0-c9ac04ad99c3bbf492a51368c24e3765)
因为p2∈(p1,p3),所以必然有一个λ∈(0,1)使得p2=λp1+(1-λ)p3。进而有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P82_28383.jpg?sign=1739244449-k6VhRd9Ck7WS2vA2ci6HC5otcFQCiPpx-0-92fd0684572c46a18fd119c4d93c5ea4)
这其实已经得到了想要的结论。但是最初如果假设p1<p3,这在原命题中是不存在的。为了去除这个条件,还需要再讨论p1>p3的情况。但基于已经得到的结论,这方面的讨论是非常容易的。此时,类似地可以得到
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28389.jpg?sign=1739244449-0ocvEBzUBBH6NdfXkp1RxYFAf7Qv16f4-0-230c34bc51dae96fd8c5a290f337d895)
这时可以令α=1-λ,于是便会得到
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28391.jpg?sign=1739244449-3EwSudqSVopuxz3ft0M1eUrsgKcZNogK-0-0ee8c5f4e303bbf53ec88db7337daa9e)
于是,当f′是一个单调递增函数时,f就是一个凸函数的结论得证。
现在来证明必要性。由f是一个凸函数出发来证明f′是一个单调递增函数。
方法一 假设f是定义在(a,b)上的凸函数。那么根据凸函数的定义,可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28393.jpg?sign=1739244449-FdEz3WCJNMgkW0JgCSysjFU4KkKAmX8j-0-1339a19f6f508785d0189880b76925b1)
其中,p1和p3为区间(a,b)上的任意两点,且p1<p3。对于p1和p3之间的任意一点p2,将之前的求证过程从后向前推导,便会得到结论
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28395.jpg?sign=1739244449-7nCiQe0rWCENnRpQBP0ZVXuvR3KzwAoD-0-89b7cafb2fd7d338117e3ff755631469)
根据导数的定义可知
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28397.jpg?sign=1739244449-EsJ06HT9JDqEHzkqxzCbAC8g3Uaxx79P-0-41cbc8806c7fb609fed384c92f42c07a)
因此可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28398.jpg?sign=1739244449-n9kzcVJ7PJnz1I9LRxQbdC1Yquy93Dyk-0-a467bab6c620b2afc3f3a8ce9993bfed)
即f′(p1)≤f′(p3),所以f′是单调递增的,必要性得证。
方法二 假设f是定义在(a,b)上的凸函数。那么根据凸函数的定义,可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28400.jpg?sign=1739244449-2Uy9zj5E27PDkyASd5dVcdUlgDWdWd0Z-0-b24f047f540d0000d43f43d2a5e0f274)
其中,p1和p2为区间(a,b)上的任意两点,且0≤λ≤1。
对于给定的a<p1<p2<b,定义函数
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P83_28402.jpg?sign=1739244449-uL7Xe5fbHKhBbZKLYGZNVzrXhwOy0Hfi-0-b3c14267faa9767b6db85f925b52766f)
显然在[0,1]上有g(λ)≤0,而且g(0)=g(1)=0。可见函数g(λ)在两个端点处取得最大值,也就是说g(λ)在大于0的某个子区间内是递减的,而在小于1的某个子区间内则是递增的,即g′(0)≤0≤g′(1)。再根据链式求导法则可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28407.jpg?sign=1739244449-UbSHdOIEcVeW5tYnA5vebQ7K9z2xEWd8-0-168611646af3c73974faa3c00f0b2fa7)
因为p1<p2,可知f′(p1)≤f′(p2),所以f′是单调递增的。
综上所述,结论得证。
更进一步地,如果对于每个x∈(a,b)而言,f″(x)都存在,那么f″(x)≥0也是f为凸函数的充分必要条件。
把本小节开头给出的凸函数定义拓展到3个变量p1、p2、p3和3个权重λ1,λ2和λ3的情况。此时,λ1+λ2+λ3=1,即λ2+λ3=1-λ1。所以有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28410.jpg?sign=1739244449-McI0ch5Shrn2SCeFDu8B7SVomM0ta7Kk-0-b5867e03dbc64b93c980b1d53154e6c1)
事实上,上面这个不等式关系很容易推广到n个变量和n个权重的情况,这个结论就是著名的詹森不等式。
2.2.2 詹森不等式及其证明
从凸函数的性质中所引申出来的一个重要结论就是詹森(Jensen)不等式:如果f是定义在实数区间[a,b]上的连续凸函数,x1,x2,…,xn∈[a,b]。并且有一组实数λ1,λ2,…,λn≥0满足=1,那么则有下列不等式关系成立
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28411.jpg?sign=1739244449-qV3C3vT8QTH6Ax8niLaUKJJLZHZvSXsj-0-6c45b41bb9ec40f957955b7c0b6fbe73)
如果函数f是凹函数,那么不等号方向逆转。
下面试着用数学归纳法来证明詹森不等式,注意我们仅讨论凸函数的情况,凹函数的证明与此类似。
证明 当n=2时,则根据上一小节给出的凸函数之定义可得命题显然成立。设n=k时命题成立,即对任意x1,x2,…,xk∈[a,b]以及α1,α2,…,αk≥0满足=1都有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28416.jpg?sign=1739244449-izUBT9s0D8RG7EDfuT5ANBCOInxUrv4R-0-957c49a37732c7cdda99836fea2ebbef)
现在假设x1,x2,…,xk,xk+1∈[a,b]以及λ1,λ2,…,λk,λk+1≥0满足=1,令
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P84_28420.jpg?sign=1739244449-Ay5KFoHw6M0YL7iLEXktJcbryocjsRPN-0-2afbdf7e9732d7a75f7786b105d69aa4)
如此一来,显然满足=1。由数学归纳法假设可推得(注意,第一个不等号的取得利用了n=2时的詹森不等式)
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28426.jpg?sign=1739244449-anpFeHvQIfjxrsrkD01On09lyGcBR6op-0-2c346b6314926345680d1c30c2e61137)
故命题成立。
不同资料上,所给出的詹森不等式可能具有不同的形式(但本质上它们是统一的)。如果把λ1,λ2,…,λn看做是一组权重,那就还可以从数学期望的角度去理解詹森不等式。即如果f是凸函数,X是随机变量,那么就有E[f(x)]≥f(E[X])。特别地,如果f是严格的凸函数,那么当且仅当X是常量时,上式取等号。
用图形来表示詹森不等式的结论是一目了然的。仍然以图2-7为例,假设随机变量X有θ的可能性取得值p2,有(1-θ)的可能性取得值p1,根据数学期望的定义可知E[X]=θp2+(1-θ)p1。同样道理,E[f(x)]=θf(p2)+(1-θ)f(p1)。所以可得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28430.jpg?sign=1739244449-fOmWdRoxWLQ1HDX7sO91tDGEN2fGEsmv-0-c54dcaed80d34d28a59a949b9d88fb09)
下面给出一个更为严谨的证明。假设f是一个可微的凸函数,对于任意的p1<p2,一定存在一个点ξ,p1<ξ<p2,满足
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28432.jpg?sign=1739244449-POyQaIpKTmlc3dSzO3lP3x9UcOA9gUAp-0-11cc6cd2be401d2d400bd646074d50fa)
注意这里应用了上一小节给出的定理,即f′是单调递增函数这个结论。进而有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28434.jpg?sign=1739244449-z9BghBcFVGvjMA2KFZ3Ita9zCwpBHTXV-0-0bf41d689bbbd5e4c625e045c20ab19f)
令p1=X,p2=E[X],重写上式就为
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28436.jpg?sign=1739244449-ovdplBCISUkJOncgsuzURymgCUIwAjbb-0-ba0f9eabd2ab96a88978ff5fed69013e)
然后对两边同时取期望,就得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28438.jpg?sign=1739244449-uXpJPmTnRsuvLe0Fv4GfQLsuXeGcU8a3-0-3c3ce238adeb920df911c2da95be06da)
其中不等式右边可进一步化简得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P85_28440.jpg?sign=1739244449-g5a4bCODcX2jdnF21JqoxksGd8WI3Na0-0-1f54db6dc419f5180730a9b48ce4b6ae)
于是结论得证。
2.2.3 詹森不等式的应用
詹森不等式在诸多领域都有重要应用,其中一个重要的用途就是证明不等式。本小节举两个例子演示詹森不等式的应用。首先,来看一下重要的算术-几何平均值不等式:
设x1,x2,…,xn为n个正实数,它们的算术平均数是An=(x1+x2+…+xn)/n,它们的几何平均数是Gn=。算术-几何平均值不等式表明,对于任意正实数,总有An≥Gn,等号成立当且仅当x1=x2=…=xn。
在下一章中,我们还会演示利用拉格朗日乘数法证明算术-几何平均值不等式的方法。现在先来看看如何用詹森不等式证明它。
证明 因为-lnx是一个凸函数,那么lnx显然就是一个凹函数。根据詹森不等式
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28451.jpg?sign=1739244449-X5b6UXJI68PLHWtKmbonBGscYdzGXu1e-0-af9988a0643fe797e8e6e4208e624e7c)
因为lnx是单调递增的,所以
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28452.jpg?sign=1739244449-f69Me8hA57h49ISBf2YbXBBGcUpLHNGK-0-92a4412ee7c745b98144bf9778b6e407)
所以结论得证。
在第3章中,本书会谈到闵可夫斯基不等式和柯西-施瓦茨不等式。闵可夫斯基不等式的证明用到了赫尔德(Hö lder)不等式,柯西-施瓦茨不等式则可被认为是赫尔德不等式的特殊情况。所以下面我们试着利用詹森不等式来证明赫尔德不等式。
赫尔德不等式:设对i=1,2,…,n,ai>0,bi>0,又p>1,p′>1,1/p+1/p′=1,则
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28454.jpg?sign=1739244449-mjthGcg9pVHqWLNNR5fcgnf7RYyfjboA-0-df9c2ea702f0c2ce08d5d1979c7dcaf3)
特别地,当p=p′=2时,得
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28455.jpg?sign=1739244449-lPHrruijULcHiEI7NJl7Os92oVsVgfHj-0-c877d3280be2ba01092b937a57e84278)
这其实就是本书后面还会介绍的柯西-施瓦茨不等式。
证明赫尔德不等式之前,先证明一个引理:当a>0,b>0,p>1,1/p+1/p′=1,则
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28457.jpg?sign=1739244449-bpV3p7ON5gKy4zhK49NqkKtplcOTSjfC-0-dcfcdb895f21dd4f3081866563e65414)
证明 令f(x)=-lnx,则f″(x)=x-2>0,x∈(0,+∞)。这样显然f(x)是定义在(0,+∞)上的凸函数。令1/p=λ1,1/p′=λ2,ap>0,bp′>0。由于p>1,显然p′>1。由詹森不等式可知
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28459.jpg?sign=1739244449-XXiad0knQ9V7INPaDRaAi81zWdEYXW70-0-3a2128718d93875d845909208afea56a)
两边同时取指数,于是可得证原结论成立。
下面证明赫尔德不等式。
证明 设
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P86_28461.jpg?sign=1739244449-b0sLSeZaN1jHt0TbFJ9IAp5OSXInTtAF-0-6abfe1ebcd0ebb547aeeaae1d5f14707)
则由上述引理可知
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P87_28467.jpg?sign=1739244449-uQneEZh44yjSPsRp0D10WfSuNKta0HQr-0-18fc545bc500e7bb7a9f0397aca68aed)
把i=1,2,…,n的n个不等式相加,则有
![](https://epubservercos.yuewen.com/7AE2D9/18225431908786506/epubprivate/OEBPS/Images/Figure-P87_28468.jpg?sign=1739244449-7jaOiNTO1Qzl0V9a6tdsVFUZHDgwC1Lu-0-baa9759a43b24c657cd59f1f0e7434e0)
结论得证。