考虑如下非线性不等式约束优化问题
${\mathop {\min }\limits_{x \in {R^n}} f\left( x \right)}$ | (0.1) |
${{\rm{s}}.{\rm{t}}.{c_i}\left( x \right) \le 0,i \in I \buildrel \Delta \over = \left\{ {1, \ldots ,m} \right\},}$ |
其中$f:{^n} \to $是凸函数但不一定光滑,ci(i∈I):${^n} \to $是连续可微的凸函数.
在一些实际问题中,有时很难精确计算f的函数值.例如,f是如下max-型函数
$f\left( x \right) = \max \{ {F_u}\left( x \right):u \in U\} ,$ | (0.2) |
其中对任意给定的u∈U,Fu:${^n} \to $是凸函数,U是一个无限集,此时无法计算f的精确值.然而,对于任意正数ε,可以在有限的时间内找出(0.2)的一个ε-解,即找出一个uε∈U满足Fuε(x)≥f(x)-ε,从而得到f(x)的近似值.因此,研究基于非精确数据的优化方法具有重要的意义[1-3].
文献[4]基于精确数据,提出一个求解问题(0.1)的强次可行方向法,其优点在于能接受不可行的初始点,且一旦产生一个可行迭代点,即自动变为可行下降算法.此外,算法可保证迭代点的强次可行性,同时能防止目标函数过度增大.文献[2]中提出一种非精确数据的思想,即假设对于给定的点x和误差限ε≥0,能够计算得到近似的函数值fε(x)≈f(x)和一个近似的次梯度gε≈g∈${\partial f\left( x \right)}$满足:
$\begin{array}{*{20}{l}} {{f_\varepsilon }\left( x \right) \in \left[ {f\left( x \right) - \varepsilon ,f\left( x \right) + \varepsilon } \right],}\\ \begin{array}{l} {g_\varepsilon } \in {\partial _\varepsilon }f\left( x \right) = \left\{ {g:f\left( y \right) \ge f\left( x \right) + \langle {\rm{ }}g,y - x\rangle - } \right.\\ \left. {\varepsilon ,\forall y \in {^n}} \right\}. \end{array} \end{array}$ |
本研究旨在对文献[4]的方法进行改进,结合文献[2]的思想,提出一个基于非精确 数据的非光滑优化强次可行方向法.
1 算法假设yj,j=1,…,k为试探点列,εj≥0为相应的误差限,${f_{{\varepsilon ^j}}}({y^j})$和$g_{{\varepsilon ^j}}^j$分别为yj处函数值和次梯度的近似,满足fεj(yj)∈[f(yj)-εj,f(yj)+εj]及$g_{{\varepsilon ^j}}^j$∈$\partial $εjf(yj).记gj=$g_{{\varepsilon ^j}}^j$,因此f在yj处的近似线性化可定义为[2]
${f_j}\left( x \right) = {f_{{\varepsilon ^j}}}({y^j}) + \langle {g^j},x - {y^j}\rangle - 2{\varepsilon ^j}.$ | (1.1) |
由gj∈$\partial $εjf(yj) 和f(yj)≥ fεj(yj)-εj可知
${f_j}\left( x \right) \le {\rm{ }}f\left( x \right),\forall x \in {^n}.$ | (1.2) |
进而可定义f的近似割平面模型
${{\hat f}^k}\left( x \right) = \max \{ {f_j}\left( x \right),j = 1, \ldots ,k\} .$ |
记问题(0.1)的可行集F={x∈${{^n}}$:ci(x)≤0,i∈I}.定义指标集I-(x)={i∈I:ci(x)≤0},I+(x)={i∈I:ci(x)>0},约束违反函数φ(x)=max{0,ci(x),i∈I}.引入改进函数[4]:
$\begin{array}{l} H\left( {y;x} \right) = \max \{ f\left( y \right) - f\left( x \right) - \delta \left( x \right);{c_i}\left( y \right),i \in \\ {I_ - }\left( x \right);{\rm{ }}{c_i}\left( y \right) - \varphi \left( x \right),i \in {I_ + }\left( x \right)\} , \end{array}$ |
其中δ(x):${{^n}}$→[0,+∞)连续,并满足δ(x)=0 当且仅当x∈F.对于第k次迭代,缩写${I^k}_ - = {I_ - }({x^k}),I_ + ^k = {I_ + }({x^k}),{\varphi ^k} = \varphi ({x^k}),{\delta ^k} = \delta ({x^k})$.
下面给出改进函数的性质.
引理1.1[4] 若问题(0.1)满足Slater约束规格,即存在一个向量x′∈${{\mathbb{R}}^{n}}$满足 ci(x′)<0,$\partial $i∈I,则以下3个命题等价:(i)x是问题(0.1)的最优解;(ii) min{H(y;x):y∈${{\mathbb{R}}^{n}}$=H(x;x)=0;(iii) 0∈$\partial $H(x;x).
基于引理1.1,并结合邻近点方法思想[5],选取新的试探点如下:
$\begin{array}{l} {y^{k + 1}} = \arg \min \{ H(y;{x^k}) + \frac{1}{2}{\rho ^k}y - {x^k}{^2}:y \in \\ {^n}\} , \end{array}$ | (1.3) |
其中ρk>0是邻近参数,xk∈{yj}j=1k为邻近中心点.然而,问题(1.3)的求解较困难.因此,基于非精确数据,并结合文献[4]的思想,本文提出如下寻找搜索方向子问题:
$\begin{array}{l} \mathop {\min }\limits_{d \in {^n},z \in } z + \frac{1}{2}{\rho ^k}d{^2},\\ {\rm{s}}.{\rm{t}}. - {\alpha ^k}_j + \langle {\rm{ }}{g^j},d\rangle \le z + {\delta ^k},j \in {J^k},\\ - \alpha _s^k + \langle {\rm{ }}{s^{k - 1}},d\rangle \le z + {\delta ^k},\\ {c_i}\left( {{x^k}} \right) + \langle \nabla {c_i}\left( {{x^k}} \right),d\rangle \le z,i \in I_ - ^k\\ {c_i}\left( {{x^k}} \right) + \langle \nabla {c_i}\left( {{x^k}} \right),d\rangle \le z + {\varphi ^k},i \in I_ + ^k \end{array}$ | (1.4) |
其中z∈R是一个辅助变量,${{J}^{k}}\subseteq \left\{ 1,\ldots ,k \right\},\alpha _{j}^{k}={{f}_{\varepsilon }}({{x}^{k}})-f_{j}^{k}+\varepsilon ,$ $\alpha _{s}^{k}={{f}_{\varepsilon }}({{x}^{k}})-f_{s}^{k}+\varepsilon ,f_{j}^{k}={{f}_{j}}({{x}^{k}});{{s}^{k-1}}$和fsk分别为过往的近似函数值和次梯度的聚集(具体将在算法中明确),文献[6]中证明存在λj≥0,j=1,…,k-1,使得
$({s^{k - 1}},f_s^k) = \sum\limits_{j = 1}^{k - 1} {{{\bar \lambda }_j}({g^j},f_j^k)} ,\sum\limits_{k - 1}^{j = 1} {{{\bar \lambda }_j} = 1} .$ | (1.5) |
设(dk,zk)是(1.4)式的最优解.由于(1.4)式是一个带线性约束的凸规划,故(dk,zk)亦为(1.4)式的KKT点,即存在乘子λjk,j∈Jk,λsk,μik,i∈I,使得
$\begin{array}{l} {\rho ^k}{d^k} + \sum\limits_{j \in {J^k}} {\lambda _j^k} {g^j} + \lambda _s^k{s^{k - 1}} + {\rm{ }}\sum\limits_{i \in I} {\mu _i^k} \nabla {\rm{ }}{c_i}\left( {{x^k}} \right) = 0,\\ \sum\limits_{j \in {J^k}} {\lambda _j^k + \lambda _s^k} + \sum\limits_{i \in I} {\mu _i^k = 1} ,\\ 0 \le \lambda _j^k \bot \left( { - \alpha _j^k + \langle {g^j},{d^k}\rangle - {z^k} - {\delta ^k}} \right) \le 0,\\ j \in {J^k},\\ 0 \le \lambda _s^k \bot \left( { - \alpha _s^k + \left\langle {{s^{k - 1}},{d^k}} \right\rangle - {z^k} - {\delta ^k}} \right) \le 0,\\ 0 \le \mu _j^k \bot \left( {{c_i}\left( {{x^k}} \right) + \left\langle {{\nabla _i}\left( {{x^k}} \right),{d^k}} \right\rangle - {z^k}} \right) \le 0,\\ i \in I_ - ^k,\\ 0 \le {\mu ^k}_i \bot \left( {{c_i}\left( {{x^k}} \right) + \left\langle {\nabla {c_i}\left( {{x^k}} \right),{d^k}} \right\rangle - {z^k} - {\varphi ^k}} \right) \le 0,\\ i \in I_ + ^k. \end{array}$ | (1.6) |
更新聚集次梯度如下:
$({s^k},_s^k) = \frac{1}{{{\theta ^k}}}(\sum\limits_{j \in {J^k}} {\lambda _j^k({g^j},f_j^k)} + \lambda _s^k({s^{k - 1}},f_s^k)),$ | (1.7) |
其中${\theta ^k} = \sum\limits_{j \in {J^k}} {\lambda _j^k + } \lambda _s^k$(不失一般性假设θk>0).
记$\overset{\vee }{\mathop{\text{ }a}}\,_{s}^{k}={{f}_{\varepsilon }}({{x}^{k}})-\overset{\vee }{\mathop{\text{ }f}}\,_{s}^{k}+\varepsilon $,有 $\sum\limits_{j\in {{J}^{k}}}{\lambda _{j}^{k}\alpha _{j}^{k}+\lambda _{s}^{k}\alpha _{j}^{k}={{\theta }^{k}}\overset{\vee }{\mathop{\text{ }a}}\,_{j}^{k}}$.
以下引理给出子问题(1.4)的解的性质.
引理1.2 设(dk,zk)是问题(1.4)的最优解,则
$(\text{i}){{z}^{k}}=-({{\rho }^{k}}{{\left\| {{d}^{k}} \right\|}^{2}}+{{\overset{\vee }{\mathop{\text{ }a}}\,}^{k}}),$ | (1.8) |
其中,
${{\overset{\vee }{\mathop{\text{ }a}}\,}^{k}}={{\theta }^{k}}(\overset{\vee }{\mathop{\text{ }a}}\,_{s}^{k}+{{\delta }^{k}})-\sum\limits_{i\in I_{-}^{k}}{{{\mu }^{k}}_{i}{{c}_{i}}({{x}^{k}})}-\sum\limits_{i\in I_{+}^{k}}{{{\mu }^{k}}_{i}{{c}_{i}}({{x}^{k}})}-{{\varphi }^{k}}).$ | (1.9) |
$\begin{array}{*{35}{l}} (\text{ii}){{g}^{j}}\in {{\partial }_{\in }}f\left( {{x}^{k}} \right),\in =\alpha _{j}^{k},j=1,\ldots ,k, \\ {{s}^{k}}\in {{\partial }_{\in }}f\left( {{x}^{k}} \right),\in =\overset{\vee }{\mathop{\text{ }a}}\,_{s}^{k}, \\ -{{\rho }^{k}}{{d}^{k}}\in {{\partial }_{\in }}H\left( {{x}^{k}};{{x}^{k}} \right),\in ={{\overset{\vee }{\mathop{\text{ }a}}\,}^{k}}. \\ \end{array}$ | (1.10) |
(iii) 如果zk=0,则dk=0,且xk是问题(0.1)的一个最优解.
证明 (i) 由KKT条件(1.6)中的互补关系和(1.7)式有
$\begin{align} & {{z}^{k}}=-{{\rho }^{k}}{{\left\| {{d}^{k}} \right\|}^{2}}+\sum\limits_{j\in {{J}^{k}}}{\lambda _{j}^{k}}\left( -\alpha _{j}^{k}-{{\delta }^{k}} \right)+ \\ & \lambda _{s}^{k}(-\alpha _{s}^{k}-{{\delta }^{k}})+\sum\limits_{i\in I_{-}^{k}}{\mu _{j}^{k}}{{c}_{i}}({{x}^{k}})+\sum\limits_{i\in I_{+}^{k}}{\mu _{j}^{k}}({{c}_{i}}({{x}^{k}})- \\ & {{\varphi }^{k}})=-{{\rho }^{k}}{{\left\| {{d}^{k}} \right\|}^{2}}-{{\theta }^{k}}(\overset{\vee }{\mathop{\text{ }a}}\,_{s}^{k}+{{\delta }^{k}})+\sum\limits_{i\in I_{-}^{k}}{\mu _{j}^{k}}{{c}_{i}}({{x}^{k}})+ \\ & \sum\limits_{i\in I_{+}^{k}}{\mu _{j}^{k}}({{c}_{i}}({{x}^{k}})-{{\varphi }^{k}})=-({{\rho }^{k}}{{\left\| {{d}^{k}} \right\|}^{2}}+{{\overset{\vee }{\mathop{\text{ }a}}\,}^{k}}). \\ \end{align}$ |
故(1.8)式成立.
(ii) 由(1.2)式知,
$\begin{array}{l} f\left( x \right) \ge {f_j}\left( x \right) = f_j^k + \left\langle {{g^j},x - {x^k}} \right\rangle = f\left( {{x^k}} \right) - \\ f\left( {{x^k}} \right) + f_j^k + \left\langle {{g^j},x - {x^k}} \right\rangle \ge {\rm{ }}f\left( {{x^k}} \right) + \langle {g^j},x - \\ {x^k}\rangle + f_j^k - ({f_\varepsilon }({x^k}) + \varepsilon ){\rm{ }} = f({x^k}) + {\rm{ }}\left\langle {{g^j},x - {x^k}} \right\rangle - \alpha _j^k, \end{array}$ | (1.11) |
从而(1.10)式的第一个式子成立.类似地,根据(1.5)式知
$f\left( x \right) \ge f({x^k}) + \left\langle {{\rm{ }}{s^{k - 1}},x - {x^k}} \right\rangle - \alpha _s^k.$ | (1.12) |
在(1.11)式和(1.12)式两边分别乘以λjk,j∈Jk和λsk再进行求和,有
$f\left( x \right)\ge f({{x}^{k}})+\left\langle {{s}^{k}},x-{{x}^{k}} \right\rangle -\overset{\vee }{\mathop{\text{ }a}}\,_{s}^{k},$ | (1.13) |
故(1.10)式的第二个式子成立.
根据ci的凸性,有
${c_i}\left( x \right) \ge {\rm{ }}{c_i}({x^k}) + \langle \nabla {\rm{ }}{c_i}({x^k}),x - {x^k}\rangle .$ |
因此,
$\begin{array}{l} \sum\limits_{i \in I} {\mu _i^k} {c_i}\left( x \right) \ge \sum\limits_{i \in I} {\mu _i^k} ({c_i}({x^k}) + \langle \nabla {\rm{ }}{c_i}({x^k}),x - \\ {x^k}\rangle ). \end{array}$ |
此式结合(1.6)式,(1.13)式,θk≤1及H(xk;xk)=0可得
$\begin{array}{*{35}{l}} H\left( x;{{x}^{k}} \right)=\max \left\{ f\left( x \right)-f\left( {{x}^{k}} \right)-{{\delta }^{k}};{{c}_{i}}\left( x \right),i\in \right. \\ I_{-}^{k};{{c}_{i}}\left( x \right)-{{\varphi }^{k}},i\in {{I}^{k}}_{+}\ge {{\theta }^{k}}\left( f\left( x \right)-f\left( {{x}^{k}} \right)-{{\delta }^{k}} \right)+ \\ \sum\limits_{i\in I}{\mu _{i}^{k}}{{c}_{i}}\left( x \right)-\sum\limits_{i\in I_{+}^{k}}{\mu _{i}^{k}}{{\varphi }^{k}}\ge {{\theta }^{k}}\left( \left\langle {{s}^{k}},x-{{x}^{k}} \right\rangle -\overset{\vee }{\mathop{\text{ }a}}\,_{s}^{k}-{{\delta }^{k}} \right)+ \\ \sum\limits_{i\in I}{\mu _{i}^{k}}{{c}_{i}}\left( {{x}^{k}} \right)+\sum\limits_{i\in I}{\mu _{i}^{k}}\left\langle \nabla {{c}_{i}}\left( {{x}^{k}} \right),x-{{x}^{k}} \right\rangle -\sum\limits_{i\in I_{+}^{k}}{\mu _{i}^{k}}{{\varphi }^{k}}= \\ H\left( {{x}^{k}};{{x}^{k}} \right)+\left\langle -{{\rho }^{k}}{{d}^{k}},x-{{x}^{k}} \right\rangle -\left( {{\theta }^{k}}\left( \overset{\vee }{\mathop{\text{ }a}}\,_{s}^{k}+{{\delta }^{k}} \right)- \right. \\ \left. \sum\limits_{i\in {{I}^{k}}_{-}}{\mu _{i}^{k}}{{c}_{i}}\left( {{x}^{k}} \right)-\sum\limits_{i\in I_{+}^{k}}{\mu _{i}^{k}}\left( {{c}_{i}}\left( {{x}^{k}} \right)-{{\varphi }^{k}} \right) \right)=H\left( {{x}^{k}};{{x}^{k}} \right)+ \\ \left\langle -{{\rho }^{k}}{{d}^{k}},x-{{x}^{k}} \right\rangle -{{\overset{\vee }{\mathop{\text{ }a}}\,}^{k}}. \\ \end{array}$ |
由此证明(1.10)式的第三个式子.
(iii) 由于${{\overset{\vee }{\mathop{\text{ }a}}\,}^{k}}$≥0,故由(1.8)式知,当zk=0时有ρkdk=0和${{\overset{\vee }{\mathop{\text{ }a}}\,}^{k}}$=0,从而$0 \in \partial H({x^k};{x^k})$;xk).故根据引理1.1(iii) 知xk是问题(0.1)的一个最优解.
算法1.1
步骤0(初始化) 选取初始点x1∈Rn,初始误差限ε1≥0,终止参数εTOL≥0,线搜索参数β∈(0,1),邻近参数ρmin>0,ρ1>ρmin,步长下界t∈(0,0.1].选择两个线搜索参数mL和mR满足0<mL<mR<1.令y1=x1,s0=g1∈$\partial $ε1 f(x1),fs1=f11=fε1(x1),J1={1}.置k=1,l=0 及k(0)=1.
步骤1(寻找搜索方向) 令ε=εk,求解子问题(1.4)得到最优解(dk,zk)和乘子λjk,j∈Jk,λsk,μik,i∈I.根据(1.7)式计算sk,$\mathop f\limits^ \vee $sk 和αsk.
步骤2(误差限更新) 如果εk>-(mR-mL)tzk/5,置εk=εk/2并返回步骤1; 否则,转步骤3.
步骤3(终止准则) 如果zk≥-εTOL,算法终止;否则,转步骤4.
步骤4(线搜索) 计算试探步长tk,它是序列{1,β,β2,…}中第一个满足下列不等式组的t值:
${c_i}({x^k} + t{\rm{ }}{d^k}) \le {\varphi ^k} + {m_L}t{\rm{ }}{z^k},i \in I_ + ^k,$ | (1.14) |
${c_i}({x^k} + t{\rm{ }}{d^k}) \le 0,i \in I_ - ^k.$ | (1.15) |
如果
${f_{{\varepsilon ^k}}}({x^k} + {t^k}{d^k}) \le {f_{{\varepsilon ^k}}}({x^k}) + {m_L}{t^k}{z^k} + {t^k}{\delta ^k} - 2{\varepsilon ^k},$ |
则令tLk=tk(有效步)及辅助步长tRk=tk,置k(l+1)=k+1,l:=l+1;否则令tLk=0(无效步)及tRk=max{t,tk}.
步骤5(更新) 令${\varepsilon ^{k + 1}} = {\varepsilon ^k},{x^{k + 1}} = {x^k} + {t^k}_L{d^k},{y^{k + 1}} = {x^k} + {t^k}_R{d^k}$.选取${{\hat J}^k} \subseteq {J^k}$并令${J^{k + 1}} = {{\hat J}^k} \cup \left\{ {k + 1} \right\}$,计算${g^{k + 1}} \in {\partial _{{\varepsilon ^{k + 1}}}}f({y^{k + 1}})$及$f_{k + 1}^{^{k + 1}} = {f_{{\varepsilon ^{k + 1}}}}({y^{k + 1}}) + \left\langle {{\rm{ }}{g^{k + 1}},{x^{k + 1}} - {y^{k + 1}}} \right\rangle - 2{\varepsilon ^{k + 1}}$,
$\begin{align} & f_{j}^{k+1}=f_{j}^{k}+\left\langle {{g}^{j}},{{x}^{k+1}}-{{x}^{k}} \right\rangle ,j\in {{{\hat{J}}}^{k}}, \\ & f_{s}^{k+1}=\overset{\vee }{\mathop{\text{ }f}}\,_{s}^{k}+\left\langle {{s}^{k}},{{x}^{k+1}}-{{x}^{k}} \right\rangle . \\ \end{align}$ | (1.16) |
步骤6(邻近参数选择) 如果${x^{k + 1}} \ne {x^k}$,取${\rho ^{k + 1}} \in [{\rho _{\min }},{\rho ^k}]$; 否则,ρk+1=ρk.
步骤7 令k:=k+1,返回步骤1.
引理 1.3[4] 算法1.1是适定的,即线搜索(1.14)和(1.15)能在有限次计算后终止.
引理 1.4 算法1.1必定出现以下两种情形之一.
(i) 存在一个指标k0使得φk0=0,从而φk≡0,δk≡0和f(xk+1)≤f(xk),对于所有的k≥ k0成立;
(ii) 对任意的k,有${\varphi ^k} > 0,{\varphi ^{k + 1}} \le {\varphi ^k},{I^k}_ - \subseteq {I^{k + 1}}_ - $.
证明 (i) 由步骤4可知,φk≡0及δk≡0对k≥k0成立.现证明f(xk+1)≤f(xk).根据步骤4,如果是一个有效步,由zk<0可得
$\begin{array}{l} f({x^{k + 1}}) \le {f_{{\varepsilon ^k}}}({x^{k + 1}}) + {\varepsilon ^k} \le {f_{{\varepsilon ^k}}}({x^k}) + {m_L}{t^k}_L{z^k} - \\ {\varepsilon ^k} \le f({x^k}) + {m_L}{t^k}_L{z^k} \le f({x^k}). \end{array}$ |
若是一个无效步,则有f(xk+1)=f(xk).
(ii) 根据线搜索(1.14)和(1.15)易证.
2 算法的收敛性在以下收敛分析中取εTOL=0.若算法有限步终止于xk点,则由步骤3可知zk=0,因此由引理1.2(iii) 得xk是问题(0.1)的一个最优解.假设算法产生一个无限迭代点列,以下将证明该序列的任一聚点都是问题(0.1)的一个最优解.根据引理1.4,在下面的分析中不妨假设${I^k}_ - \equiv {I_ - },{I^k}_ + \equiv {\rm{ }}{I_ + }$.
引理2.1 邻近参数序列{ρk}单调不增,且有正的下界.
证明 根据步骤6,显然{ρk} 单调不增,且ρk≥ρmin>0.
引理2.2 假设存在无限指标集$K \subseteq \left\{ {1,2, \ldots } \right\}$和一个点x∈Rn满足${x^k}{\rm{ }}\bar x$及${z^k}0$,则是问题(0.1)的一个最优解.
证明 由${z^k}0$和(1.8)式知ρkdk→0,$\mathop a\limits^ \vee $k→0,k∈K.故由${x^k}{\rm{ }}\bar x$及引理1.2知$0 \in \partial H\left( {\bar x;\bar x} \right)$,因此是问题(0.1)的一个最优解.
分两种情形证明.首先考虑有无限个有效步的情形.类似文献[7],有如下引理.
引理2.3 假设存在一个无限指标集$L \subseteq \left\{ {1,2, \ldots } \right\}$和一个点x∈Rn使得xk(l)→x, l→∞,l∈ L,则是问题(0.1)的一个最优解.
接下来考虑有效步有限的情形,即存在一个指标使得xk=xk,k≥k.下面证明xk是问题(0.1)的一个最优解.
引理2.4 令${{\omega }^{k}}=\frac{1}{2}{{\rho }^{k}}{{\left\| {{d}^{k}} \right\|}^{2}}+{{\rho }^{k}}{{\overset{\vee }{\mathop{\text{ }a}}\,}^{k}}$,则ωk是以下问题的最优值
$\begin{array}{l} \min \frac{1}{2}\sum\limits_{j \in {\rm{ }}{J^k}} {{\lambda _j}} {g^j} + {\lambda _s}{s^{k - 1}} + \\ \sum\limits_{i \in {\rm{ }}I} {{\mu _i}} \nabla {c_i}({x^k}){^2} - {\rho ^k}[\sum\limits_{j \in {J^k}} {{\lambda _j}} ( - {\alpha ^k}_j - {\rm{ }}{\delta ^k}) - {\lambda _s}( - {\alpha ^k}_s - \\ {\delta ^k}) - \sum\limits_{i \in {I_ - }} {{\mu _i}{c_i}({x^k})} - \sum\limits_{i \in {I_ + }} {{\mu _i}({c_i}({x^k})} - {\varphi ^k}){\rm{ }}]\\ {\rm{s}}.{\rm{t}}.{\lambda _j} \ge 0,j \in {J^k},{\lambda _s} \ge 0,{\mu _i} \ge 0,i \in I,\\ \sum\limits_{j \in {J^k}} {{\lambda _j}} + {\lambda _s} + \sum\limits_{i \in I} {{\mu _i} = 1} . \end{array}$ | (2.1) |
证明 由于问题(2.1)是问题(1.4)的对偶问题,故问题(2.1)的最优解即为问题(1.4)的KKT乘子.因此,由(1.6)式,(1.9)式及ωk的定义可得结论成立.
引理 2.5[6] 设n维向量d,g及数η∈(0,1),ρ>0,C,ω,z,$\mathop a\limits^ \vee $和α满足
$\omega = \frac{1}{2}\rho {\rm{ }}d{^2} + \rho \mathop \alpha \limits^ \vee ,z = - (\rho d{^2} + \mathop \alpha \limits^ \vee ),$ |
$ - \alpha + \left\langle {g,d} \right\rangle \ge {\rm{ }}\eta {\rm{ }}z,C \ge \max \left\{ {\rho {\rm{ }}d,g,\mathop \alpha \limits^ \vee ,1} \right\}.$令ω=min{Q(υ):υ∈0, 1]},其中$Q\left( \upsilon \right) = \frac{1}{2}\left( {1 - \upsilon } \right)\left( { - \rho {\rm{ }}d} \right) + \upsilon {\rm{ }}g{^2} + \rho \left[ {\left( {1 - \upsilon } \right)\mathop \alpha \limits^ \vee + \upsilon \alpha } \right]$,则$\bar \omega \le \omega - {\rho ^2}{\left( {1 - \eta } \right)^2}{\omega ^2}/8{C^2}$.
基于引理2.5,得到以下一个重要的结论.
引理 2.6 假设对于某个k>1有tLk=0及εk-1=εk,则
$({\rm{i}}) - ({\alpha ^k}_k + {\delta ^{k - 1}}) + \left\langle {{g^k},{d^{k - 1}}} \right\rangle \ge {m_{_R}}{z^{k - 1}},$ | (2.2) |
其中$\varepsilon _k^k = {f_{{\varepsilon ^k}}}({x^k}) - {f^k}_k + {\varepsilon ^k}$;
$\begin{array}{l} ({\rm{ii}}){\omega ^k} \le {\omega ^{k - 1}} - {\left( {{\rho ^{k - 1}}} \right)^2}(1 - \\ {m_{_R}}{)^2}{({\omega ^{k - 1}})^2}/8{({C^k})^2}, \end{array}$ | (2.3) |
其中Ck满足Ck≥max{‖ρk-1 dk-1‖,‖gk‖,${{\overset{\vee }{\mathop{\alpha }}\,}^{k-1}}$,1}.
证明 (i) 由算法1.1中步骤4知当tLk-1=0,εk-1=εk时,xk=xk-1,yk=xk-1+tRk-1dk-1,且有
${f_{{\varepsilon ^k}}}({y^k}) > {f_{{\varepsilon ^k}}}({x^{k - 1}}) + {m_L}t_R^{k - 1}{z^{k - 1}} + t_R^{k - 1}{\delta ^{k - 1}} - 2{\varepsilon ^k}.$ | (2.4) |
因此,由(1.1)式和(2.4)式有
$\begin{array}{l} - \left( {{\alpha ^k}_k + {\delta ^{k - 1}}} \right) = - \left( {{f_{{\varepsilon ^k}}}\left( {{x^k}} \right) - {f^k}_k + {\varepsilon ^k}} \right) - {\delta ^{k - 1}} = \\ - ({f_{{\varepsilon ^k}}}({x^k}) - {f_{{\varepsilon ^k}}}({y^k}) - \left\langle {{g^k},{x^k} - {y^k}} \right\rangle + 3{\varepsilon ^k}) - \\ {\delta ^{k - 1}} = - ({f_{{\varepsilon ^k}}}({x^{k - 1}}) - {f_{{\varepsilon ^k}}}({y^k}) - \left\langle {{\rm{ }}{g^k},{x^{k - 1}} - {y^k}} \right\rangle + \\ 3{\varepsilon ^k}) - {\delta ^{k - 1}} = {f_{{\varepsilon ^k}}}({y^k}) - {t^{k - 1}}_R\left\langle {{g^k},{d^{k - 1}}} \right\rangle - {f_{{\varepsilon ^k}}}({x^{k - 1}}) - \\ {\delta ^{k - 1}} - 3{\varepsilon ^k} \ge {m_{_L}}t_R^{k - 1}{z^{k - 1}} - t_R^{k - 1}\left\langle {{g^k},{d^{k - 1}}} \right\rangle + (1 - \\ {t^{k - 1}}_R){\delta ^{k - 1}} - 5{\varepsilon ^k}. \end{array}$ | (2.5) |
由${\varepsilon ^k}_k = {f_{{\varepsilon ^k}}}({x^k}) - {f^k}_k + {\varepsilon ^k} \ge {\rm{ }}f({x^k}) - {f^k}_k \ge 0$知${\varepsilon ^k}_k = {f_{{\varepsilon ^k}}}({x^{k - 1}}) - {f_{{\varepsilon ^k}}}({y^k}) + {t^{k - 1}}_R\left\langle {{g^k},{d^{k - 1}}} \right\rangle + 3{\varepsilon ^k} \ge 0$,
因此根据(2.4)式可得
$\left\langle {{g^k},{d^{k - 1}}} \right\rangle \ge {\rm{ }}{m_{_L}}{z^{k - 1}} + {\delta ^{k - 1}} - 5{\varepsilon ^k}/t_R^{k - 1}.$ | (2.6) |
结合(2.5)式,(2.6)式和$t_R^{k - 1} \in \left[ {t,1} \right]$得
$\begin{array}{l} - ({\alpha ^k}_k + {\delta ^{k - 1}}) + \left\langle {{g^k},{d^{k - 1}}} \right\rangle \ge {m_L}t_R^{k - 1}{z^{k - 1}} + (1 - \\ t_R^{k - 1})(\left\langle {{g^k},{d^{k - 1}}} \right\rangle - {\delta ^{k - 1}}) - 5{\varepsilon ^k} \ge {\rm{ }}{m_L}t_R^{k - 1}{z^{k - 1}} + (1 - \\ t_R^{k - 1})({m_{_L}}{z^{k - 1}} - 3{\varepsilon ^k}/t_R^{k - 1}) - 5{\varepsilon ^k} = {m_L}{z^{k - 1}} - 5{\varepsilon ^k}/{t^{k - 1}}_R \ge \\ {m_L}{z^{k - 1}} - 5{\varepsilon ^k}/t{\rm{ }} \end{array}$ |
由步骤2知$5{{\varepsilon }^{k}}/\underset{\raise0.3em\hbox{$\smash{\scriptscriptstyle-}$}}{t}=5{{\varepsilon }^{k-1}}/\underset{\raise0.3em\hbox{$\smash{\scriptscriptstyle-}$}}{t}>-({{m}_{R}}-{{m}_{L}}){{z}^{k-1}}$,从而得到
$ - ({\alpha ^k}_k + {\delta ^{k - 1}}) + \left\langle {{g^k},{d^{k - 1}}} \right\rangle \ge {m_R}{z^{k - 1}}.$ |
(ii) 对任意的υ∈>[0, 1],定义问题(2.1)的可行解
$\begin{array}{*{20}{l}} {{\lambda _k}\left( \upsilon \right) = \upsilon ,{\lambda _j}\left( \upsilon \right) = 0,j \in {J^k}\left\{ k \right\},}\\ {{\lambda _s}\left( \upsilon \right) = \left( {1 - \upsilon } \right){\theta ^{k - 1}},{\mu _i}\left( \upsilon \right) = \left( {1 - \upsilon } \right){\mu ^{k - 1}}_i,i \in I.} \end{array}$ |
由(1.16)式和xk-1=xk可得
$\begin{array}{*{35}{l}} {{\alpha }^{k}}_{s}={{f}_{{{\varepsilon }^{k}}}}({{x}^{k}})-{{f}^{k}}_{s}+{{\varepsilon }^{k}}={{f}_{{{\varepsilon }^{k}}}}({{x}^{k-1}})-\overset{\vee }{\mathop{\text{ }f}}\,_{s}^{k-1}+{{\varepsilon }^{k}}= \\ \overset{\vee }{\mathop{\alpha }}\,_{s}^{k-1}, \\ \end{array}$ | (2.7) |
因此
$\begin{array}{l} \sum\limits_{j \in {J^k}} {{\lambda _j}\left( \upsilon \right){\rm{ }}{g^j}} + {\lambda _s}\left( \upsilon \right){s^{k - 1}} + \sum\limits_{i \in I} {{\mu _i}\left( \upsilon \right)} \nabla {\rm{ }}{c_i}\left( {{x^k}} \right) = \\ \upsilon {g^k} + \left( {1 - \upsilon } \right){\theta ^{k - 1}}{s^{k - 1}} + \left( {1 - \upsilon } \right)\sum\limits_{i \in I} {\mu _i^{k - 1}} \nabla {\rm{ }}{c_i}\left( {{x^{k - 1}}} \right) = \\ \upsilon {g^k} + \left( {1 - \upsilon } \right)( - {\rho ^{k - 1}}{d^{k - 1}}). \end{array}$ |
此外,根据(2.7)式有
$\begin{align} & -\sum\limits_{j\in {{J}^{k}}}{{{\lambda }_{j}}}\left( -{{\alpha }^{k}}_{j}-{{\delta }^{k}} \right)-{{\lambda }_{s}}\left( -{{\alpha }^{k}}_{s}-{{\delta }^{k}} \right)- \\ & \sum\limits_{i\in {{I}_{-}}}{{{\mu }_{i}}{{c}_{i}}({{x}^{k}})}-\sum\limits_{i\in {{I}_{+}}}{{{\mu }_{i}}({{c}_{i}}({{x}^{k}})-{{\varphi }^{k}})}=-\upsilon (-\alpha _{k}^{k}-{{\delta }^{k}})- \\ & \left( 1-\upsilon \right){{\theta }^{k-1}}(-{{\alpha }^{k}}_{s}-{{\delta }^{k}})-\left( 1-\upsilon \right)\sum\limits_{i\in {{I}_{-}}}{{{\mu }_{i}}^{k-1}{{c}_{i}}({{x}^{k}})}-\left( 1- \right. \\ & \upsilon )\sum\limits_{i\in {{I}_{+}}}{{{\mu }_{i}}^{k-1}}({{c}_{i}}({{x}^{k}})-{{\varphi }^{k}})=\upsilon ({{\alpha }^{k}}_{k}+{{\delta }^{k-1}})+\left( 1- \right. \\ & \upsilon )({{\theta }^{k-1}}(\overset{\vee }{\mathop{\alpha }}\,_{s}^{k-1}+{{\delta }^{k-1}})-\sum\limits_{i\in {{I}_{-}}}{{{\mu }_{i}}^{k-1}}{{c}_{i}}({{x}^{k-1}})- \\ & \sum\limits_{i\in {{I}_{+}}}{{{\mu }_{i}}^{k-1}}({{c}_{i}}({{x}^{k-1}})-{{\varphi }^{k-1}}))=\upsilon ({{\alpha }^{k}}_{k}+{{\delta }^{k-1}})+\left( 1-\upsilon \right) \\ & {{\overset{\vee }{\mathop{\alpha }}\,}^{k-1}}. \\ \end{align}$ |
令ω是如下问题的最优值
$\begin{align} & \min \frac{1}{2}{{\left\| \left( 1-\upsilon \right)\left( -{{\rho }^{k-1}}{{d}^{k-1}} \right)+\upsilon {{g}^{k}} \right\|}^{2}}+ \\ & {{\rho }^{k-1}}[\left( 1-\upsilon \right){{\overset{\vee }{\mathop{\alpha }}\,}^{k-1}}+\upsilon ({{\alpha }^{k}}_{k}+{{\delta }^{k-1}})], \\ & \text{s}.\text{t}.\upsilon \in [0,1]. \\ \end{align}$ |
则由引理2.4知ωk≤ω.在定理2.5中令d=dk-1,g=gk,η=mR,ρ=ρk-1,ω=ωk-1,z=zk-1,$\overset{\vee }{\mathop{\alpha }}\,={{\overset{\vee }{\mathop{\alpha }}\,}^{k-1}}$,α=αkk+δk-1,并结合(2.2)式,我们有ωk≤ω≤ ωk-1-(ρk-1)2(1-mR)2(ωk-1)2/8(Ck)2.
定理 2.1 (i) 如果算法1.1有限步终止于第k次迭代,则xk是问题(0.1)的一个最优解;(ii) 如果算法1.1在第k次迭代时无限次在步骤1与步骤2之间循环,则xk是问题(0.1)的一个最优解;(iii) 如果算法1.1产生一个无限迭代序列{xk},则其任一聚点x*都是问题(0.1)的一个最优解.
证明 (i) 如果算法1.1有限次终止于点xk,则zk=0.根据引理1.2知xk是问题(0.1)的一个最优解.
(ii) 如果算法在第k次迭代时于步骤1 与步骤2 之间无限次循环,此时因为每次在步骤2 中εk 减半,$({{m}_{R}}-{{m}_{L}})>0,-{{z}^{k}}={{\rho }^{k}}{{\left\| {{d}^{k}} \right\|}^{2}}+{{\overset{\vee }{\mathop{\varepsilon }}\,}^{k}}\ge 0$,所以${\varepsilon ^k} \to 0,{z^k} \to 0$. 由引理2.2知xk是问题(0.1)的一个最优解.
(iii) 现在假设算法1.1产生一个无限迭代序列{xk},且x*是其任一聚点.则分两种情况证明x*是问题(0.1)的一个最优解.
情形 1 有无限多个有效步.此时,必然存在无限指标集$L \subseteq \left\{ {1,2, \ldots } \right\}$使得${x^{k(l)}} \to {\rm{ }}{x^*},l \to \infty ,l \in L$.因此,根据引理2.3知x*是问题(0.1)的一个最优解.
情形 2 有效步有限.则存在一个指标使得${x^k} \equiv {x^{\bar k}} = {x^*}$且有ρk≡ρ.如果εk→0,类似与(ii) 的证明,知x*是问题(0.1)的一个最优解.设对于任意的k≥k有εk≡ε>0,此时存在一个常数C>0使得$C \ge \max \{ \rho {\rm{ }}{d^{k - 1}},{g^k},\alpha {^{k - 1}},1\} ,\forall k \ge \bar k$.结合(2.3)式,有
${\omega ^k} \le {\omega ^{k - 1}} - {\rho ^2}{(1 - {m_{_R}})^2}{({\omega ^{k - 1}})^2}/8{C^2},$ |
由此可得ωk→0,k→∞,从而zk→0,k→∞.因此,由引理2.2可知x*是问题(0.1)的一个最优解.
[1] |
KIWIEL K C. An alternating linearization bundle method for convex optimization and nonlinear multicommodity flow problems[J]. Mathematical Programming, 2011, 130(1): 59-84. DOI:10.1007/s10107-009-0327-0 |
[2] |
KIWIEL K C. An algorithm for nonsmooth convex minimization with errors[J]. Mathematics of Computation, 1985, 171(45): 173-180. |
[3] |
KIWIEL K C. A method of centers with approximate subgradient linearizations for nonsmooth convex optimization[J]. SIAM Journal on Optimization, 2007, 18(4): 1467-1489. |
[4] |
TANG C M, JIAN J B. Strongly sub-feasible direction method for constrained optimization problems with nonsmooth objective functions[J]. European Journal of Operational Research, 2012, 218(1): 28-37. DOI:10.1016/j.ejor.2011.10.055 |
[5] |
KIWIEL K C. Proximity control in bundle methods for convex nondifferentiable minimization[J]. Mathematical Programming, 1990, 46(1/2/3): 105-122. |
[6] |
KIWIEL K C. Methods of Descent for Nondifferentiable Optimization[M]. Berlin Heidelberg: Spring-Verlag, 1985.
|
[7] |
唐春明, 简金宝. 非光滑优化的强次可行方向邻近点束求解方法[J]. 广西科学, 2014, 21(3): 283-286. TANG C M, JIAN J B. A proximal bundle method of strongly sub-feasible directions for nonsmooth optimization[J]. Guangxi Sciences, 2014, 21(3): 283-286. |