feature scaling:缩小或扩大feature的值,使所有的feature处于类似的范围,这样进行gradient descnet时更快趋向最小值.因为不同的feature的范围相差很大时,它的cost function的等值线是椭圆的,但当它们相近时,等值线接近于圆,这样趋向最小值是,圆更快,椭圆更曲折,趋向更慢。(一般在+3到-3的范围内即可)
mean normalization: