Why smooth L1 is popular in BBox Regression

L1 norm 在 0 处不可导，是个折线；smooth L1 在底部平滑了一下

Localization 时bbox 的偏移量是个比例，L2 的话经过平方数值可能太大，不利于和classification 在一起算 loss.