这又是一个拧巴事,TCP 的传输算法(包括拥塞控制算法,传输加速算法等)非常依赖 RTT,但 RTT 的采集和测量却和网络质量正向依赖:
- 网络质量好时,并不过度依赖 RTT 的精确测量;
- 网络质量不好,依赖 RTT 精确测量时,RTT 却测不准。
造成这局面的原因在 TCP 协议本身,不要试图改变已有现状,但在设计新协议时要避开。
这问题关乎 Delayed ACK 和重传歧义。TCP 的实现剥离两类 RTT 来尽量缓解 RTT 测不准的影响,同时用 timestamp 选项为 RTT 测量兜底。
先看两类 RTT,从 Linux 实现的一段注释中可见:
struct tcp_sacktag_state {.../* Timestamps for earliest and latest never-retransmitted segment* that was SACKed. RTO needs the earliest RTT to stay conservative,* but congestion control should still get an accurate delay signal.*/u64 first_sackt;u64 last_sackt;
- srtt,为计算 RTO 采集的 RTT,偏保守,避免激进重传;
- ca_rtt,为传输算法采集的 RTT,侧重精度,度量网络时延,最小化主机影响。
一个简单的场景可解释上面两类 RTT。Delayed ACK 的作用,接收端收到 2 个段回复一个 ACK,该 ACK 包含对两个段的确认,那么可用第一个段计算 srtt,第二个段计算 ca_rtt,因为第一个段包含了主机 Delayed 时间,第二个段直接触发了 ACK,没有主机时间。
再看重传歧义,如果网络质量不好,频繁丢包时,如果 sender 区分不了 ACK/SACK 是针对原始数据还是针对重传数据的,此 ACK/SACK 的时间信息将被丢弃,不再用于 RTT 计算,除非 ts 选项可以明确。而越是在频繁丢包重传时,RTT 对拥塞控制而言越重要,但遗憾的是,越需要时越得不到。
丢包时没有 Delayed ACK 影响,立即确认是多么干净,却又碰到重传歧义,摆脱了狼又遇见了虎。为解决这问题,又是 100 种花活儿:
- 包含 old seg 来重传,用 DSACK 明确区分,计算 RTT;
- 用新数据 probe,明确对该数据的 SACK,计算 RTT;
- 用不连续数据 probe(新的 or 旧的),明确对该数据的 SACK/ACK,计算 RTT;
- 满足不乱序验证后,收到不连续 p,立即 ACK 的 tsecr 就是 p 的 tsval 而不是最后连续报文的 tsval;
- …
仅给出最简单一例:
若将 una ~ una + MSS 作为一个数据包传输并被标记为丢失,则重传 una ~ una + fk (0 < fk < MSS),并记录当前时间戳,保留 una + fk ~ una + MSS 为空洞,等待接收端回复 ACK 。若 ACK 等于 una + fk 且等于重传数据包的 end_seq,则此时的 now_us - skb.ts_us 为精确的 RTT。
来看在新协议中如何轻松解开这拧巴的绳结。
QUIC 将包序号 packet id 和流序号 offset 区分开,包序号用于传输控制,流序号只用于数据语义,与重传关联,若丢包重传,包序号变化而流序号不变。拿这个再来套上面 RTT 采集测量问题就干净多了,RTT 随时可以获得。
我曾建议为新协议增加 1bit 或 nbit 的 type,明确这个包的目的,比如 type = 1 为 RTT 测量位,receiver 收到这种包应立即应答,否则可按配置策略自决,如 Delay 一段时间等待反向捎带。这并非对 TCP 的兼容,这是对 TCP 少有优良品质的继承。Delayed ACK 并非原罪,相反它很好,问题的根源在于 TCP 没有任何机制协商 Delayed ACK or not,加上即可。
若修改现有 TCP,报头里不还有几个 unused bits 么,打打主意?但由于协议僵化问题,这种把戏不适用广域网,只能在数据中心使用。
传输优化,统计先行,统计未动,数据先行,所有的一切都依赖采集数据的准确性,有了数据,统计就有了依托,支撑证据才更可信。接下来就是分析流量的长程依赖了,基于准确性高的数据进行的统计分析反而不再需要准确性。
Computing TCP’s Retransmission Timer
Measuring TCP Round-Trip Time in the Data Plane
浙江温州皮鞋湿,下雨进水不会胖。