Issue 7221077: code review 7221077: cmd/6g, cmd/8g: add address propagation to peepholes.

Can't Edit
Can't Publish+Mail
Start Review

Created:
12 years, 11 months ago by remyoudompheng

Modified:
11 years, 11 months ago

Reviewers:
dave, DMorsing, rsc

CC:
golang-codereviews

Visibility:
Public.

Description

cmd/6g, cmd/8g: add address propagation to peepholes. This peephole optimization applies to sequences like: LEAQ (BX)(BP*4), SI MOVQ (SI), BP by turning them into MOVQ (BX)(BP*4), BP when applicable. The latter form was naturally produced in code generation when using the sudoaddable method.

Patch Set 1 #

Patch Set 2 : diff -r b88820dbcb86 https://go.googlecode.com/hg/ #

Patch Set 3 : diff -r b88820dbcb86 https://go.googlecode.com/hg/ #

Patch Set 4 : diff -r b88820dbcb86 https://go.googlecode.com/hg/ #

Total comments: 3

Created: 12 years, 11 months ago

Download [raw] [tar.bz2]

		Unified diffs	Side-by-side diffs	Delta from patch set	Stats (+389 lines, -0 lines)			Patch
	M	src/cmd/6g/peep.c	View	1 2 3	4 chunks	+198 lines, -0 lines	3 comments	Download
	M	src/cmd/8g/peep.c	View	1 2 3	3 chunks	+191 lines, -0 lines	0 comments	Download

Messages

Total messages: 21

Expand All Messages | Collapse All Messages

remyoudompheng

Hello golang-dev@googlegroups.com (cc: golang-dev@googlegroups.com), I'd like you to review this change to https://go.googlecode.com/hg/

12 years, 11 months ago (2013-01-30 23:19:03 UTC) #1

dave_cheney.net

This is happening constantly, has anyone logged a bug on rietveld about this ? On ...

12 years, 11 months ago (2013-01-30 23:36:13 UTC) #4

remyoudompheng

On 2013/01/30 23:36:13, dfc wrote: > This is happening constantly, has anyone logged a bug ...

12 years, 11 months ago (2013-01-31 00:04:07 UTC) #5

dave_cheney.net

Ahh right. My mistake. I can test on 386, are there any specific packages which ...

12 years, 11 months ago (2013-01-31 00:10:34 UTC) #6

remyoudompheng

The goal was to speed up the following code (adapted from crypto/rc4) benchmark old MB/s ...

12 years, 11 months ago (2013-01-31 00:12:29 UTC) #7

The goal was to speed up the following code (adapted from crypto/rc4)

benchmark            old MB/s     new MB/s  speedup
BenchmarkRC4_128       122.06       142.69    1.17x
BenchmarkRC4_1K        123.53       145.18    1.18x
BenchmarkRC4_8K        123.65       145.56    1.18x

(recently committed assembly routine has ~160MB/s)

Before:

--- prog list "(*Cipher).XORKeyStream" ---
0124 (rc4.go:47) TEXT    (*Cipher).XORKeyStream+0(SB),$0-56
0125 (rc4.go:47) MOVQ    dst+16(FP),R15
0126 (rc4.go:47) MOVQ    c+0(FP),AX
0127 (rc4.go:48) MOVBQZX 257(AX),BP
0128 (rc4.go:48) MOVQ    BP,SI
0129 (rc4.go:48) MOVBQZX 256(AX),BP
0130 (rc4.go:49) MOVQ    src+32(FP),R10
0131 (rc4.go:49) MOVQ    src+40(FP),R14
0132 (rc4.go:49) MOVQ    src+48(FP),BX
0133 (rc4.go:48) MOVQ    BP,DI
0134 (rc4.go:49) MOVQ    $0,DX
0135 (rc4.go:49) JMP     ,137
0136 (rc4.go:49) INCQ    ,DX
0137 (rc4.go:49) CMPQ    DX,R14
0138 (rc4.go:49) JGE     $0,177
0139 (rc4.go:49) MOVBQZX (R10),BP
0140 (rc4.go:49) MOVQ    BP,R11
0141 (rc4.go:49) INCQ    ,R10
0142 (rc4.go:50) INCQ    ,DI
0143 (rc4.go:51) LEAQ    (AX),BP
0144 (rc4.go:51) MOVBQZX DI,BX
0145 (rc4.go:51) LEAQ    (BP)(BX*1),BP
0146 (rc4.go:51) MOVBQZX (BP),BX
0147 (rc4.go:51) MOVQ    BX,CX
0148 (rc4.go:52) ADDQ    BX,SI
0149 (rc4.go:53) LEAQ    (AX),BP
0150 (rc4.go:53) MOVBQZX SI,BX
0151 (rc4.go:53) LEAQ    (BP)(BX*1),BP
0152 (rc4.go:53) MOVBQZX (BP),BX
0153 (rc4.go:53) MOVQ    BX,R9
0154 (rc4.go:54) LEAQ    (AX),BP
0155 (rc4.go:54) MOVBQZX DI,BX
0156 (rc4.go:54) LEAQ    (BP)(BX*1),BP
0157 (rc4.go:54) MOVB    R9,(BP)
0158 (rc4.go:54) LEAQ    (AX),BP
0159 (rc4.go:54) MOVBQZX SI,BX
0160 (rc4.go:54) LEAQ    (BP)(BX*1),BP
0161 (rc4.go:54) MOVB    CX,(BP)
0162 (rc4.go:55) ADDQ    R9,CX
0163 (rc4.go:55) LEAQ    (AX),BP
0164 (rc4.go:55) MOVBQZX CX,R8
0165 (rc4.go:55) LEAQ    (BP)(R8*1),BP
0166 (rc4.go:55) MOVBQZX (BP),BX
0167 (rc4.go:55) MOVQ    dst+8(FP),BP
0168 (rc4.go:55) XORQ    R11,BX
0169 (rc4.go:55) MOVQ    DX,R8
0170 (rc4.go:55) CMPQ    DX,R15
0171 (rc4.go:55) JCS     $1,174
0172 (rc4.go:55) CALL    ,runtime.panicindex+0(SB)
0173 (rc4.go:55) UNDEF   ,
0174 (rc4.go:55) LEAQ    (BP)(R8*1),BP
0175 (rc4.go:55) MOVB    BX,(BP)
0176 (rc4.go:49) JMP     ,136
0177 (rc4.go:57) MOVB    DI,256(AX)
0178 (rc4.go:57) MOVB    SI,257(AX)
0179 (rc4.go:58) RET     ,

After:

--- prog list "(*Cipher).XORKeyStream" ---
0120 (rc4.go:47) TEXT    (*Cipher).XORKeyStream+0(SB),$0-56
0121 (rc4.go:47) MOVQ    dst+16(FP),R15
0122 (rc4.go:47) MOVQ    c+0(FP),AX
0123 (rc4.go:48) MOVBQZX 257(AX),BP
0124 (rc4.go:48) MOVQ    BP,SI
0125 (rc4.go:48) MOVBQZX 256(AX),BP
0126 (rc4.go:49) MOVQ    src+32(FP),R10
0127 (rc4.go:49) MOVQ    src+40(FP),R14
0128 (rc4.go:49) MOVQ    src+48(FP),BX
0129 (rc4.go:48) MOVQ    BP,DI
0130 (rc4.go:49) MOVQ    $0,DX
0131 (rc4.go:49) JMP     ,133
0132 (rc4.go:49) INCQ    ,DX
0133 (rc4.go:49) CMPQ    DX,R14
0134 (rc4.go:49) JGE     $0,162
0135 (rc4.go:49) MOVBQZX (R10),BP
0136 (rc4.go:49) INCQ    ,R10
0137 (rc4.go:50) INCQ    ,DI
0138 (rc4.go:51) MOVBQZX DI,BX
0139 (rc4.go:51) MOVBQZX (AX)(BX*1),BX
0140 (rc4.go:51) MOVQ    BX,CX
0141 (rc4.go:52) ADDQ    BX,SI
0142 (rc4.go:53) MOVBQZX SI,BX
0143 (rc4.go:53) MOVBQZX (AX)(BX*1),BX
0144 (rc4.go:53) MOVQ    BX,R9
0145 (rc4.go:54) MOVBQZX DI,BX
0146 (rc4.go:54) MOVB    R9,(AX)(BX*1)
0147 (rc4.go:54) MOVBQZX SI,BX
0148 (rc4.go:54) MOVB    CX,(AX)(BX*1)
0149 (rc4.go:55) ADDQ    R9,CX
0150 (rc4.go:55) MOVBQZX CX,R8
0151 (rc4.go:55) MOVBQZX (AX)(R8*1),BX
0152 (rc4.go:55) XORQ    BP,BX
0153 (rc4.go:55) MOVQ    dst+8(FP),BP
0154 (rc4.go:55) MOVQ    DX,R8
0155 (rc4.go:55) CMPQ    DX,R15
0156 (rc4.go:55) JCS     $1,159
0157 (rc4.go:55) CALL    ,runtime.panicindex+0(SB)
0158 (rc4.go:55) UNDEF   ,
0159 (rc4.go:55) LEAQ    (BP)(R8*1),BP
0160 (rc4.go:55) MOVB    BX,(BP)
0161 (rc4.go:49) JMP     ,132
0162 (rc4.go:57) MOVB    DI,256(AX)
0163 (rc4.go:57) MOVB    SI,257(AX)
0164 (rc4.go:58) RET     ,

Go 1:

--- prog list "(*Cipher).XORKeyStream" ---
0112 (rc4.go:47) TEXT    (*Cipher).XORKeyStream+0(SB),$24-40
0113 (rc4.go:47) MOVQ    c+0(FP),BX
0114 (rc4.go:48) MOVB    257(BX),BP
0115 (rc4.go:48) MOVB    BP,CX
0116 (rc4.go:48) MOVQ    BX,AX
0117 (rc4.go:48) MOVB    256(BX),BP
0118 (rc4.go:48) MOVB    BP,DI
0119 (rc4.go:48) MOVB    CX,BX
0120 (rc4.go:48) MOVB    BX,SI
0121 (rc4.go:49) MOVQ    src+24(FP),BX
0122 (rc4.go:49) MOVQ    BX,autotmp_0004+-16(SP)
0123 (rc4.go:49) MOVL    src+32(FP),BX
0124 (rc4.go:49) MOVL    BX,autotmp_0004+-8(SP)
0125 (rc4.go:49) MOVL    src+36(FP),BX
0126 (rc4.go:49) MOVL    BX,autotmp_0004+-4(SP)
0127 (rc4.go:49) MOVL    $0,DX
0128 (rc4.go:49) MOVL    autotmp_0004+-8(SP),BX
0129 (rc4.go:49) MOVL    BX,autotmp_0006+-20(SP)
0130 (rc4.go:49) LEAQ    autotmp_0004+-16(SP),BX
0131 (rc4.go:49) MOVQ    (BX),R9
0132 (rc4.go:49) JMP     ,134
0133 (rc4.go:49) INCL    ,DX
0134 (rc4.go:49) MOVL    autotmp_0006+-20(SP),BP
0135 (rc4.go:49) CMPL    DX,BP
0136 (rc4.go:49) JGE     ,180
0137 (rc4.go:49) MOVB    (R9),BP
0138 (rc4.go:49) MOVB    BP,R13
0139 (rc4.go:49) MOVL    DX,BX
0140 (rc4.go:49) MOVL    DX,R12
0141 (rc4.go:49) MOVB    R13,BX
0142 (rc4.go:49) MOVB    BX,R11
0143 (rc4.go:49) INCQ    ,R9
0144 (rc4.go:49) MOVQ    R9,BX
0145 (rc4.go:50) INCB    ,DI
0146 (rc4.go:51) MOVQ    AX,BX
0147 (rc4.go:51) MOVB    DI,BP
0148 (rc4.go:51) MOVBQZX BP,BP
0149 (rc4.go:51) MOVB    (AX)(BP*1),R8
0150 (rc4.go:51) MOVB    R8,CX
0151 (rc4.go:52) MOVB    CX,BX
0152 (rc4.go:52) ADDB    BX,SI
0153 (rc4.go:53) MOVB    SI,BP
0154 (rc4.go:53) MOVBQZX BP,BP
0155 (rc4.go:53) MOVB    (AX)(BP*1),R8
0156 (rc4.go:53) MOVB    R8,R10
0157 (rc4.go:54) MOVB    DI,BP
0158 (rc4.go:54) MOVBQZX BP,BP
0159 (rc4.go:54) MOVB    R10,R8
0160 (rc4.go:54) MOVB    R8,(AX)(BP*1)
0161 (rc4.go:54) MOVQ    AX,BX
0162 (rc4.go:54) MOVB    SI,BP
0163 (rc4.go:54) MOVBQZX BP,BP
0164 (rc4.go:54) MOVB    CX,R8
0165 (rc4.go:54) MOVB    R8,(AX)(BP*1)
0166 (rc4.go:55) MOVB    CX,BP
0167 (rc4.go:55) MOVB    R10,R8
0168 (rc4.go:55) ADDB    R8,BP
0169 (rc4.go:55) MOVBQZX BP,BP
0170 (rc4.go:55) MOVB    (AX)(BP*1),BX
0171 (rc4.go:55) MOVB    R11,BP
0172 (rc4.go:55) XORB    BP,BX
0173 (rc4.go:55) MOVLQSX R12,BP
0174 (rc4.go:55) CMPL    BP,dst+16(FP)
0175 (rc4.go:55) JCS     ,177
0176 (rc4.go:55) CALL    ,runtime.panicindex+0(SB)
0177 (rc4.go:55) MOVQ    dst+8(FP),R8
0178 (rc4.go:55) MOVB    BX,(R8)(BP*1)
0179 (rc4.go:49) JMP     ,133
0180 (rc4.go:57) MOVB    DI,BP
0181 (rc4.go:57) MOVB    BP,256(AX)
0182 (rc4.go:57) MOVB    SI,BP
0183 (rc4.go:57) MOVB    BP,257(AX)
0184 (rc4.go:58) RET     ,

remyoudompheng

On 2013/01/31 00:12:29, remyoudompheng wrote: > The goal was to speed up the following code ...

12 years, 11 months ago (2013-01-31 00:13:14 UTC) #8

rsc

This is fine but I suspect you can get even better performance if you can ...

12 years, 11 months ago (2013-01-31 00:13:39 UTC) #9

remyoudompheng

On 2013/01/31 00:10:34, dfc wrote: > Ahh right. My mistake. > > I can test ...

12 years, 11 months ago (2013-01-31 00:14:40 UTC) #10

remyoudompheng

On 2013/01/31 00:13:39, rsc wrote: > This is fine but I suspect you can get ...

12 years, 11 months ago (2013-01-31 00:24:29 UTC) #11

dave_cheney.net

Applying both CLs on linux/386, benchmarks for crypto/rc4 appear to have regressed by 10% 220887(~/go/src/pkg/crypto/rc4) ...

12 years, 11 months ago (2013-01-31 00:44:37 UTC) #12

dave_cheney.net

go1 benchmarks tell a confusing story 220887(~/go/test/bench/go1) % ./go1.07047d188e5d+ -test.bench=. > old.txt && ./go1.test -test.bench=. ...

12 years, 11 months ago (2013-01-31 00:53:18 UTC) #13

DMorsing

First impressions here. I will probably look at this more closely some other time. https://codereview.appspot.com/7221077/diff/9001/src/cmd/6g/peep.c ...

12 years, 11 months ago (2013-01-31 13:01:34 UTC) #14

remyoudompheng

On 2013/01/31 00:44:37, dfc wrote: > Applying both CLs on linux/386, benchmarks for crypto/rc4 appear ...

12 years, 11 months ago (2013-01-31 20:59:48 UTC) #15

dave_cheney.net

220887(~) % uname -a Linux 220887 3.2.0-32-generic-pae #51-Ubuntu SMP Wed Sep 26 21:54:23 UTC 2012 ...

12 years, 11 months ago (2013-01-31 21:29:23 UTC) #16

rsc

My main reservation is that I think the compiler should do a better job avoiding ...

12 years, 10 months ago (2013-02-14 21:57:36 UTC) #18

I think this CL is dead.

R=close

Expand All Messages | Collapse All Messages