o щЧжiFу@s┤UddlZddlmZmZddlZddlmZddlmZddl m Z GddДdeГZGdd Дd eГZGd dДdeГZ Gdd Дd eГZdaeeeejed<dejfddДZdS)щN)┌List┌Optionalй┌_get_device_index)┌Function)┌commc@є$eZdZeddДГZeddДГZdS)┌ Broadcastcs╝tddД|DГГs JdГВddД|DГ}||_t|ГdkrdSt|Г|_|dаб|_tа||jб}g}t|j ddЕГD]\Й}|sO|а Зfd dД|DГбq=|j|Оtd dД|DГГS)NcsєБ|] }|jjdkVqdSй┌cpuNй┌device┌typeй┌.0┌iйr·Z/home/ubuntu/transcripts/venv/lib/python3.10/site-packages/torch/nn/parallel/_functions.py┌ єА z$Broadcast.forward..z2Broadcast function not implemented for CPU tensorscSєg|]}t|dГСqSйTrйr┌xrrr┌ єz%Broadcast.forward..rrщc3sБ|]}|ИVqdSйNr)r┌outputй┌idxrrrєАcSsg|] }|D]}|СqqSrr)r┌tensors┌trrrrs) ┌all┌target_gpus┌len┌ num_inputs┌ get_device┌input_devicer┌broadcast_coalesced┌ enumerate┌needs_input_grad┌extend┌mark_non_differentiable┌tuple)┌ctxr&┌inputs┌outputs┌non_differentiables┌input_requires_gradrr r┌forwards& ■ А zBroadcast.forwardcGsdtj|j|jg|вRОS)Nr)┌ReduceAddCoalesced┌applyr*r(йr1┌grad_outputsrrr┌backwards zBroadcast.backwardNй┌__name__┌ __module__┌__qualname__┌staticmethodr6r;rrrrr s r c@r)r7csLЗfddДtdtИГИГDГ|_ЗЗfddДtdtИГИГDГ}tа||бS)Ncsg|]}И|абСqSrйr)r)┌gradsrrr(s z.ReduceAddCoalesced.forward..rcsg|] }И||ИЕСqSrrrйrBr(rrr,s)┌ranger'r&r┌reduce_add_coalesced)r1┌destinationr(rB┌grads_rrCrr6&s zReduceAddCoalesced.forwardcGsdtj|jg|вRОS)NйNN)r r8r&r9rrrr;/s¤zReduceAddCoalesced.backwardNr<rrrrr7%s r7c@r)┌Gathercs┬tddД|DГГs JdГВ|dkrdИ_nt|dГ}|И_|И_tddД|DГГИ_tddД|DГГrI|dkrItd dД|DГГ}tаd бdИ_ndИ_tЗfddД|DГГИ_ t а|ИjИjбS) Ncsr rr rrrrr:rz!Gather.forward..z/Gather function not implemented for CPU tensorsrTcssБ|]}|абVqdSrrArrrrrCr"cssБ|] }|абdkVqdSйrN)┌dimйrr$rrrrDєАrcssБ|]}|аdбVqdS)rN)┌viewrLrrrrEsАzvWas asked to gather along dimension 0, but all input tensors were scalars; will instead unsqueeze and return a vector.Fc3sБ|] }|аИjбVqdSr)┌sizerKrйr1rrrNrM)r%┌ target_devicerrKr0┌ input_gpus┌warnings┌warn┌unsqueezed_scalar┌input_sizesr┌gather)r1rQrKr2rrPrr68s( ■ zGather.forwardcCs6tа|j|j|j|б}|jrtddД|DГГ}d|S)NcssБ|]}|dVqdSrJr)r┌grrrrWr"z"Gather.backward..rH)┌Scatterr8rRrVrKrUr0)r1┌grad_output┌scattered_gradsrrrr;Qs zGather.backwardNr<rrrrrI7s rIc@r)rYc Cs╪ddД|DГ}||_|jjdkr|абnd|_d}tjабr*|jdkr*ddД|DГ}tа ||||j|б}|durjt |ГD]-\}}tjа||бПtjаб} | а||б|а | бWdГn1sdwYq<|S)NcSrrrrrrrr^rz#Scatter.forward..rщ cSsg|] }ttаd|бГСqS)┌cuda)┌_get_stream┌torchr)rrrrrrds )rKrrr)r*r_r]┌is_availabler┌scatterr,┌current_stream┌wait_stream┌ record_stream) r1r&┌chunk_sizesrK┌input┌streamsr3rr┌main_streamrrrr6\s$ ¤АzScatter.forwardcGs dddtj|j|jg|вRОfSr)rIr8r*rK)r1rZrrrr;qs zScatter.backwardNr<rrrrrY[s rY┌_streamsrcCsh|jdkrdStt|jdГ}|durdStdurdg|абat|jdur/|а|jбt|j<t|jS)zBGet a background stream for copying between CPU and target device.rN)r┌getattrr_ri┌device_count┌index┌Stream)r┌ device_modrrrr^zs r^)rS┌typingrrr_┌torch._utilsr┌torch.autogradr┌torch.nn.parallelrr r7rIrYrirm┌__annotations__rr^rrrr┌s $