o
    }o™i  ã                   @   s^   d dl Z d dlmZ d dlZd dlmZ d dlmZ dgZdZ	dZ
dd	„ ZG d
d„ deƒZdS )é    N)ÚList)ÚColumnCodes)ÚTokenizerSpecÚTabularTokenizerz<|endoftext|>Ú
c                 C   s*   d}z|   |¡}W |S  ty   Y |S w )Néÿÿÿÿ)ÚindexÚ
ValueError)Ú
list_inputÚitemÚoutput© r   úh/home/ubuntu/.local/lib/python3.10/site-packages/nemo/collections/common/tokenizers/tabular_tokenizer.pyÚfind_index_of   s   þþr   c                   @   sž   e Zd Zeegdfdd„Zdd„ Zedd„ ƒZdd	„ Z	d
d„ Z
edd„ ƒZedd„ ƒZdd„ Zdd„ Zdee fdd„Zd!dd„Zdd„ Zdd„ Zdd„ Zd S )"r   ú,c                 C   s’   t |tƒr	|| _nt|dƒ}t |¡| _W d   ƒ n1 sw   Y  t| jjƒ| _i | _	i | _
|  |¡ || _| j	t | _| j| _| j| _d S )NÚrb)Ú
isinstancer   Úcode_columnÚopenÚpickleÚloadÚlenÚcolumnsÚnum_columnsÚspecial_tokensÚspecial_tokens_decoderÚadd_special_tokensÚ	delimiterÚEND_OF_TEXTÚeod_idÚeos_idÚbos_id)ÚselfÚcoderr   r   Úhandler   r   r   Ú__init__'   s   
ÿ
zTabularTokenizer.__init__c                 C   ó   | j S ©N)Ú
vocab_size©r"   r   r   r   Ú__len__6   s   zTabularTokenizer.__len__c                 C   s   t | j ¡ ƒd S )Né   )Úmaxr   Úkeysr)   r   r   r   r(   9   s   zTabularTokenizer.vocab_sizec                 C   ó
   |   |¡S r'   )Úencode©r"   Útextr   r   r   Útext_to_ids=   ó   
zTabularTokenizer.text_to_idsc                 C   r.   r'   )Údecode)r"   Ú	token_idsr   r   r   Úids_to_text@   r3   zTabularTokenizer.ids_to_textc                 C   r&   r'   )r   r)   r   r   r   ÚeodC   s   zTabularTokenizer.eodc                 C   s
   | j t S r'   )r   ÚNEW_LINEr)   r   r   r   ÚeorG   s   
zTabularTokenizer.eorc                    sT   |s
i ˆ _ i ˆ _dS t‡ fdd„t|ƒD ƒƒ}ˆ j  |¡ dd„ ˆ j  ¡ D ƒˆ _dS )zá Add a list of additional tokens to the encoder.
            The additional tokens are indexed starting from the last
            index of the
            current vocabulary in the order of the `special_tokens` list.
        Nc                 3   s.    | ]\}}|ˆ j vr|ˆ jj| fV  qd S r'   )r   r   r(   )Ú.0ÚiÚtokr)   r   r   Ú	<genexpr>U   s   € 
þýz6TabularTokenizer.add_special_tokens.<locals>.<genexpr>c                 S   s   i | ]\}}||“qS r   r   )r:   ÚkÚvr   r   r   Ú
<dictcomp>[   s    z7TabularTokenizer.add_special_tokens.<locals>.<dictcomp>)r   r   ÚdictÚ	enumerateÚupdateÚitems)r"   r   Únewr   r)   r   r   K   s   þz#TabularTokenizer.add_special_tokensc           
      C   sæ   g }|  t¡}t|ƒ}t|ƒD ]a}|| }|dkrq|  | j¡}|D ]B}|  t¡}	t|	ƒdkr7| | ¡ ¡ q"t|	ƒdkra|	d dkrL| |	d  ¡ ¡ | t¡ |	d dkr`| |	d  ¡ ¡ q"tdƒ‚||d krp| t¡ q|S )z Tokenize a string. Ú r+   é   r   zdelimiter error)	Úsplitr8   r   Úranger   r   ÚappendÚstripr	   )
r"   r1   ÚtokensÚrowsÚnum_rowsÚrow_idÚrowÚfieldsÚfÚsplitsr   r   r   Útext_to_tokens]   s0   


€
€zTabularTokenizer.text_to_tokensrL   c                 C   s†   g }d}t |v r| t ¡}| j| | j }|D ])}|| jv r'| | j| ¡ q|| j }| jj| }| | j ||¡¡ |d7 }q|S )z9 Converts a sequence of tokens into ids using the vocab. r   r+   )	r8   r   r   r   rJ   r   r   Úextendr/   )r"   rL   ÚidsÚcindexÚiddÚtokenr   Úcolumnr   r   r   Útokens_to_idsw   s   



zTabularTokenizer.tokens_to_idsFc                 C   sN  g }| j j}t|ƒ}d}t|| jƒ}t|| jƒ}|dkr,|dkr,t||ƒ}	||	 | }n!|dkr=|dk r=|}	||	 | }n|dkrM|dk rM|}	||	 | }t |¡}
d}g }|D ]L}|| j	v rj|si| 
| j	| ¡ qX|| }t ||
k ¡d d }| j j| }||kr‰|g}|}n| 
|¡ t|ƒ|| kr | 
| j  ||¡¡ |d7 }qX|S )z=Converts a sequence of ids in Tabular tokens using the vocab.r   r   r+   )r   ÚsizesÚsumr   r9   r7   ÚminÚnumpyÚcumsumr   rJ   Úwherer   r   r4   )r"   rV   Úskip_special_tokensrL   r\   Úids_sizerW   Úeor_posÚeod_posrX   Ú	cum_sizesÚold_column_indexr5   r;   r   Úcolumn_indexrZ   r   r   r   Úids_to_tokens‰   sD   


€

zTabularTokenizer.ids_to_tokensc                 C   s   |   |  |¡¡S r'   )r[   rT   r0   r   r   r   r/   ¯   s   zTabularTokenizer.encodec                 C   s   | j |dd}|  |¡S )NF)rb   )ri   Útokens_to_text)r"   r5   rL   r   r   r   r4   ²   s   
zTabularTokenizer.decodec                 C   sŽ   g }g }|D ](}|t ks|tkr)t|ƒdkr!| j |¡}| |¡ | |¡ g }q| |¡ qt|ƒdkr@| j |¡}| |¡ d |¡}|S )Nr   rF   )r   r8   r   r   ÚjoinrJ   )r"   rL   Ú	all_linesÚlinerY   Ú	line_textr1   r   r   r   rj   ¶   s   



zTabularTokenizer.tokens_to_textN)F)Ú__name__Ú
__module__Ú__qualname__r   r8   r%   r*   Úpropertyr(   r2   r6   r7   r9   r   rT   r   Ústrr[   ri   r/   r4   rj   r   r   r   r   r   &   s$    



&)r   Útypingr   r_   Ú/nemo.collections.common.tokenizers.column_coderr   Ú1nemo.collections.common.tokenizers.tokenizer_specr   Ú__all__r   r8   r   r   r   r   r   r   Ú<module>   s   