o
    i8                     @   sL  d dl Z dg dfe jdg de j ddg dfd	g d
fdg dfe jdg de j ddg dfdddgfdddgfdg dfdg dfdg dfdddgfdddgfd g d!fd"g d#fd$g d%fgZd&g d'fd(d)d*gfd+g d,fd-g d.fd/d0d1gfd2g d3fd4d5d6gfd7g d8fd9g d:fd;g d<fd=g d>fd?g d@fdAg dBfdCg dDfdEg dFfdGg dHfdIg dJfdKg dLfdMg dNfdOg dPfdQg dRfdSg dTfdUg dVfgZg dWg dXfdYg dZfd[g d\fd]g d^fd_g d`fdag dbfdcg ddfdeg dffdgg dhfdig djfdkg dlfdmg dnfdog dpfdqg drfdsg dtfdug dvfdwg dxfdyg dzfd{g d|fd}g d~fdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dŢfdg dǢfdg dɢfdg dˢfdg d͢fdg dϢfdg dѢfdg dӢfdg dբfdg dעfdg d٢fdg dۢfdg dݢfdg dߢfdg dfdg dfdg dfdg dfdddgfdg dfdg dfdg dfdddgfdg dfdg dfdg dfdddgfdg dfdg dfdg dfd g dfdg dfdg dfdg dfdg d	fd
g dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfd g d!fd"g d#fd$g d%fd&g d'fd(g d)fd*g d+fd,g d-fd.g d/fd0g d1fd2g d3fd4g d5fd6g d7fd8g d9fd:g d;fd<g d=fd>g d?fd@g dAfdBg dCfdDg dEfdFg dGfdHg dIfdJg dKfdLg dMfdNg dOfdPg dQfdRg dSfdTg dUfdVg dWfdXg dYfdZg d[fd\g d]fd^g d_fd`g dafdbg dcfddg defdfg dgfdhg difdjg dkfdlg dmfdng dofdpg dqfdrg dsfdtg dufdvg dwfdxg dyfdzg d{fd|g d}fd~g dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdddgfdg dfdg dfdddgfdg dfdddgfdg dfdg dfZdg dfdg dfdg dfdg dfdg dfgZdg dfe jdg de j ddg dfdg dfdg dfe jdg de j ddg dfdddgfdddgfdg dfdg dfdg dfdddgfdddgfd g d!fgZdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfdg dfg	Z	dddgfdg dfdg dfdg dfdg d¢fdg dĢfdg dƢfdg dȢfdg dʢfg	Z
ee e e e
 e	 ZeZedːd̄ eeD  d͐d̄ eeD Zedΐd̄ eD  e jdedАdф ZdS (      Nu   N. kormányzósági
székhely.)zN.u   kormányzóságiu	   székhely.zA .hu egy tld.)A.huegytldr   markszAz egy.ketto pelda.)Az	egy.kettopeldar   zA pl. rovidites.)r   pl.	roviditesr   zA S.M.A.R.T. szo.)r   
S.M.A.R.T.szor   zA .hu.)r   r   r   zAz egy.ketto.)r	   r
   r   zA pl.r   r   zA S.M.A.R.T.r   z	Egy..ket.)Egyz..ketr   zValami... van.)Valami...vanr   zValami ...van...)r   r   r   r   z	Valami...r   r   z
Valami ...u   Valami ... más.)r   r   u   másr   zSoha nem lesz!)Sohanemlesz!zSoha nem lesz?)r   r   r   ?u&   Egy -nak, -jaiért, -magyar, bel- van.)
r   -nak,u   -jaiértr   z-magyarr   bel-r   r   u   Szabolcs-Szatmár-Bereg megyeu   Szabolcs-Szatmár-Beregmegyez	Egy -nak.)r   r   r   z	Egy bel-.)r   r   r   zDinnye-domb-.zDinnye-domb-r   zEzen -e elcsatangolt.)Ezen-eelcsatangoltr   zLakik-eLakikr   zA--B)r   z--BzLakik-e?)r!   r   r   zLakik-e.)r!   r   r   z
Lakik-e...)r!   r   r   zLakik-e... van.)r!   r   r   r   r   zLakik-e van?)r!   r   r   r   zLakik-elem van?)z
Lakik-elemr   r   u    Az életbiztosításáról- egy.)r	   u   életbiztosításáról-r   r   zVan lakik-elem.)Vanz
lakik-elemr   zA 7-es busz?)r   7-esbuszr   zA 7-es?)r   r$   r   zA 7-es.)r   r$   r   zEz (lakik)-e?)Ez(lakik)r   r   zA %-sal.)r   z%-salr   zA $-sal.)r   z$-salr   zA CD-ROM-okrol.)r   zCD-ROM-okrolr   z	A 2b van.)r   2br   r   zA 2b-ben van.)r   2b-benr   r   zA 2b.)r   r*   r   z	A 2b-ben.)r   r+   r   z
A 3.b van.)r   3.br   r   zA 3.b-ben van.)r   3.b-benr   r   zA 3.b.)r   r,   r   z
A 3.b-ben.)r   r-   r   zA 1:20:36.7 van.)r   z	1:20:36.7r   r   zA 1:20:36.7-ben van.)r   1:20:36.7-benr   r   zA 1:20:36.7-ben.)r   r.   r   zA 1:35 van.)r   z1:35r   r   zA 1:35-ben van.)r   1:35-benr   r   zA 1:35-ben.)r   r/   r   zA 1.35 van.)r   z1.35r   r   zA 1.35-ben van.)r   1.35-benr   r   zA 1.35-ben.)r   r0   r   zA 4:01,95 van.)r   z4:01,95r   r   zA 4:01,95-ben van.)r   4:01,95-benr   r   zA 4:01,95-ben.)r   r1   r   zA 10--12 van.)r   z10--12r   r   zA 10--12-ben van.)r   
10--12-benr   r   zA 10--12-ben.)r   r2   r   u   A 10‐12 van.)r   u   10‐12r   r   u   A 10‐12-ben van.)r      10‐12-benr   r   u   A 10‐12-ben.)r   r3   r   u   A 10‑12 van.)r   u   10‑12r   r   u   A 10‑12-ben van.)r      10‑12-benr   r   u   A 10‑12-ben.)r   r4   r   u   A 10‒12 van.)r   u   10‒12r   r   u   A 10‒12-ben van.)r      10‒12-benr   r   u   A 10‒12-ben.)r   r5   r   u   A 10–12 van.)r   u   10–12r   r   u   A 10–12-ben van.)r      10–12-benr   r   u   A 10–12-ben.)r   r6   r   u   A 10—12 van.)r   u   10—12r   r   u   A 10—12-ben van.)r      10—12-benr   r   u   A 10—12-ben.)r   r7   r   u   A 10―12 van.)r   u   10―12r   r   u   A 10―12-ben van.)r      10―12-benr   r   u   A 10―12-ben.)r   r8   r   zA -23,12 van.)r   z-23,12r   r   zA -23,12-ben van.)r   
-23,12-benr   r   zA -23,12-ben.)r   r9   r   z
A 2+3 van.)r   z2+3r   r   z
A 2<3 van.)r   z2<3r   r   z
A 2=3 van.)r   z2=3r   r   u   A 2÷3 van.)r   u   2÷3r   r   u   A 1=(2÷3)-2/5 van.)r   u   1=(2÷3)-2/5r   r   zA 2 +3 van.)r   2z+3r   r   zA 2+ 3 van.)r   r:   +3r   r   zA 2 + 3 van.z
A 2*3 van.)r   z2*3r   r   zA 2 *3 van.)r   r:   *r<   r   r   zA 2* 3 van.zA 2 * 3 van.z
A C++ van.)r   C++r   r   zA C++-ben van.)r   C++-benr   r   zA C++.)r   r>   r   z
A C++-ben.)r   r?   r   zA 2003. I. 06. van.)r   2003.I.06.r   r   zA 2003. I. 06-ben van.)r   r@   rA   06-benr   r   zA 2003. I. 06.)r   r@   rA   rB   zA 2003. I. 06-ben.)r   r@   rA   rC   r   zA 2003. 01. 06. van.)r   r@   01.rB   r   r   zA 2003. 01. 06-ben van.)r   r@   rD   rC   r   r   zA 2003. 01. 06.)r   r@   rD   rB   zA 2003. 01. 06-ben.)r   r@   rD   rC   r   zA IV. 12. van.)r   IV.12.r   r   zA IV. 12-ben van.)r   rE   12-benr   r   z	A IV. 12.)r   rE   rF   zA IV. 12-ben.)r   rE   rG   r   zA 2003.01.06. van.)r   2003.01.06.r   r   zA 2003.01.06-ben van.)r   2003.01.06-benr   r   zA 2003.01.06.rH   zA 2003.01.06-ben.)r   rI   r   zA IV.12. van.)r   IV.12.r   r   zA IV.12-ben van.)r   	IV.12-benr   r   zA IV.12.rJ   zA IV.12-ben.)r   rK   r   zA 1.1.2. van.)r   1.1.2.r   r   zA 1.1.2-ben van.)r   	1.1.2-benr   r   zA 1.1.2.rL   zA 1.1.2-ben.)r   rM   r   zA 1,5--2,5 van.)r   z1,5--2,5r   r   zA 1,5--2,5-ben van.)r   1,5--2,5-benr   r   zA 1,5--2,5-ben.)r   rN   r   zA 3,14 van.)r   z3,14r   r   zA 3,14-ben van.)r   3,14-benr   r   zA 3,14-ben.)r   rO   r   zA 3.14 van.)r   z3.14r   r   zA 3.14-ben van.)r   3.14-benr   r   zA 3.14-ben.)r   rP   r   z
A 15. van.)r   z15.r   r   zA 15-ben van.)r   15-benr   r   z	A 15-ben.)r   rQ   r   zA 15.-ben van.)r   15.-benr   r   z
A 15.-ben.)r   rR   r   zA 2002--2003. van.)r   z2002--2003.r   r   zA 2002--2003-ben van.)r   z2002--2003-benr   r   zA 2002-2003-ben.)r   z2002-2003-benr   zA +0,99% van.)r   z+0,99%r   r   zA -0,99% van.)r   -0,99%r   r   zA -0,99%-ben van.)r   
-0,99%-benr   r   z	A -0,99%.)r   rS   r   zA -0,99%-ben.)r   rT   r   zA 10--20% van.)r   10--20%r   r   zA 10--20%-ben van.)r   10--20%-benr   r   z
A 10--20%.)r   rU   r   zA 10--20%-ben.)r   rV   r   u   A 99§ van.)r   u   99§r   r   u   A 99§-ben van.)r      99§-benr   r   u   A 99§-ben.)r   rW   r   u   A 10--20§ van.)r   u   10--20§r   r   u   A 10--20§-ben van.)r      10--20§-benr   r   u   A 10--20§-ben.)r   rX   r   u   A 99° van.)r   u   99°r   r   u   A 99°-ben van.)r      99°-benr   r   u   A 99°-ben.)r   rY   r   u   A 10--20° van.)r   u   10--20°r   r   u   A 10--20°-ben van.)r      10--20°-benr   r   u   A 10--20°-ben.)r   rZ   r   u
   A °C van.)r      °Cr   r   u   A °C-ben van.)r      °C-benr   r   u   A °C.)r   r[   r   u
   A °C-ben.)r   r\   r   u   A 100°C van.)r      100°Cr   r   u   A 100°C-ben van.)r   
   100°C-benr   r   u	   A 100°C.)r   r]   r   u   A 100°C-ben.)r   r^   r   zA 800x600 van.)r   800x600r   r   zA 800x600-ben van.)r   800x600-benr   r   zA 800x600-ben.)r   r`   r   zA 1x2x3x4 van.)r   1x2x3x4r   r   zA 1x2x3x4-ben van.)r   1x2x3x4-benr   r   zA 1x2x3x4-ben.)r   rb   r   z
A 5/J van.)r   z5/Jr   r   zA 5/J-ben van.)r   5/J-benr   r   z
A 5/J-ben.)r   rc   r   zA 5/J. van.)r   z5/J.r   r   zA 5/J.-ben van.)r   5/J.-benr   r   zA 5/J.-ben.)r   rd   r   zA III/1 van.)r   zIII/1r   r   zA III/1-ben van.)r   	III/1-benr   r   zA III/1-ben.)r   re   r   zA III/1. van.)r   zIII/1.r   r   zA III/1.-ben van.)r   
III/1.-benr   r   zA III/1.-ben.)r   rf   r   zA III/c van.)r   III/cr   r   zA III/c-ben van.)r   	III/c-benr   r   zA III/c.)r   rg   r   zA III/c-ben.)r   rh   r   u   A TU–154 van.)r   u   TU–154r   r   u   A TU–154-ben van.)r      TU–154-benr   r   u   A TU–154-ben.)r   ri   r   u   A 5cm³)r   5u   cm³z	A 5 $-ban)r   rj   z$-banzA 5$-banz5$-banzA 5$.)r   rj   $r   zA 5$)r   rj   rk   zA $5z$5zA 5km/h)r   rj   km/hzA 75%+1-100%-igz75%+1-100%-igzA 5km/h.)r   rj   rl   r   u   3434/1992. évi elszámolás)z
3434/1992.u   éviu   elszámolászAz "Ime, hat"-ban irja.)	r	   "Imer   hatrm   -banirjar   z"Ime, hat"-ban irja.)rm   rn   r   ro   rm   rp   rq   r   zAz "Ime, hat".)r	   rm   rn   r   ro   rm   r   zEgy 24"-os monitor.)r   z24"-osmonitorr   zA McDonald's van.)r   z
McDonald'sr   r   u   A pl. rövidítés.)r   r   u   rövidítésr   u   A S.M.A.R.T. szó.)r   r   u   szór   u(   Ez egy mondat vége.Ez egy másik eleje.)
r&   r   mondat   véger   r&   r      másikelejer   u)   Ez egy mondat vége .Ez egy másik eleje.u(   Ez egy mondat vége!ez egy másik eleje.)
r&   r   rs   rt   r   ezr   ru   rv   r   u)   Ez egy mondat vége !ez egy másik eleje.u(   Ez egy mondat vége?Ez egy másik eleje.)
r&   r   rs   rt   r   r&   r   ru   rv   r   u)   Ez egy mondat vége ?Ez egy másik eleje.u
   egy,kettő)r   r      kettőu   egy ,kettőu   egy :kettő)r   :rx   z!"r   rm   u   lány"a)u   lányrm   az!"-lel)r   rm   z-lelz""-sorozat )rm   rm   z-sorozatu   "(Köszönöm)rm   r'   u   Köszönömu   (törvénykönyv)-ben )r'   u   törvénykönyvr)   z-benu   "(...)"–sokkal )rm   r'   r   r)   rm   u	   –sokkalu   cérium(IV)-oxid)u   cériumr'   IVr)   z-oxidc                 C   s    g | ]\}}|d  dkr|qS 
   r    .0ixr~   r~   V/home/ubuntu/.local/lib/python3.10/site-packages/spacy/tests/lang/hu/test_tokenizer.py
<listcomp>-       r   c                 C   s    g | ]\}}|d  dkr|qS r|   r~   r   r~   r~   r   r   0  r   c                 C   s<   g | ]}t |d  tstj|d  |d tj dn|qS )r      r   )
isinstancetuplepytestparammarkslow)r   r   r~   r~   r   r   2  s     ztext,expected_tokensc                 C   s&   | |}dd |D }||ksJ d S )Nc                 S   s   g | ]}|j s|jqS r~   )is_spacetext)r   tokenr~   r~   r   r   @  s    z7test_hu_tokenizer_handles_testcases.<locals>.<listcomp>r~   )hu_tokenizerr   expected_tokenstokens
token_listr~   r~   r   #test_hu_tokenizer_handles_testcases=  s   r   )r   r   r   xfailDEFAULT_TESTSHYPHEN_TESTSNUMBER_TESTSQUOTE_TESTS	DOT_TESTS
TYPO_TESTS
WIKI_TESTSEXTRA_TESTSTESTSextend	enumerate
SLOW_TESTSparametrizer   r~   r~   r~   r   <module>   s   













































	























 
!
"
#
$
%
&
'
(
)
*
+
,
-
.
/
0
1
2
3
4
5
6
7
8
9
:
;
<
=
>
?
@
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
VWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~                 	  
                                               !  "  #  $  %  &  +











