You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.
import pytest
def test_el_tokenizer_handles_long_text ( el_tokenizer ) :
text = """ Η Ελλάδα (παλαιότερα Ελλάς), επίσημα γνωστή ως Ελληνική Δημοκρατία,\
είναι χώρα της νοτιοανατολικής Ευρώπης στο νοτιότερο άκρο της Βαλκανικής χερσονήσου. \
Συνορεύει στα βορειοδυτικά με την Αλβανία, στα βόρεια με την πρώην \
Γιουγκοσλαβική Δημοκρατία της Μακεδονίας και τη Βουλγαρία και στα βορειοανατολικά με την Τουρκία. """
tokens = el_tokenizer ( text )
assert len ( tokens ) == 54
@pytest.mark.parametrize (
" text,length " ,
[
( " Διοικητικά η Ελλάδα διαιρείται σε 13 Περιφέρειες. " , 8 ) ,
( " Η εκπαίδευση στην Ελλάδα χωρίζεται κυρίως σε τρία επίπεδα." , 10 ) ,
(
" Η Ελλάδα είναι μία από τις χώρες της Ευρωπαϊκής Ένωσης (Ε Ε ) που διαθέτει σηµαντικό ορυκτό πλούτο." ,
19 ,
) ,
(
" Η ναυτιλία αποτέλεσε ένα σημαντικό στοιχείο της Ελληνικής οικονομικής δραστηριότητας από τα αρχαία χρόνια." ,
15 ,
) ,
( " Η Ελλάδα είναι μέλος σε αρκετούς διεθνείς οργανισμούς." , 9 ) ,
] ,
)
def test_el_tokenizer_handles_cnts ( el_tokenizer , text , length ) :
tokens = el_tokenizer ( text )
assert len ( tokens ) == length