به پروسه شکستن یک متن و تبدیل آن به واحد های کوچک تر مانند لغت، عبارت و یا جمله tokenization می گویند و یکی از مراحل آماده سازی دیتا در NLP می باشد که یک متن Unstructured را به فرمت Structured تبدیل می کند که به راحتی بتواند توسط الگوریتم های NLP آنالیز شود.
تعریف Stemming (ریشه یابی): به پروسه ی کاهش یک کلمه و رسیدن به ریشه ی آن کلمه stemming می گویند مثلا حذف پیشوند و پسوند از یک لغت.
تعریف Lemmatization (ریشه یابی لغوی): به پروسه ی کاهش یک کلمه و رسیدن به ریشه معنادار آن کلمه می گویند.
فرق Stemming و Lemmatization: هر دو یک کلمه را کاهش می دهند ولی در Stemming ممکن است کاهش کلمه منجر به رسیدن به ریشه معنادار از آن کلمه نشود! برای مثال کلمه “Caring” اگه stem کنیم می شود “Car” که از لحاظ معنایی هیچ ربطی به هم ندارند! ولی در Lemmatization وقتی کلمه را کاهش می دهیم در نهایت به ریشه ی معنادار می رسیم. مثلا همان “Caring” اگه Lemma کنیم “Care” می شود.
کتابخانه ای که ابزار Lemmatization دارد مانند NLTK برای زبان انگلیسی خودش توانایی تشخیص ریشه معنادار را دارد. معمولا هم پروسه ی Stemming با سرعت بیشتری از Lemmatization انجام می شود.
این موارد مطالبی بود شما هم می توانید بیشتر در این زمینه جستجو کنید تا تفاوت بین این دو را کامل متوجه شوید و حتما اگر اطلاعات مفیدی به دست آوردید در کامنت ها برای ما بنویسید.
این سه قدم Tokenization, Stemming و Lemmatization جزو مراحل مهم آماده سازی متن قبل از اعمال الگوریتم های NLP هستند که به راحتی با چند خط کد پایتون انجام می شوند.