در توسینسو تدریس کنید

و

با دانش خود درآمد کسب کنید

آموزش پردازش متون فارسی به کمک کتابخانه هضم

آموزش پردازش متون فارسی به کمک کتابخانه هضم

برای استفاده از این فیلم آموزشی باید هزینه آن را پرداخت کنید.

شما می توانید 3 دقیقه از این ویدیو را به صورت رایگان مشاهده کنید

سلام دوستان

 نوبتی هم که باشه نوبت پردازش متون فارسی بوده، البته پردازش متون زبان فارسی کاری تقریباً دشوار است، نبود ساختار درست جملات در زبان فارسی، عدم تعیین کلمات دقیق و صحیح فارسی در متون مختلف استخراج روابط را با چالش های جدی مواجه کرده است. زبان های بزرگ دنیا معمولا پکیج هایی در پردازش زبان ارائه کرده اند، مثلا دانشگاه استنفورد در پکیج پردازش زبان طبیعی خود (nltk)، زبان های ذیل (انگلیسی، عربی، فرانسه و .... غیر از فارسی ) رو پشتیبانی می کند. 


TOSINSO هضم

هضم کتابخانه پردازش زبان فارسی است که در پایتون، جاوا و سی شارپ ایمپورت می شود. برای استفاده از هضم، همه متن فارسی باید تبدیل به یونیکد شود، دیتاست هضم بخش زیادی از اصطلاحات زبان فارسی را پوشش نمی دهد، هضم کلمات اضافی (stopwords) را حذف نمی کند، مفاهیم را از کلمات تشخیص نمیدهد (semantic)، ویژگی های هضم عبارت از موارد ذیل هستند،


TOSINSO 

متاسفانه چند وقتی هست (علی الخصوص هم اکنون که در حال ضبط این ویدیو هستم) که واسط کتابخانه هضم به نام wapiti دچار مشکل شده و عملیات POSTagger،  Chuncker و Dependency Parser جواب نمیده به همین دلیل این موارد در اموزش این کتابخانه بیان نشده است. و کلا در این اموزش ما به تشریح عملیات نرمال سازی متون فارسی، word and sentence tokenize و عملیات ریشه یابی (stemming - lemmatization) که بخش کوتاهی از عملیات پردازش متن بوده، می پردازیم.

همچنین به نظر من قدرت و توانایی کتابخانه هضم در مقایسه با کتابخانه هایی مانند  nltk (دوره پردازش متن) و spaCy (دوره پردازش متن) تنها 10% بوده


پیروز و موفق باشید.

0 نظر

هیچ نظری ارسال نشده است! اولین نظر برای این مطلب را شما ارسال کنید...

نظر شما
برای ارسال نظر باید وارد شوید.
از سرتاسر توسینسو
تنظیمات حریم خصوصی
تائید صرفنظر
×

تو می تونی بهترین نتیجه رو تضمینی با بهترین های ایران بدست بیاری ، پس مقایسه کن و بعد خرید کن : فقط توی جشنواره تابستانه می تونی امروز ارزونتر از فردا خرید کنی ....