در توسینسو تدریس کنید

و

با دانش خود درآمد کسب کنید

آموزش پردازش متن با پایتون قسمت 1 : معرفی دوره و مقدمه

با توجه به حمایت شما دوستان عزیز از تک ویدیوهای پردازش متن و متن کاوی، تصمیم گرفتم تا به صورت مقدماتی در وب سایت توسینسو وارد فیلد پردازش متن و متن کاوی بشم.پردازش داده های متنی امروزه یک چالش اساسی است، که در دوره های ارشد و دکترای علوم کامپیوتر و یا حتی در رشته زبان شناسی به طور جد به صورت تحقیق و پژوهش در حال پیگیری می باشد.

لذا با توکل به خدا یکی دیگر از دوره هایی که با شما خواهیم بود، دوره پردازش متن با زبان برنامه نویسی پایتون می باشد.ان شاء الله در پایان دوره بتوانیم به طور حرفه ای به پردازش و کاووش داده های متنی بپردازیم و انواع عملیات پردازش متن رو درک کنیم.لازم به ذکر است که در دوره پیش رو از ابزارها و کتابخانه های مختلفی استفاده خواهیم کرد به خصوص کتابخانه قدرتمند NLTK (دوره آموزشی NLTK).

نکته دیگر اینه که هر کدام از ویدیوهای این دوره خود به تنهایی یک پردازش متن مستقل می باشند و تقریبا هیچ گونه وابستگی به ویدیوهای قبلی و بعدی خود ندارند. پس شما کاربر عزیز می توانید فقط ویدیوی مربوط به نیاز خود را خریداری کنید و آموزش کامل آن ببینید و به صورت عملی پیاده سازی کنید.

در این دوره ما از سطح ساده و مقدماتی شروع می کنیم تا مباحث پیشرفته

مباحث آموزشی در این دوره:

  1. مرتب سازی خطوط فایل های متنی
  2. فرمت دهی پاراگراف ها به کمک کتابخانه textwrap3
  3. شمارش واژه های داده های متنی به کمک کتابخانه NLTK
  4. تبدیل داده های متنی از باینری به اسکی و باالعکس با کمک کتابخانه binascii
  5. خواندن وارونه داده های متنی به کمک کتابخانه file-read-backwards
  6. حذف کلمات تکراری در داده های متنی با کتابخانه NLTK
  7. استخراج ایمل و آدرس های وب از دل داده های متنی به کمک کتابخانه re
  8. چاپ زیبای داده های متنی با کتابخانه pprint
  9. tokenization پیشرفته داده های متنی به کمک کتابخانه NLTK
  10. حذف کلمات Stopwords از داده های متنی به کمک کتابخانه NLTK
  11. پیدا کردن واژه های مترادف و متضاد یک کلمه به کمک کتابخانه های wordnet و Nltk
  12. ترجمه داده های متنی به کمک ابزار NLTK
  13. جایگزاری واژه ای به کمک کتابخانه re
  14. دسته بندی داده های متنی
  15. پردازش داده های متنی pdf
  16. خلاصه سازی داده های متنی به کمک کتابخانه NLTK
  17. ریشه یابی واژه های داده های متنی به کمک کتابخانه NLTK
  18. و به کار گیری بسیاری از متدهای کتابخانه NLTK و ...

ارادتمند شما: کاظم تقندیکی

موفق باشید

#پیش_پردازش_متن #آموزش_متن_کاوی #آموزش_متن_کاوی_در_پایتون #ابزار_nltk #پردازش_متن #پردازش_متن_در_پایتون

عنوان
1 آموزش پردازش متن با پایتون قسمت 1 : معرفی دوره و مقدمه 13′:37″ رایگان
2 آموزش پردازش متن با پایتون قسمت 2 : مرتب سازی خطوط داده متنی 17′:43″ 5,500
3 آموزش پردازش متن با پایتون قسمت 3 : Reformatting Paragraphs 19′:35″ 5,500
4 آموزش پردازش متن با پایتون قسمت 4 : نصب NLTK برای پردازش 11′:4″ 5,500
5 آموزش پردازش متن با پایتون قسمت 5 : Counting Token in Paragraphs 9′:33″ 5,500
6 آموزش پردازش متن با پایتون قسمت 6 : Convert Binary to ASCII 14′:4″ 5,500
7 آموزش پردازش متن با پایتون قسمت 7 : Backward File Reading 15′:51″ 5,500
8 آموزش پردازش متن با پایتون قسمت 8 : Filter Duplicate Words 11′:21″ 5,500
9 آموزش پردازش متن با پایتون قسمت 9 : پردازش PDF با PyPDF2 11′:4″ 5,500
10 آموزش پردازش متن با پایتون قسمت 10 : Extract Emails and Url from 15′:51″ 5,500
11 آموزش پردازش متن با پایتون قسمت 12 : Tokenization Professional 17′:31″ 5,500
12 آموزش پردازش متن با پایتون قسمت 11 : Capitalize and Translate 18′:52″ 5,500
13 آموزش پردازش متن با پایتون قسمت 13 : Remove Stopwords 16′:11″ 5,500
14 آموزش پردازش متن با پایتون قسمت 14 : Synonyms and Antonyms 30′:50″ 22,000
15 آموزش پردازش متن با پایتون قسمت 15 : Extract Topic and Bigrams 14′:17″ 11,000
16 آموزش پردازش متن با پایتون قسمت 16 : Tagging Words 21′:26″ 11,000
17 آموزش پردازش متن با پایتون قسمت 17 : Corpora Access با NLTK 10′:23″ 5,500
18 آموزش پردازش متن با پایتون قسمت 18 : Term Frequency 15′:57″ 5,500
19 آموزش پردازش متن با پایتون قسمت 19 : Stemming Algorithms 11′:4″ 5,500
20 آموزش پردازش متن با پایتون قسمت 20 : Sentiment Analysis 16′:59″ 5,500
21 آموزش پردازش متن با پایتون قسمت 21 : Automatic summarization 15′:48″ 8,800
22 آموزش پردازش متن با پایتون قسمت 22 : Text Translation 10′:53″ رایگان
زمان و قیمت کل 5:39′:54″ 140,800
4 نظر
مهرداد پورخیری

مهندس عزیز 

سلام

متناسب با سرفصل هایی که تدریس می کنید من متوجه شدم که با استفاده از کتابخانه های زبان پایتون یک سری اطلاعات آماری از متون استخراج می کنید. ولی سوال اینجاس که این اطلاعات آماری استخراج شده به چه دردی میخوره. از استخراج این اطلاعات چه استفاده ای می کنیم و قراره به کجا برسیم.


یکی از دوستان می گفت در این زمینه کتابخانه هایی وجود داره که مثلا متن صد نامه که توسط یک نفر نوشته شده رو میشه آنالیز کرد و نهایتا گفت که نویسنده خانم بوده یا آقا.


1-آیا این موضوع درسته و همچین محصولی رو میشه از آنالیزهامون بدست آورد.

2-آیا شما در این خصوص صحبتی کردید یا فقط در طول دوره آنالیز انجام میدیم.

کاظم تقندیکی

سلام مهندس عزیز

شما با پردازش متن (nlp) به نتایجی خواهید رسید که واقعاً شگفت انگیز بوده به عنوان مثال فرض کنید می توان یک سیستم مدل نمود که به محض دریافت یک سند متنی با تعداد صفحات بسیار زیاد سریعا به شما بگه این سند در مورد چه موضوعی صحبت می کنه (Topic Modeling)، به شما بگه حسی که این مطلب به خواننده خود می ده مثبت هست یا منفی (sentiment analysis)، به شما بگه این سند شبیه فلان سند در فلان تاریخ بوده یا اینکه این سند اسپم می باشد و خیلی از کارهای جالب دیگه. شاید بنده به ریز وارد این موارد نشده باشم اما کلیت این موارد را تشریح کرده ام، با آموزش سرفصل های nlp هر شخص علاقه مند به حوزه nlp خواهد توانست، سیستم های خارق العاده پردازش زبان طبیعی تولید کنه که متن یا صدا رو مورد پایش قرار دهد.

اگه علاقه مند به این مباحث هستید با ایمیل و تلگرام بنده در ارتباط باشید تا در صورت نیاز بیشتر توضیح بدم و بگم چجوری شروع کنید.

taghandiky@gmail.com

09335816244


مهرداد پورخیری

بسیار متشکرم از راهنماییتون 

مهندس جان فک کنم این کتابخونه ها بیشتر روی متون انگلیسی کار می کنن. آیا نمونه هایی هست که متون فارسی رو آنالیز کنه؟

 

ولی اگر یک تجاری به این موضوع نگاه کنیم بهتر اینه که بتونیم اطلاعات دیتابیس ها رو بررسی کنیم و اطلاعات سودمندی در خصوص سود و زیان سازمان ها و یا راه های موفقییت اونا رو استخراج کنیم. 

کاظم تقندیکی

چه جالب امروز داشتم ویدیویی آموزشی در رابطه با فرایند پردازش زبان طبیعی رو روی اسناد فارسی تهیه می کردم که فکر کنم تا شب توی سایت گذاشته بشه

البته اکثر کتابخانه های معتبر پردازش زبان طبیعی (nltk , spacy , ...) که توسط دانشگاه استنفورد ارائه شده،، فارسی رو ساپورت نمیکنه اونم به دلیل ساختار نامنظم این زبان بوده ولی خوب یکسری ترفندهایی هست که به بهترین شکل می توان فعلا بعضی از عملیات پردازش زبان طبیعی روی اسناد فارسی انجام داد که به وقتش توضیح خواهم داد.

فعلا کتابخانه ای که من برای پردازش متون فارسی میشناسم کتابخانه هضم بوده که تقریباً 10% از قدرت کتابخانه هایی مانند nltk رو از نظر من داره.

اطلاعات سازمان ها همیشه ساختاریافته و منظم نیستند که بتوان از اصول داده کاوی بهره برد به عنوان مثال  سایت تویتر حاوی میلیون ها کامنت هست که ناساختار یافته هستند و شما به راحتی با الگوریتم های پردازش زبان طبیعی می توانید عملیات نظرکاوی (opinion mining) رو روی پست های سایت انجام بدید و این خود یک کار تجاری بوده.

نظر شما
برای ارسال نظر باید وارد شوید.
از سرتاسر توسینسو
تنظیمات حریم خصوصی
تائید صرفنظر
×

تو می تونی بهترین نتیجه رو تضمینی با بهترین های ایران بدست بیاری ، پس مقایسه کن و بعد خرید کن : فقط توی جشنواره تابستانه می تونی امروز ارزونتر از فردا خرید کنی ....