دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت اول: مقدمه و معرفی دوره (Introduction)

با سلام خدمت تمامی کاربران عزیز وب سایت محبوب و دوست داشتنی توسینسو

با توجه به حمایت شما دوستان عزیز از تک ویدیوهای پردازش متن و متن کاوی، تصمیم گرفتم تا به صورت مقدماتی در وب سایت توسینسو وارد فیلد پردازش متن و متن کاوی بشم.

پردازش داده های متنی امروزه یک چالش اساسی است، که در دوره های ارشد و دکترای علوم کامپیوتر و یا حتی در رشته زبان شناسی به طور جد به صورت تحقیق و پژوهش در حال پیگیری می باشد.

لذا با توکل به خدا یکی دیگر از دوره هایی که با شما خواهیم بود، دوره پردازش متن با زبان برنامه نویسی پایتون می باشد.

ان شاء الله در پایان دوره بتوانیم به طور حرفه ای به پردازش و کاووش داده های متنی بپردازیم و انواع عملیات پردازش متن رو درک کنیم.

لازم به ذکر است که در دوره پیش رو از ابزارها و کتابخانه های مختلفی استفاده خواهیم کرد به خصوص کتابخانه قدرتمند NLTK (دوره آموزشی NLTK). نکته دیگر اینه که هر کدام از ویدیوهای این دوره خود به تنهایی یک پردازش متن مستقل می باشند و تقریبا هیچ گونه وابستگی به ویدیوهای قبلی و بعدی خود ندارند. پس شما کاربر عزیز می توانید فقط ویدیوی مربوط به نیاز خود را خریداری کنید و آموزش کامل آن ببینید و به صورت عملی پیاده سازی کنید.

در این دوره ما از سطح ساده و مقدماتی شروع می کنیم تا مباحث پیشرفته

مباحث آموزشی در این دوره:

1. مرتب سازی خطوط فایل های متنی

2. فرمت دهی پاراگراف ها به کمک کتابخانه textwrap3

3. شمارش واژه های داده های متنی به کمک کتابخانه NLTK

4. تبدیل داده های متنی از باینری به اسکی و باالعکس با کمک کتابخانه binascii

5. خواندن وارونه داده های متنی به کمک کتابخانه file-read-backwards

6. حذف کلمات تکراری در داده های متنی با کتابخانه NLTK

7.استخراج ایمل و آدرس های وب از دل داده های متنی به کمک کتابخانه re

8. چاپ زیبای داده های متنی با کتابخانه pprint

9. tokenization پیشرفته داده های متنی به کمک کتابخانه NLTK

10. حذف کلمات Stopwords از داده های متنی به کمک کتابخانه NLTK

11. پیدا کردن واژه های مترادف و متضاد یک کلمه به کمک کتابخانه های wordnet و Nltk

12. ترجمه داده های متنی به کمک ابزار NLTK

13. جایگزاری واژه ای به کمک کتابخانه re

14. دسته بندی داده های متنی

15. پردازش داده های متنی pdf

16. خلاصه سازی داده های متنی به کمک کتابخانه NLTK

17. ریشه یابی واژه های داده های متنی به کمک کتابخانه NLTK

18. و به کار گیری بسیاری از متدهای کتابخانه NLTK و ...

text pro2

text pro

ارادتمند شما: کاظم تقندیکی

موفق باشید

#پیش_پردازش_متن #آموزش_متن_کاوی #آموزش_متن_کاوی_در_پایتون #ابزار_nltk #پردازش_متن #پردازش_متن_در_پایتون
عنوان
1 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت اول: مقدمه و معرفی دوره (Introduction) 13′:38″ رایگان
2 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت دوم: مرتب سازی خطوط داده های متنی (Sorting Lines) 17′:43″ 5,500
3 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت سوم: قالب دهی (فرمت دهی) خطوط پاراگراف داده های متنی (Reformatting Paragraphs) 19′:35″ 5,500
4 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت چهارم: نصب ابزار NLTK به منظور پردازش زبان طبیعی (Install NLTK) 11′:4″ 5,500
5 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت پنجم: جداسازی و شمارش کلمات داده های متنی (Counting Token in Paragraphs) 9′:33″ 5,500
6 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت ششم: تبدیل داده های متنی از باینری به اسکی و بالعکس (Convert Binary to ASCII) 14′:4″ 5,500
7 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت هفتم: خواندن خطوط و جداسازی کلمات داده های متنی به صورت وارونه(Backward File Reading) 15′:51″ 5,500
8 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت هشتم: حذف واژه ها یا کلمات تکرای در یک سند متنی ( Filter Duplicate Words) 11′:21″ 5,500
9 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت نهم: پردازش متن فایل های PDF با کمک کتابخانه PyPDF2 در پایتون (Process PDF) 11′:4″ 5,500
10 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت دهم: استخراج انواع الگوهای رشته ای مانند ایمیل، آدرس وب، تاریخ و ... با کمک کتابخانه re (عبارات منظم) از دل داده های متنی (Extract Emails and Url from Text) 15′:51″ 5,500
11 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت دوازدهم: جداسازی و تفکیک پذیری حرفه ای جملات، واژه های انگلیسی و آلمانی در اسناد متنی (Tokenization Professional) 17′:31″ 5,500
12 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت یازدهم: تغییر ساختار و شکل (رمزنگاری و رمزگشایی) واژه های اسناد متنی (Capitalize and Translate) 18′:53″ 5,500
13 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت سیزدهم: شناسایی و حذف Stopwords از اسناد یا داده های متنی (Remove Stopwords) 16′:11″ 5,500
14 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت چهاردهم: استفاده از پایگاه داده لغوی WordNet به منظور ... (Synonyms and Antonyms-WordNet Interface) 30′:50″ 22,000
15 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت پانزدهم: شناسایی و استخراج Bigrams و تشخیص موضوع یک سند متنی (Extract Topic and Bigrams) 14′:17″ 11,000
16 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت شانزدهم: برچسب‌زنی اجزای کلام در اسناد یا داده های متنی (Tagging Words) 21′:26″ 11,000
17 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت هفدهم: آشنایی و استفاده از پیکره های متنی NLTK در عملیات متن کاوی (Corpora Access) 10′:24″ 5,500
18 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت هجدهم: به دست آوردن فراوانی واژه ای در کرپس (Term Frequency) 15′:58″ 5,500
19 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت نوزدهم: ریشه یابی کلمات به کمک الگوریتم های ریشه یابی (Stemming Algorithms) 11′:4″ 5,500
20 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت بیستم (قسمت آخر): آنالیز احساسات داده های متنی (Sentiment Analysis) 16′:59″ 5,500
21 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت بیست و یکم (تکمیلی 1): خلاصه سازی اسناد متنی (Automatic summarization) 15′:48″ 8,800
22 دوره آموزشی پردازش متن با زبان برنامه نویسی پایتون، قسمت بیست و دوم (تکمیلی 2): ترجمه متن (Text Translation) 10′:53″ رایگان
زمان و قیمت کل 5:39′:58″ 140,800
4 نظر
مهرداد پورخیری

مهندس عزیز 

سلام

متناسب با سرفصل هایی که تدریس می کنید من متوجه شدم که با استفاده از کتابخانه های زبان پایتون یک سری اطلاعات آماری از متون استخراج می کنید. ولی سوال اینجاس که این اطلاعات آماری استخراج شده به چه دردی میخوره. از استخراج این اطلاعات چه استفاده ای می کنیم و قراره به کجا برسیم.


یکی از دوستان می گفت در این زمینه کتابخانه هایی وجود داره که مثلا متن صد نامه که توسط یک نفر نوشته شده رو میشه آنالیز کرد و نهایتا گفت که نویسنده خانم بوده یا آقا.


1-آیا این موضوع درسته و همچین محصولی رو میشه از آنالیزهامون بدست آورد.

2-آیا شما در این خصوص صحبتی کردید یا فقط در طول دوره آنالیز انجام میدیم.

کاظم تقندیکی

سلام مهندس عزیز

شما با پردازش متن (nlp) به نتایجی خواهید رسید که واقعاً شگفت انگیز بوده به عنوان مثال فرض کنید می توان یک سیستم مدل نمود که به محض دریافت یک سند متنی با تعداد صفحات بسیار زیاد سریعا به شما بگه این سند در مورد چه موضوعی صحبت می کنه (Topic Modeling)، به شما بگه حسی که این مطلب به خواننده خود می ده مثبت هست یا منفی (sentiment analysis)، به شما بگه این سند شبیه فلان سند در فلان تاریخ بوده یا اینکه این سند اسپم می باشد و خیلی از کارهای جالب دیگه. شاید بنده به ریز وارد این موارد نشده باشم اما کلیت این موارد را تشریح کرده ام، با آموزش سرفصل های nlp هر شخص علاقه مند به حوزه nlp خواهد توانست، سیستم های خارق العاده پردازش زبان طبیعی تولید کنه که متن یا صدا رو مورد پایش قرار دهد.

اگه علاقه مند به این مباحث هستید با ایمیل و تلگرام بنده در ارتباط باشید تا در صورت نیاز بیشتر توضیح بدم و بگم چجوری شروع کنید.

taghandiky@gmail.com

09335816244


مهرداد پورخیری

بسیار متشکرم از راهنماییتون 

مهندس جان فک کنم این کتابخونه ها بیشتر روی متون انگلیسی کار می کنن. آیا نمونه هایی هست که متون فارسی رو آنالیز کنه؟

 

ولی اگر یک تجاری به این موضوع نگاه کنیم بهتر اینه که بتونیم اطلاعات دیتابیس ها رو بررسی کنیم و اطلاعات سودمندی در خصوص سود و زیان سازمان ها و یا راه های موفقییت اونا رو استخراج کنیم. 

کاظم تقندیکی

چه جالب امروز داشتم ویدیویی آموزشی در رابطه با فرایند پردازش زبان طبیعی رو روی اسناد فارسی تهیه می کردم که فکر کنم تا شب توی سایت گذاشته بشه

البته اکثر کتابخانه های معتبر پردازش زبان طبیعی (nltk , spacy , ...) که توسط دانشگاه استنفورد ارائه شده،، فارسی رو ساپورت نمیکنه اونم به دلیل ساختار نامنظم این زبان بوده ولی خوب یکسری ترفندهایی هست که به بهترین شکل می توان فعلا بعضی از عملیات پردازش زبان طبیعی روی اسناد فارسی انجام داد که به وقتش توضیح خواهم داد.

فعلا کتابخانه ای که من برای پردازش متون فارسی میشناسم کتابخانه هضم بوده که تقریباً 10% از قدرت کتابخانه هایی مانند nltk رو از نظر من داره.

اطلاعات سازمان ها همیشه ساختاریافته و منظم نیستند که بتوان از اصول داده کاوی بهره برد به عنوان مثال  سایت تویتر حاوی میلیون ها کامنت هست که ناساختار یافته هستند و شما به راحتی با الگوریتم های پردازش زبان طبیعی می توانید عملیات نظرکاوی (opinion mining) رو روی پست های سایت انجام بدید و این خود یک کار تجاری بوده.

نظر شما
برای ارسال نظر باید وارد شوید.
از سرتاسر توسینسو
تنظیمات حریم خصوصی
تائید صرفنظر
×

تو می تونی بهترین نتیجه رو تضمینی با بهترین های ایران بدست بیاری ، پس مقایسه کن و بعد خرید کن : فقط توی جشنواره تابستانه می تونی امروز ارزونتر از فردا خرید کنی ....