آشنایی با کتابخانه NLTK در پایتون و کاربردهای آن

NLTK یک بستر پیشرو برای ساختن برنامه های پایتون برای کار با داده های زبان انسانی است. این رابط کاربری آسان برای بیش از 50 شرکت بزرگ و منابع واژگانی مانند WordNet ، به همراه مجموعه ای از کتابخانه های پردازش متن برای طبقه بندی ، رمزگذاری ، نشانه گذاری ، برچسب زدن ، تجزیه و استدلال معنایی ، بسته های مربوط به کتابخانه های NLP با قدرت صنعتی ، و یک انجمن گفتگوی فعال NLTK به لطف راهنمایی مفید در معرفی اصول برنامه نویسی در کنار مباحث مربوط به زبان شناسی محاسباتی ، به علاوه اسناد جامع API ، به طور یکسان برای زبان شناسان ، مهندسان ، دانشجویان ، آموزگاران ، محققان و کاربران صنعت مناسب است.

دوره های شبکه، برنامه نویسی، مجازی سازی، امنیت، نفوذ و ... با برترین های ایران

NLTK برای ویندوز ، Mac OS X و Linux در دسترس است. مهمتر از همه ، NLTK یک پروژه آزاد ، منبع باز و جامعه محور است. NLTK "ابزاری فوق العاده برای تدریس ، کار در ، زبانشناسی محاسباتی با استفاده از پایتون" و "کتابخانه ای شگفت انگیز برای بازی با زبان طبیعی" خوانده شده است.پردازش زبان طبیعی با پایتون مقدمه ای عملی برای برنامه نویسی برای پردازش زبان است. نوشتن توسط سازندگان NLTK ، خواننده را از طریق اصول نوشتن برنامه های پایتون ، کار با شرکتها ، طبقه بندی متن ، تجزیه و تحلیل ساختار زبانی و موارد دیگر راهنمایی می کند. نسخه آنلاین کتاب برای پایتون 3 و NLTK 3. به روز شده است (نسخه اصلی پایتون 2 هنوز هم در http://nltk.org/book_1ed موجود است.)

برخی کارهای ساده که می توانید با NLTK انجام دهید:

آشنایی با کتابخانه NLTK در پایتون و کاربردهای آن

آشنایی با کتابخانه NLTK در پایتون و کاربردهای آن

آشنایی با کتابخانه NLTK در پایتون و کاربردهای آنآشنایی با کتابخانه NLTK در پایتون و کاربردهای آن

آموزش نصب NLTK

NLTK به نسخه های پایتون 2.7 ، 3.5 ، 3.6 یا 3.7 نیاز دارد.برای کاربران ویندوز ، اکیداً توصیه می شود که این برنامه را با موفقیت نصب کنید Python 3 https://docs.python-guide.org/starting/install3/win/#install3-windows تنظیم یک محیط Python (Mac / Unix / Windows) لطفاً قبل از نصب NLTK ، https://docs.python-guide.org/dev/virtualenvs/ را یاد بگیرید تا نحوه مدیریت مدیران محیط مجازی خود را یاد بگیرید.

Mac/Unix

  1. Install NLTK: run pip install --user -U nltk
  2. Install Numpy (optional): run pip install --user -U numpy
  3. Test installation: run pythonthen type import nltk

برای نسخه های قدیمی پایتون ممکن است نصب مراجعه به (http://pypi.python.org/pypi/setuptools) و نصب پیپ (sudo easy_install pip) ضروری باشد

Windows

این دستورالعمل ها فرض می کنند که شما قبلاً پایتون را روی دستگاه خود نصب نکرده اید.

نصب باینری 32 بیتی:


  1. Install Python 3.7: http://www.python.org/downloads/(avoid the 64-bit versions)
  2. Install Numpy (optional): https://numpy.org/
  3. Install NLTK: http://pypi.python.org/pypi/nltk
  4. Test installation: Start>Python37, then type import nltk

داده های NLTK را نصب کنید.پس از نصب بسته NLTK ، لطفاً مجموعه داده ها / مدل های لازم را برای کارکردن توابع خاص نصب کنید.اگر مطمئن نیستید که به کدام مجموعه داده ها یا مدل های موردنیاز خود نیاز دارید ، می توانید زیر مجموعه "محبوب" داده های NLTK را نصب کنید ، بر روی نوع خط فرمان python -m nltk.downloader محبوب یا در مفسر Python nltk را وارد کنید. nltk.download ("محبوب") برای جزئیات ، به این آدرس http://www.nltk.org/data.html مراجعه کنید.داده های NLTK را نصب کنید. نصب کننده تعاملی(Interactive installer).مترجم پایتون را اجرا کنید و دستورات را تایپ کنید:

آشنایی با کتابخانه NLTK در پایتون و کاربردهای آن




باید یک پنجره جدید باز شود که NLTK Downloader را نشان می دهد. بر روی منوی File کلیک کرده و Change Download Directory را انتخاب کنید. برای نصب مرکزی ، این را بر روی C قرار دهید: \ nltk_data (ویندوز) ، / usr / local / share / nltk_data (مک) ، یا / usr / share / nltk_data (یونیکس). بعد ، بسته ها یا مجموعه هایی را که می خواهید بارگیری کنید ، انتخاب کنید.اگر داده ها را در یکی از مکان های مرکزی بالا نصب نکرده اید ، برای تعیین مکان داده ها ، باید متغیر محیط NLTK_DATA را تنظیم کنید. (در یک دستگاه ویندوز ، بر روی "رایانه من" راست کلیک کنید و سپس خصوصیات> پیشرفته> متغیرهای محیطی> متغیرهای کاربر> جدید ...) را انتخاب کنید.تست کنید که داده ها به شرح زیر نصب شده اند. (این فرض می کند که شما Brown Brown Corpus را بارگیری کرده اید):

آشنایی با کتابخانه NLTK در پایتون و کاربردهای آنآشنایی با کتابخانه NLTK در پایتون و کاربردهای آن

 نصب از طریق سرور وب پروکسی:

اگر اتصال وب شما از سرور پروکسی استفاده می کند ، باید آدرس پراکسی را به شرح زیر مشخص کنید. در مورد پروکسی معتبر ، نام کاربری و رمزعبور را تعیین کنید. اگر پروکسی روی None تنظیم شود ، این تابع تلاش می کند پروکسی سیستم را تشخیص دهد.

آشنایی با کتابخانه NLTK در پایتون و کاربردهای آنآشنایی با کتابخانه NLTK در پایتون و کاربردهای آن

نصب خط فرمان(Command line installation)

دانلود کننده برای نصب داده های NLTK ، یک فهرست موجود nltk_data را جستجو می کند. اگر شخصی وجود نداشته باشد ، سعی در ایجاد یکی از آنها در یک مکان مرکزی (هنگام استفاده از یک حساب سرپرست) یا در غیر این صورت در فضای پرونده کاربر خواهد داشت. در صورت لزوم ، دستور بارگیری را از یک حساب سرپرست یا با استفاده از sudo اجرا کنید. مکان سیستم پیشنهادی C است: \ nltk_data (ویندوز)؛ / usr / local / share / nltk_data (مک)؛ و / usr / share / nltk_data (یونیکس) برای مشخص کردن مکان متفاوت می توانید از پرچم -d استفاده کنید (اما اگر این کار را انجام دادید ، حتماً متغیر محیط NLTK_DATA را مطابق با آن تنظیم کنید).دستور python -m nltk.downloader all را اجرا کنید. برای اطمینان از نصب مرکزی ، دستور sudo python -m nltk.downloader -d / usr / local / share / nltk_data را اجرا کنید.

  • Windows: از گزینه "Run ..." در منوی Start استفاده کنید. کاربران ویندوز ویستا ابتدا باید با استفاده از Start -> Properties -> Customize این گزینه را فعال کنند تا گزینه "Run ..." را فعال کنید.
  •  تست نصب: بررسی کنید که با ورود به یک حساب کاربری ، شروع به کار مفسر پایتون و دسترسی به Brown Corpus ، محیط کاربر و امتیازات آن به درستی تنظیم شده است (بخش قبلی را ببینید).

نصب دستی

یک پوشه nltk_data ، به عنوان مثال ایجاد کنید. C: \ nltk_data ، یا / usr / local / share / nltk_data ، و زیر پوشه ها ، دستور زبان ها ، متفرقه ، احساسات ، برچسب ها ، شرکت ها ، راهنما ، مدل ها ، ساقه سازها ، رمزهای زنگ دار.بسته های جداگانه را از http://nltk.org/nltk_data/ بارگیری کنید (به لینک های "بارگیری" مراجعه کنید). آنها را در زیر پوشه مناسب جدا کنید. به عنوان مثال ، قشر قهوه ای ، موجود در: https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/brown.zip به nltk_data / corpora / قهوه ای منتقل نمی شود.متغیر محیط NLTK_DATA خود را تنظیم کنید تا به پوشه nltk_data سطح بالاتر خود اشاره کنید.کتابخانه‌ NLTK یکی از جامع‌ترین و قدیمی‌ترین کتابخانه‌های پردازش زبان طبیعی در پایتون است. این کتابخانه پایه و استانداردی برای کتابخانه‌های پردازش متن محسوب شده و برای کاربردهای پژوهشی فوق‌العاده است. یکی از ویژگی‌های خوب این کتابخانه امکان اتصال به پیکره‌های مختلف متنی است.

برای آموزش بیشتر کتابخانه nltk به لینک زیر در سایت توسینسو مراجعه کنید:


نظرات