چند روز قبل ، ما مقدمه ای در مورد NLP با پایتون ارائه دادیم که بازخوردهای بسیار مثبتی داشت و بنابراین تصمیم گرفتم در مورد موردی که من درباره NLP دوست دارم ، تجزیه و تحلیل احساسات بنویسم.
اگرچه قبلاً کمی از آنچه در آن است و چگونگی استفاده از آن با Python ، پرداخته ایم ، ما موضوع را با جزئیات بیشتری مرور خواهیم کرد و با داده های واقعی و مثالهای عملی کار خواهیم کرد. ما با داده های متنی از توییتر کار خواهیم کرد ، بنابراین مطمئن هستم که سرگرم کننده خواهد بود!
طبق معمول ، می توانید تمام مراحل را با استفاده از دفترچه یادداشت زیر دنبال کنید ، یا اینکه می توانید کد را به تنهایی بنویسید.
تحلیل احساسات
بیایید با یک مرور کوتاه در مورد آنچه که تجزیه و تحلیل احساسات است شروع کنیم. تجزیه و تحلیل احساسات ، نگرش های مربوط به یک موضوع یا پیام را مشخص می کند (به عنوان مثال ، یک توییت). می توانیم احساسات موجود در متن را مثبت ، منفی یا خنثی تشخیص دهیم.
تجزیه و تحلیل احساسات طیف گسترده ای از برنامه ها را در دنیای واقعی شامل گزارش در مورد کمپین های بازاریابی ، ارزیابی و فهرست بازخورد کاربران ، بررسی ها ، توییت ها و غیره می کند.
چرا توییتر و چرا ماسک؟
توییت ها برای این نوع تحلیل شیرین هستند. هر توییت مجموعه محدودی از اطلاعات است (در حال حاضر حداکثر 280 کاراکتر) ، پردازش آن را آسان تر می کند. علاوه بر این ، برخلاف Facebook یا موارد دیگر ، توییتر دارای اکثریت مشخصات عمومی است.
یک نکته مهم ، API توییتر است که کامل و قوی است و استخراج داده های مورد نیاز را برای ما آسان می کند.
بنابراین این سوال ، چرا ماسک؟ اگرچه از نظر تئوری ، شما می توانید مراحل مشابه را در هر پروفایل ، یا حتی مجموعه ای از توییت ها ، حتی از پروفایل های مختلف ، اعمال کنید ، من تصمیم گرفتم که به دنبال ماسک بروم ، چرا که نه؟ او یکی از سوپراستارهای توییتر است و من فکر کردم که دیدن چیزهایی که او در آنجا صحبت می کند جالب و هیجان انگیز است.
حالا که ما آن را از راه خارج کردیم ، شروع کنیم.
الزامات
ما برای پروژه خود به چند کتابخانه برای مدیریت تویت ها ، مجموعه داده ها ، نمودارها و انجام تجزیه و تحلیل احساسات واقعی نیاز خواهیم داشت.
بیایید آنها را در دفترچه یادداشت خود تنظیم کنیم:
! pip3 نصب سریع
! pip3 متن text را نصب کنید
! pip3 پانداها را نصب کنید
! pip3 matplotlib را نصب کنید
! pip3 wordcloud را نصب کنید
راه اندازی توییتر
قبل از رسیدن به کد ، باید اطمینان حاصل کنیم که کلیدهای API توییتر را برای بازیابی توییت های مورد نیاز برای تجزیه و تحلیل داریم. اگر قبلاً آنها را ندارید ، به https://apps.twitter.com بروید و به عنوان یک توسعه دهنده Twitter حساب ایجاد کنید تا مجبور شوید این اجازه را درخواست کنید و به برخی از س questionsالات پاسخ دهید.
روند تأیید از توییتر ممکن است 24 تا 48 ساعت طول بکشد. پس از آن ، کلیدهای API و رمزهای دسترسی خود را دریافت خواهید کرد.
اتصال به توییتر برای دریافت داده ها بسیار آسان است ، فقط کافی است کتابخانه تیز را وارد کنید ، وارد سیستم شوید و به صورت زیر بازیابی کنید:
وارد کردن ترفند
api_key = "AdvX3WxpD ... 5qnCT05AlS ..."
api_secret_key = "MjhprKWg6rzUCg1jeY0JwTu ... KuDwp3Sc2qvkULB7YKP4r ..."
access_token = "10251182-Hx3MTRpSwb8gNPl ... TvpX2DSn5HtZKEn67tJI ..."
access_token_secret = "F3CpH4JgtXRfMlj5Jlsl ... nniwgG1QzlkStwdiKws ..."
# شی Aut تأیید اعتبار را ایجاد کنید
احراز هویت = tweepy.OAuthHandler (api_key ، api_secret_key)
# تنظیم رمز ورود و دسترسی به رمز راز
authenticate.set_access_token (دسترسی_گفتار ، راز دسترسی_گفتار)
# ایجاد شی AP API
api = tweepy.API (احراز هویت ، منتظر_شده_را_محدود = درست)
اگر همه چیز خوب پیش رفت ، می توانید از کد زیر برای آزمایش اتصال خود استفاده کنید:
توییت ها = api.user_timeline (screen_name = "elonmusk" ، تعداد = 5 ، lang = "en" ، tweet_mode = "توسعه یافته")
برای توییت در توییت ها:
چاپ (f "- {tweet.full_text}")
################################################
# خروجی
################################################
-
- RT @ تسلا: Cybertruck در Giga Texas https://t.co/c1RuektPnN
- 🎸🎸 آستین راک !! 🎸
- @ Model3Owners همان با برلین
- @ Model3Owners تولید محدود مدل Y در سال جاری ، حجم زیاد در سال آینده
اگر همه چیز خوب است ، می توانید 5 توییت آخر Elon Musk را مشاهده کنید.
تهیه اطلاعات
ما همه چیزهایی را که برای دریافت توییت ها و شروع کار با آنها نیاز داریم ، داریم. بیایید یک مجموعه داده مهم تر را بارگیری کنیم ، بگذارید بگوییم 200 توییت.
توییت ها = api.user_timeline (screen_name = "elonmusk" ، تعداد = 200 ، lang = "en" ، tweet_mode = "توسعه یافته")
اکنون ، 200 توییت انتخاب دلخواهی نبوده است ، اما بیشترین مقدار ما می توانیم بدون استفاده از صفحه بندی با این روش بارگیری کنیم.
در مرحله بعدی ، این توییت ها با چند داده مورد نیاز ما همراه هستند ، بنابراین بیایید یک DataFrame پاندا ایجاد کنیم و فقط پیام توییت را بارگذاری کنیم ، بنابراین کار راحت تر است.
https://livecodestream.dev/post/