فرمت مقاله : Word
تعداد صفحات : 29
چکیده
رشد فزاینده پایگاه دادهها در تقریبا هر ناحیه از فعالیت انسان باعث شده است که نیاز برای ابزارهای قدرتمند جدید برای تغییر دادن داده به دانش مفید افزایش یابد. برای برآوردن این نیاز محققان در ناحیههای مختلف مانند یادگیری ماشین[1]، شناسایی الگو، آنالیز داده آماری، بصری سازی داده[2]، شبکههای عصبی، اقتصاد سنجی، بازیابی اطلاعات، استخراج اطلاعات و..... روشها و ایدههایی را کاوش کردهاند. ذات غیرساخت یافته ی این متون، اعمال همان روشهایی را که ما در مورد پایگاه دادههای غیرمتنی بکار می بریم، غیر ممکن می سازد. بنابراین روشها و الگوریتمهای پردازش (پیش پردازش)خاصی برای استخراج الگوهای مفید موردنیاز است. متن کاوی اطلاعات متنی غیرساختیافته را استفاده میکند و آنرا برای کشف ساختار و معناهای ضمنی پنهان در متن بررسی میکند. در این مقاله ما به بررسی یکی از جدیدترین زمینههای مورد تحقیق در داده کاوی، متن کاوی میپردازیم. در این مقاله روشهای موجود برای پیش پردازش کردن، رده بندی[3]، استخراج اطلاعات[4]، روشهای یافتن روابط شرح داده میشوند در پایان هر بخش ارزیابی و مقایسهای روی روشهای بیان شده در آن بخش صورات میگیرد و در پایان تعدادی از کاربردهای متن کاوی بیان میگردند.
[1] Machine learning
[2] Data visualization
[3] classification
[4] Information extraction
چکیده
امروزه با افزایش روز افزون حجم اطلاعات متنی، وجود روشهای طبقه بندی متون ضروری به نظر میرسد. همچنین با رشد فزاینده ی منابع متنی فارسی این مهم بیشتر احساس میشود هرچند که هنوز کارهای صورت گرفته مخصوصاً در زمینهی طبقه بندی متون فارسی به گستردگی لاتینی، چینی و غیره نیست. در این مقاله مروری کلی بر روشهای استخراج ویژگی و انواع روشهای طبقه بندی صورت گرفته و در نهایت نتایج حاصل از دو طبقه بند بیزین ساده و ماشین بردار پشتیبان با هم مقایسه میشوند. نتایج حاصل از آزمایشات صورت گرفته حاکی از این است که طبقه بندی کننده ی ماشین بردار پشتیبان از عملکرد بهتری برخوردار است.
واژه های کلیدی طبقه بندی متون، بردار ویژگی، ماشین بردار پشتیبان، متن کاوی.