ویکیپدیا:واحد ضد خرابکاری/ربات
فاز ۱
۲۲٫۱٪، از هدف انجام شده برای اتمام فاز یک برچسبزنی و شروع کار آموزش ربات.
در این زیر صفحه توسعهٔ ربات مبارزه با خرابکاری پیگیری میشود. در اینجا برای همهٔ کاربران که علاقه به همکاری دارند کار هست. حداقلهای مورد نیاز، کافی کاربر توانایی جستجو در وب و خواندن زبان فارسی را داشته باشد و برای کاربران فنی کوئری نویسی و کدنویسی با پایتون کمک شایانیست.
روش کار ربات مبارزه با خرابکاری
ویرایشاین ربات بر پایهٔ پردازش زبان طبیعی و با توجه به نسخههای تفاوت ویرایشی که توسط کاربران در اینجا برچسب زدهشدهاند و متغییرهایی که در زیر بخش خصوصیتها (در پایین) از پایگاه داده ویکیپدیا استخراج میشوند. خواهد توانست بین ویرایش خوب و بد تفاوت قائل شود و نوع ویرایش را تشخیص دهد که تشخیص ربات عددی بین ۰ تا ۱ خواهد بود هر چه عدد به یک نزدیکتر باشد ویرایش خرابکاریتر است یا احتمال خرابکاری بیشتری دارد و برعکس.
برای راهاندازی ربات چندین سری فعالیت باید انجام شود که به شرح زیر است:
- تحقیق و بررسی نمونههای مشابه و مقالههای علمی و بررسی امکانات موجود و استفاده از تجربیات دیگر ویکیها در حال انجام...
- برچسبزنی حدود ۲۰ هزار نسخه ویرایشی که در وپ:ابز به صورت ویکیپروژه توسط چندین کاربر برچسبزن در حال پیگیریست. تعدادی از برچسبها هم توسط کوئری بر پایهٔ خلاصه ویرایش یا نام کاربری به صورت فلهای زده خواهند شد. در حال انجام...
- توسعه کدهای ربات برای پردازش زبان بر پایهٔ کتابخانههای یادگیری ماشینی و deep learning
- توسعه کدهای ربات برای واگردانی یا هشدار دادن در مورد ویرایشهای مشکوک
دیتای مورد نیاز
ویرایش- دیتای برچسبخورده
- برچسب به کمک ایپیآی ORES
- دیتای برچسبخورده POS برای زبان فارسی
- دیتای برچسبخورده NER برای زبان فارسی
پردازش دیتابیس
ویرایشخصوصیتها
ویرایش- متا دیتای مقاله
- تعداد بازدید هفته گذشته
- تعداد بازدید هفته گذشته به میانگین سال گذشته
- حجم مقاله
- عمر مقاله
- تعداد کل ویرایش در مقاله
- تعداد نویسندگان یکتا
- نسبت کاربر آیپی و تازهوارد به کاربر باتجربه
- تعداد ویرایش ۳۰ روز اخیر
- فاصله زمانی ویرایش تا ویرایش قبلی
- فاصلهٔ زمانی تا آخرین واگردانی
- تعداد ویرایش کاربر قبلی
- تعداد پیگیریکننده صفحه
- تعداد کاربرانی که بعد از آخرین ویرایش مقاله را دیدند
- تعداد خرابکاری در تاریخچه
- حجم تفاوت ویرایش به متوسط حجم ویرایش ۵ درصد کاربر بیشتر فعال در تاریخچه
- حجم مقاله تا پیش از این ویرایش
- آیا ویرایش جزئیست؟
- مشخصات کاربر
- تعداد ویرایش
- متوسط ویرایش کاربر بر پایهٔ یک سال گذشته
- دسترسی کاربر
- تعداد خنثیشده
- تعداد خنثیکرده
- تعداد کاربران یکتا که ویرایش کاربر مذکور را خنثیکردهاند
- تعداد بسته شده
- فاصلهٔ میان ثبتنام و ویرایش
- فاصله با آخرین مقالهای که ویرایش کرده
- زمان تا آخرین ویرایش کاربر که واگردانی شده
- مشخصات متن و خلاصه ویرایش
- سطح جمله
- متوسط طول جمله
- متوسط طول کلمه
- متوسط بر جمله:
- متوسط تعداد کلمه یکتا بر جمله
- متوسط تعداد سجاوندی بر جمله
- متوسط POS بر جمله
- بر جمله:
- تعداد فعل بر جمله
- تعداد صفت بر جمله
- تعداد حرف ربط به جمله
- تعداد نامها و مکانها بر جمله
- تعداد قید بر جمله
- تعداد کلمه بر جمله
- تعداد کاراکتر بر جمله
- سطح متن
- تعداد جمله
- تعداد کلمه یکتا
- تعداد فعل
- تعداد صفت
- تعداد قید
- تعداد حرف ربط
- تعداد قید مقایسهای
- تعداد حرف اضافه
- تعداد جملهٔ فعال
- رتبهٔ پیچیدگی متن
- تعداد عدد
- تعداد نویسه غیر نوشتاری
- تعداد نویسهٔ مدیاویکی
- تعداد الگو استفاده شده
- تعداد منبع
- تعداد پیوند به بیرون
- تعداد پیوند درونی
- تعداد تصویر افزوده شده یا حذف شده
- تعداد رده افزوده یا حذف شده
- متوسط طول جمله
- حداقل طول جمله
- حداکثر طول جمله
- نسبت طول زیاد به طول کم جمله
- درصد جملات آغاز شده با حرف ربط، قید، صفت، اسم
- درصد عبارتهای القابی به جمله (آقای، جناب و...)
- پرکاربردترین N-Gram های متن
- کلمات موجود در فهرست سیاه
- خلاصه ویرایش
- آیا در خلاصه ویرایش عبارت خنثیسازی یا نام کاربر هست؟
- آیا ویرایش قبل از این ویرایش خلاصهاش خنثیسازی بوده (جنگ ویرایشی)
- قطبیت
- میزان قطبی بودن متن
- زمان ویرایش
- زمان ویرایش در شبانهروز
- زمان در هفته
- زمان در سال
- آیپی
- موقعیت و کشور یا محدودهٔ آیپی
- مقایسه برداری
- مقایسهٔ ویرایش با ویرایش یک کاربر تائید شده و متن مقاله
برای زبانهای لاتین
ویرایش- نسبت 1+upper به 1+lower
- نسبت Upper به کل
کدهای استخراج خصوصیت
ویرایشتوابع پایتون مورد نیاز
ویرایشتابع | شرح | مثال | کد |
---|---|---|---|
تابع خلاصه کردن تاریخچهٔ صفحه | کد باید تاریخچه را اسکن کند و هر تعداد ویرایش پشت سر هم توسط یک کاربر انجام شدهاند را به عنوان یک ویرایش در نظر بگیرد و id ویرایش اول و آخر کاربر را به عنوان خروجی بدهد. | مثلاً کاربر:الف امروز ۳ ویرایش پشت سرهم انجام داده id ویرایش اولی و آخری بازگردد. | تابع ۱ |
تابع تمیزکاری API تفاوت ویرایشها | تابعی که خروجی API-1 را بگیرد و به صورت یک دیکشنری ارائه دهد. | تابع ۲ | |
تابع یافتن کشور IP | تابعی که Ip بگیرد و کشورش یا استانش را بگوید | تابع ۳ |
Mysql
ویرایشکوئری | شرح | مثال | کد |
---|---|---|---|
کوئری ۱ | تعداد خنثیکرده یک کاربر خاص که توسط خودش نباشد. | کاربر:الف ۱۰۰ بار ویرایش دیگران (به جز خودش) را واگردانی یا خنثی کرده | کوئری ۱ |
کوئری ۲ | تعداد ویرایشهای خنثیشدهٔ یک کاربر خاص که توسط خودش نباشد. | کاربر:الف ۱۰۰ بار ویرایشهایش توسط دیگران (به جز خودش) واگردانی یا خنثی شدهاست. | کوئری ۲ |
کوئری ۳ | تعداد دفعات بسته شدن یک کاربر خاص در یک بازه مشخص | تعداد بسته شدن کاربر:الف در یک سال گذشته. | کوئری ۳ |
API
ویرایشAPI | شرح | کد |
---|---|---|
API-1 | دریافت متن تفاوت ویرایشها بر پایهٔ دو id | کد API |
API-2 | فهرست دسترسیهای یک کاربر | کد API |
API-3 | فهرست گروههای کاربری یک کاربر | کد API |
API-4 | تعداد ویرایش یک کاربر | کد API |
API-5 | زمان ثبت نام کاربر | کد API |
API-6 | تعداد بازدید صفحه | کد API |
API-7 | تعداد کاربران پیگیریکننده بعد از آخرین ویرایش | این |
API-8 | تعداد کاربران پیگیریکننده | این |
- API-9: تاریخچه
برچسبزنی
ویرایش- نکته۱: در اینجا عبارت واگردانی، به مفهومهایی مانند خنثیکردن، بازگرداندن، واگردانی کردن و هر عملی که ویرایش قبل را به صورت کامل به ویرایش قبلتر بازگرداند اشاره دارد.
- نکته۲:معیار قضاوت فقط ویرایشیست که مشاهده میکنید و کاری به ویرایش قبل و بعد نداریم.
- نکته۳: واگردانی ویرایش یک کاربر باید بر اساس یکی از معیارهای زیر باشد. (دلیلهایی مانند: چون آیپی بود، چون تازهوارد بود و... برای واگردانی یک ویرایش مناسب نیست)
واگردانی میکنم یا درخواست حذف میدهم | ||
---|---|---|
دکمه در ابزار | برچسب | توضیح |
افزودن متن نامناسب | Rمتن نامناسب | افزودن متنی که تقریباً گرامرش درست است ولی مفهومش مناسب نیست یا جانبدارانه است یا منبع ضعیف دارد یا مفهوم مقاله را با مشکل مواجه میکند. |
تبلیغ | Rتبلیغ | تبلیغ، اسپمینگ پیوند اینترنتی، شماره تلفن شخصی و… منظور تبلیغ آشکار است. اگر کاربر متنی بیافزاید که ظاهر درست داشته باشد ولی منبع نامعتبر باشد شامل تبلیغ نمیشود. تبلیغ یکی افزودن متن کاملا تبلیغاتی یا افزودن بیدلیل پیوند به بیرون با منبع به متنی که در آن منبع نیست. |
کپیکاری | Rکپی | کپیکاری با منبع یا بدون منبع (منبع معتبر یا نامعتبر) |
عبارت نامفهوم | Rچرند | عبارت نامفهوم، چرندیات، ایموجی و… |
فحاشی، توهین | Rفحش | فحاشی، توهین یا افشای اطلاعات شخصی |
خرابکردن سینتکس ویکی | Rسینتکس | خراب کردن نحوهٔ نمایش مقاله از نظر سینتکس ویکی (خراب کردن سینتکس ویکی) یا خرابکاری در پیوند داخلی |
دستکاری اعداد و آمار، پیوند | Rآمار | دستکاری آمار و اعداد یا پیوندهای داخلی (به نیت تغییر عدد) به نحوی که جانبدارانه باشد یا نادرست باشد یا با منبع تطبیق نداشته باشد (خرابکاری باشد) و حتما باید عدد و ارقام در ویرایش تغییر کرده باشند. |
خرابکردن گرامر یا املاء | Rگرامر | خراب کردن گرامر یا ساختار متن |
حذف نادرست مطلب | Rحذف نادرست | حذف متن، تصویر، رده یا الگویی که درست است (ممکن است متن منبع داشته باشد یا منبع نداشته) |
خرابکاری عمدی | Rخرابکار | خرابکاری عمدی صورت گرفته و کاربر حسن نیت ندارد و بهتر است یا به وی هشدار داده شود یا بسته شود. |
کاربر تحریم | Rتحریم | کاربر تحریم یا بسته شده که باید واگردانی شود. |
سایر دلایل | Rسایر | سایر موارد در بالا نیست. |
واگردانی نمیکنم | ||
---|---|---|
دکمه در ابزار | برچسب | توضیح |
افزودن یا اصلاح متن درست | Nدرست | افزودن یا اصلاح متن درست و مناسب یا ترجمه (با منبع یا بدون منبع) |
بهروزکردن آمار و ارقام | Nآمار | بهروز کردن آمار و ارقام جعبه یا متن یا تاریخهای تولد و سایر تاریخها. حتما باید عدد و ارقام در ویرایش تغییر کرده باشند. |
اصلاح ساختار مقاله | Nساختار | اصلاح ساختار مقاله یا جابجایی زیربخشها یا مرتب کردن مقاله یا متن مثلا زیربخش یا جمله یا پاراگراف تاریخچه را از ابتدای مقاله به وسط مقاله یا متن ببرد. معمولا جابجایی منظور است نه فقط افزودن یا حذف کامل یک بخش یا متن |
ترجمه | Nترجمه | جایگزینی متن لاتین (حتما متن لاتین در ویرایش قبلی باشد) با متن فارسی به قصد ترجمه متن، پیوند و... با گسترش مقاله توسط ترجمه اشتباه نشود |
افزودن منبع، الگو، رده و.. | Nمنبع | افزودن یادکرد یا منبع، تصویر مناسب، الگو، رده یا جدول مناسب |
رفع املاء | Nاملا | رفع غلط املایی (زمانی که کلمه در ویرایش قبل غلط املایی داشته) |
رفع گرامر | Nگرامر | رفع مشکل انشایی و گرامری |
اصلاح سینتکس ویکی | Nسینتکس | اصلاح سینتکس ویکی یا ویکیسازی یا اصلاح پیوند داخلی |
اصلاح یا افزودن سجاوندی | Nسجاوندی | اصلاح یا افزودن سجاوندی یا فاصله یا نویسههای پنهان |
ابزار خودکار | Nابزارها | ابزارهای خودکار (مانند ربات، جاوااسکریپت مانند ابرابزار، وپ:وخ و…) |
حذف متن نادرست یا نامناسب | Nحذف نامناسب | حذف متن، تصویر یا الگو یا رده نادرست یا نامناسب |
واگردانی یا خنثیسازی درست یک خرابکاری توسط کاربر دیگر | Nواگردانی | واگردانی یا خنثیسازی یک خرابکاری توسط کاربر دیگر که درست بوده و مقاله را به همین صورت رها میکنیم چون محصول نهایی بهتر از گذشته است. توجه: باید در خلاصه ویرایش عبارت واگردانی یا خنثیسازی باشد. |
ویرایش موثر | Nموثر | ویرایش به ارتقا مقاله بسیار کمک کرده و کاربر شایسته تقدیر یا نشان است. معمولا برای ویرایشهای استاندارد یا ترجمههای خوب و منبعدار این برچسب را میزنیم. |
پاسخ به بحث | Nپاسخ | پاسخ به بحث، که مشکل فحاشی و تمسخر و... نداشته باشد و برای آن پاسخ کاربر تذکر نگیرد یا بسته نشود! یا انصراف از بحث و حذف متن توسط خود کاربر |
ویرایش نامهم یا سایر موردها | Nسایر | سایر مواردی که در بالا نیست یا ویرایش نامهم یعنی ویرایشی که بود و نبودش زیاد تفاوت مفهومی و ظاهری برای متن و ویکیپدیا ندارد و از کنارش میگذریم! |
برای برچسبزنی به نسخههای ویرایشی موجود در تغییرات اخیر، تاریخچه، فهرست پیگیریها و تفاوت ویرایش به ویکیپدیا:واحد ضد خرابکاری/ربات/ارزشیابی/راهنما مراجعه کنید و به کمک ابزار موجود در آنجا به نسخهها برچسب بزنید.
همکاری
ویرایشبرای همکاری لطفا به ویکیپدیا:واحد ضد خرابکاری/ربات/ارزشیابی/راهنما مراجعه کنید.
- همکاران پروژه
جستارهای وابسته
ویرایش
منابع
ویرایش- Identifying Semantic Edit Intentions from Revisions in Wikipedia 1
- Automatically Classifying Edit Categories in Wikipedia Revisions 2
- Wikipedia Vandalism Detection Through MachineLearning: Feature Review and New Proposals
- Detecting Promotional Content in Wikipedia
- Wikipedia Vandalism Detection: CombiningNatural Language, Metadata, and ReputationFeatures
- Improving Wikipedia Vandalism Detection via Stylometric Analysis
- Using Dynamic Markov Compression to Detect Vandalism in the Wikipedia
- Detecting Wikipedia Vandalism with Active Learning and Statistical Language Models
- Wikipedia Vandalism Detection Through Machine Learning: Feature Review and New Proposals: Lab Report for PAN at CLEF 2010
- Automatic Vandalism Detection in Wikipedia:Towards a Machine Learning Approach
- Detecting Wikipedia Vandalism viaSpatio-Temporal Analysis of Revision Metadata
- Detecting Vandalism on Wikipediaacross Multiple Languages
- Potthast, Martin; Stein, Benno; Gerling, Robert (2008), Macdonald, Craig; Ounis, Iadh; Plachouras, Vassilis; Ruthven, Ian (eds.), "Automatic Vandalism Detection in Wikipedia", Advances in Information Retrieval (به انگلیسی), Springer Berlin Heidelberg, vol. 4956, pp. 663–668, doi:10.1007/978-3-540-78646-7_75, ISBN 9783540786450, retrieved 2019-06-14
- Adler, B. Thomas; de Alfaro, Luca; Mola-Velasco, Santiago M.; Rosso, Paolo; West, Andrew G. (2011), "Wikipedia Vandalism Detection: Combining Natural Language, Metadata, and Reputation Features", Computational Linguistics and Intelligent Text Processing, Springer Berlin Heidelberg, pp. 277–288, ISBN 9783642194368, retrieved 2019-06-14
- Detecting Wikipedia Vandalism via SpatioTemporal Analysis of Revision Metadata
- Language of vandalism: improving Wikipedia vandalism detection via stylometric analysis
پیوندهای بیرونی
ویرایش- دادگان انگلیسی
- Wikipedia Edit Category Corpus
- JWPL برای استخراج ویژگی از دامپ (RevisionToolkit)